CN111414765B - 句子一致性的判定方法、装置、电子设备及可读存储介质 - Google Patents
句子一致性的判定方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111414765B CN111414765B CN202010203644.6A CN202010203644A CN111414765B CN 111414765 B CN111414765 B CN 111414765B CN 202010203644 A CN202010203644 A CN 202010203644A CN 111414765 B CN111414765 B CN 111414765B
- Authority
- CN
- China
- Prior art keywords
- sentence
- score
- matching
- sentences
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims description 52
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种句子一致性的判定方法、装置、电子设备及可读存储介质,涉及知识图谱领域。具体实现方案为:获取待判定一致性的句子对;将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致。根据本申请公开的实施例,可以从语义和非语义两个角度来一同判定相应句子对中两个句子是否一致,从而提高判定的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及知识图谱领域。
背景技术
句子一致性判定可以是指判定两个句子的逻辑是否一致。目前,常采用单一的预训练模型比如ERNIE模型来判定两个句子的一致性与否,但判定的准确率较差。
发明内容
本申请实施例提供一种句子一致性的判定方法、装置、电子设备及可读存储介质,以解决现有判定句子一致性方式的准确率较差的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种句子一致性的判定方法,包括:
获取待判定一致性的句子对;
将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;
利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;
根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致。
这样,借助预先训练的句子一致性匹配模型和预设的字符匹配模型,可以从语义和非语义两个角度来一同判定相应句子对中两个句子是否一致,从而提高判定的准确率。
可选的,所述句子对包括第一句子和第二句子,且所述第一句子的长度小于所述第二句子的长度;所述预设的字符匹配模型的打分方式包括:
在所述第一句子是所述第二句子中的部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第一得分;
或者,在所述第一句子不是所述第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分;
或者,在所述第一句子不是所述第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分;
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。
这样,借助此预设的字符匹配模型,可以解决短句和长句的一致性匹配问题。
可选的,所述根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致,包括:
采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分:
F=1-(1-p*p_weight)*(1-q*q_weight)
根据所述目标得分,判定所述句子对中两个句子是否一致;
其中,F表示所述目标得分,p表示所述第一匹配得分,p_weight表示所述第一匹配得分的权重,q表示所述第二匹配得分,q_weight表示所述第二匹配得分的权重。
这样,借助该集成公式,可以将预先训练的句子一致性匹配模型和预设的字符匹配模型有效集成在一起,从而进一步提高判定的准确率。
可选的,所述根据所述目标得分,判定所述句子对中两个句子是否一致,包括:
当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。
这样,通过预设分值阈值,可以准确判定相应句子对中两个句子是否一致。
可选的,所述将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分之前,所述方法还包括:
构建第一训练语料;其中,所述第一训练预料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;
根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练预料训练得到用于判定句子一致性的模型,所述第二训练预料包括所述公开数据集中的第三预设数量的句子对。
这样,可以获得领域相关的句子一致性匹配模型,从而实现相应领域的句子一致性判定。
第二方面,本申请实施例提供了一种句子一致性的判定装置,包括:
获取模块,用于获取待判定一致性的句子对;
输入模块,用于将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;
处理模块,用于利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;
判定模块,用于根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致。
可选的,所述句子对包括第一句子和第二句子,且所述第一句子的长度小于所述第二句子的长度;
所述预设的字符匹配模型的打分方式包括
在所述第一句子是所述第二句子中的部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第一得分;
或者,在所述第一句子不是所述第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分;
或者,在所述第一句子不是所述第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分;
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。
可选的,所述判定模块包括:
处理单元,用于采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分:
F=1-(1-p*p_weight)*(1-q*q_weight)
判定单元,用于根据所述目标得分,判定所述句子对中两个句子是否一致;
其中,F表示所述目标得分,p表示所述第一匹配得分,p_weight表示所述第一匹配得分的权重,q表示所述第二匹配得分,q_weight表示所述第二匹配得分的权重。
可选的,所述判定单元具体用于:当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。
可选的,所述装置还包括:
构建模块,用于构建第一训练语料;其中,所述第一训练预料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;
调整模块,用于根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练预料训练得到用于判定句子一致性的模型,所述第二训练预料包括所述公开数据集中的第三预设数量的句子对。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的句子一致性的判定方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的句子一致性的判定方法。
上述申请中的一个实施例具有如下优点或有益效果:可以从语义和非语义两个角度来一同判定相应句子对中两个句子是否一致,从而提高判定的准确率。因为采用了获取待判定一致性的句子对,将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分,利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分,并根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致的技术手段,所以克服了现有判定句子一致性方式的准确率较差的技术问题,进而达到提高判定的准确率的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例的句子一致性的判定方法的流程图;
图2是本申请实施例中模型的总体流程示意图;
图3是用来实现本申请实施例的句子一致性的判定方法的判定装置的框图;
图4是用来实现本申请实施例的句子一致性的判定方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参见图1,图1是本申请实施例提供的一种句子一致性的判定方法的流程图,该方法应用于电子设备,如图1所示,可包括如下步骤:
步骤101:获取待判定一致性的句子对。
本实施例中,该句子对包括两个句子,比如第一句子和第二句子。对于该两个句子的长度,可以相同,也可以不同。比如该两个句子中,一个为长句,另一个为短句。
步骤102:将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分。
可选的,该预先训练的句子一致性匹配模型可为增强语言表征模型(ernie模型),或者神经网络模型(比如bert模型)等。该预先训练的句子一致性匹配模型可以是基于预先构建的句子一致性语料训练得到。对于第一匹配得分的取值范围,可以基于实际需求预先设置。比如,该第一匹配得分的取值范围可选为0至1。
步骤103:利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分。
需指出的,该预设的字符匹配模型(character matching model)可理解为类复合分位数回归(Composite Quantile Regression,CQR)的匹配模型,可表示为基于字符粒度(非语义)的匹配算子。对于第二匹配得分的取值范围,可以基于实际需求预先设置。比如,该第二匹配得分的取值范围可选为0至1。
可选的,为了解决短句和长句的一致性匹配问题,若上述待判定一致性的句子对包括第一句子和第二句子,且第一句子(可称为短句)的长度小于第二句子(可称为长句)的长度,该预设的字符匹配模型的打分方式可包括:
(1)在第一句子是第二句子中的部分内容(即第一句子是第二句子中的完整一部分)的情况下,所述第一句子和所述第二句子的匹配得分为第一得分。
或者,(2)在第一句子不是第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分。
或者,(3)在第一句子不是第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分。
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。也就是说,在第一句子是第二句子中部分内容的情况下,第一句子和第二句子的一致性匹配更高。而至于第一得分、第二得分、第三得分、第四得分具体为多少,可以基于实际需求预先设置,本实施例不对此进行限制。可理解的,第四得分可取值为0,即在第一句子和第二句子不存在公共部分内容,相应得分为0。
对于编辑距离(Edit Distance),通常是指两个字符串之间,由一个转变成另一个所需的最少编辑操作次数。该编辑操作可包括将一个字符替换成另一个字符、插入一个字符和/或删除一个字符。一般来说,编辑距离越小,两个字符串的相似度越大。上述针对编辑距离d的预设阈值,可以基于实际需求预先设置,在此不进行限制。
步骤104:根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致。
一种实施方式中,在根据第一匹配得分和第二匹配得分进行判定时,可以首先对第一匹配得分和第二匹配得分进行集成处理,然后根据集成处理后的得分,判定该句子对中两个句子是否一致;也可以首先根据第一匹配得分或第二匹配得分,分别判定该句子对中两个句子是否一致,然后基于判定出的一致性结果以及预设规则(比如,仅在根据第一匹配得分判定某句子对中两个句子一致,且根据第二匹配得分判定该句子对中两个句子一致的情况下,才判定该句子对中两个句子一致),最终判定该句子对中两个句子是否一致。
本申请实施例中的判定方法,借助预先训练的句子一致性匹配模型和预设的字符匹配模型,可以从语义和非语义两个角度来一同判定相应句子对中两个句子是否一致,从而提高判定的准确率。
本申请实施例中,上述步骤104中判定句子对中两个句子是否一致的过程可以包括:
采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分,并根据所述目标得分,判定所述句子对中两个句子是否一致:
F=1-(1-p*p_weight)*(1-q*q_weight)
其中,F表示目标得分,p表示第一匹配得分,p_weight表示第一匹配得分的权重,q表示第二匹配得分,q_weight表示第二匹配得分的权重。这样,借助该集成公式,可以将预先训练的句子一致性匹配模型和预设的字符匹配模型有效集成在一起,从而进一步提高判定的准确率。
需指出的,该集成公式中,p和q的取值范围为[0,1]。p_weight和q_weight的取值范围为[0,1],可默认为1,而当取值小于1时,表示弱化相应模型的影响力。特别地,当p_weight等于0时,上述集成公式就会退化成1-(1-q*q_weight),即仅考虑根据预设的字符匹配模型来判定相应句子对中两个句子是否一致;或者,当q_weight等于0时,上述集成公式就会退化成1-(1-p*p_weight),即仅考虑根据预先训练的句子一致性匹配模型来判定相应句子对中两个句子是否一致。
进一步的,上述根据所述目标得分,判定所述句子对中两个句子是否一致的过程可包括:当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。对于该预设分值阈值,可以基于实际需求预先设置,在此不进行限制。
本申请实施例中,上述预先训练的句子一致性匹配模型可选为通用模型,比如根据从公开数据集(也可称为:通用数据集)中选取的句子一致性语料(如预设数量的句子对)训练得到;也可选为特定领域(比如,医疗领域、通信领域等)相关的模型,比如基于迁移学习中的微调(fine-tune)获得。
可选的,在上述预先训练的句子一致性匹配模型为特定领域相关的模型的情况下,上述步骤102之前,所述方法还可包括:
构建第一训练语料;其中,所述第一训练预料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;对于所述第二语料,可利用远程监督学习的方式构建;
根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练预料训练得到用于判定句子一致性的模型,所述第二训练预料包括所述公开数据集中的第三预设数量的句子对。
这样,借助微调可以简便获得领域相关的句子一致性匹配模型,从而实现相应领域的句子一致性判定。
对于上述微调的方式,可以选用现有迁移学习中常用的微调方式,比如冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层;等等。对于上述的第一预设数量、第二预设数量和第三预设数量,可以基于实际需求预先设置,在此不进行限制。
下面,结合图2对本申请具体实施例中的判定过程进行说明。
1)首先利用远程监督学习的方式,从特定领域(如医疗领域)数据中选取近5万条句子对,并从通用领域数据(公开数据集)中选取近20万条句子对,组成句子一致性训练语料;然后,根据该句子一致性训练语料对预先训练模型(如ernie模型)进行微调(fine-tune),获得领域相关的句子一致性匹配模型model_1(如domain-ernie模型)。
2)为了解决短句和长句的一致性匹配问题,采用类CQR方式设定字符匹配模型model_2,该model_2可如上所述的字符匹配模型。
3)集成该领域相关的句子一致性匹配模型model_1和该字符匹配模型model_2,如利用上述集成公式集成在一起,获得集成模型final_model-(如integrated-ernie模型)。
这样,借助该集成模型final_model,不仅可以进行相应领域的句子一致性判定,还可以弥补短句和长句的匹配问题。
如下表1所示,为本申请具体实施例中分别根据ernie模型、domain-ernie模型或integrated-ernie模型,分别对医疗领域中句子对进行一致性判定的结果:
表1
Model | 精确率 | 召回率 |
ernie模型 | 0.907 | 0.382 |
domain-ernie模型 | 0.912 | 0.564 |
integrated-ernie模型 | 0.921 | 0.715 |
从上述表1可知,对于判定效果,domain-ernie模型会优于ernie模型,而integrated-ernie模型会优于ernie模型和domain-ernie模型,即集成模型的判定效果最显著。
请参见图3,图3是本申请实施例提供的一种句子一致性的判定装置的结构示意图,如图3所示,该判定装置30包括:
获取模块31,用于获取待判定一致性的句子对;
输入模块32,用于将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;
处理模块33,用于利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;
判定模块34,用于根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致。
可选的,所述句子对包括第一句子和第二句子,且所述第一句子的长度小于所述第二句子的长度;所述预设的字符匹配模型的打分方式包括:
在所述第一句子是所述第二句子中的部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第一得分;
或者,在所述第一句子不是所述第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分;
或者,在所述第一句子不是所述第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分;
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。
可选的,所述判定模块34包括:
处理单元,用于采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分:
F=1-(1-p*p_weight)*(1-q*q_weight)
判定单元,用于根据所述目标得分,判定所述句子对中两个句子是否一致;
其中,F表示所述目标得分,p表示所述第一匹配得分,p_weight表示所述第一匹配得分的权重,q表示所述第二匹配得分,q_weight表示所述第二匹配得分的权重。
可选的,所述判定单元具体用于:当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。
可选的,所述判定装置30还可包括:
构建模块,用于构建第一训练语料;其中,所述第一训练预料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;
调整模块,用于根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练预料训练得到用于判定句子一致性的模型,所述第二训练预料包括所述公开数据集中的第三预设数量的句子对。
可理解的,本申请实施例的判定装置30,可以实现上述图1所示判定方法实施例中实现的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是用来实现本申请实施例的句子一致性的判定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的句子一致性的判定方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的句子一致性的判定方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的句子一致性的判定方法对应的程序指令/模块(例如,附图3所示的获取模块31、输入模块32、处理模块33和判定模块34)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的句子一致性的判定方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
句子一致性的判定方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与句子一致性的判定方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声音输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过预先训练的句子一致性匹配模型和预设的字符匹配模型,可以从语义和非语义两个角度来一同判定相应句子对中两个句子是否一致,从而提高判定的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种句子一致性的判定方法,其特征在于,包括:
获取待判定一致性的句子对;
将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;
利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;
根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致;
所述句子对包括第一句子和第二句子,且所述第一句子的长度小于所述第二句子的长度;
所述预设的字符匹配模型的打分方式包括:
在所述第一句子是所述第二句子中的部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第一得分;
或者,在所述第一句子不是所述第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分;
或者,在所述第一句子不是所述第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分;
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致,包括:
采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分:
F=1-(1-p*p_weight)*(1-q*q_weight)
根据所述目标得分,判定所述句子对中两个句子是否一致;
其中,F表示所述目标得分,p表示所述第一匹配得分,p_weight表示所述第一匹配得分的权重,q表示所述第二匹配得分,q_weight表示所述第二匹配得分的权重。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标得分,判定所述句子对中两个句子是否一致,包括:
当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;
或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。
4.根据权利要求1所述的方法,其特征在于,所述将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分之前,所述方法还包括:
构建第一训练语料;其中,所述第一训练语料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;
根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练语料训练得到用于判定句子一致性的模型,所述第二训练语料包括所述公开数据集中的第三预设数量的句子对。
5.一种句子一致性的判定装置,其特征在于,包括:
获取模块,用于获取待判定一致性的句子对;
输入模块,用于将所述句子对输入到预先训练的句子一致性匹配模型中,获得所述句子对中两个句子的第一匹配得分;
处理模块,用于利用预设的字符匹配模型,对所述句子对进行打分,得到所述句子对中两个句子的第二匹配得分;
判定模块,用于根据所述第一匹配得分和所述第二匹配得分,判定所述句子对中两个句子是否一致;
所述句子对包括第一句子和第二句子,且所述第一句子的长度小于所述第二句子的长度;
所述预设的字符匹配模型的打分方式包括:
在所述第一句子是所述第二句子中的部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第一得分;
或者,在所述第一句子不是所述第二句子中的部分内容,所述第一句子和所述第二句子存在公共部分内容,且所述公共部分内容和所述第一句子的编辑距离为d的情况下,若所述d小于或等于预设阈值,则所述第一句子和所述第二句子的匹配得分为第二得分;或者,若所述d大于所述预设阈值,则所述第一句子和所述第二句子的匹配得分为第三得分;
或者,在所述第一句子不是所述第二句子中的部分内容,且所述第一句子和所述第二句子不存在公共部分内容的情况下,所述第一句子和所述第二句子的匹配得分为第四得分;
其中,所述第一得分高于所述第二得分,所述第二得分高于所述第三得分,所述第三得分高于所述第四得分。
6.根据权利要求5所述的装置,其特征在于,所述判定模块包括:
处理单元,用于采用如下集成公式,对所述第一匹配得分和所述第二匹配得分进行处理,得到目标得分:
F=1-(1-p*p_weight)*(1-q*q_weight)
判定单元,用于根据所述目标得分,判定所述句子对中两个句子是否一致;
其中,F表示所述目标得分,p表示所述第一匹配得分,p_weight表示所述第一匹配得分的权重,q表示所述第二匹配得分,q_weight表示所述第二匹配得分的权重。
7.根据权利要求6所述的装置,其特征在于,
所述判定单元具体用于:当所述目标得分大于或等于预设分值阈值时,判定所述句子对中两个句子一致;或者,当所述目标得分小于所述预设分值阈值时,判定所述句子对中两个句子不一致。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
构建模块,用于构建第一训练语料;其中,所述第一训练语料包括第一语料和第二语料,所述第一语料包括公开数据集中的第一预设数量的句子对,所述第二语料包括与所述待判定一致性的句子对的领域相关的第二预设数量的句子对;
调整模块,用于根据所述第一训练语料,对预先训练模型进行微调,得到领域相关的所述句子一致性匹配模型;其中,所述预先训练模型是根据第二训练语料训练得到用于判定句子一致性的模型,所述第二训练语料包括所述公开数据集中的第三预设数量的句子对。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203644.6A CN111414765B (zh) | 2020-03-20 | 2020-03-20 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203644.6A CN111414765B (zh) | 2020-03-20 | 2020-03-20 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414765A CN111414765A (zh) | 2020-07-14 |
CN111414765B true CN111414765B (zh) | 2023-07-25 |
Family
ID=71491439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010203644.6A Active CN111414765B (zh) | 2020-03-20 | 2020-03-20 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414765B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377921B (zh) * | 2021-06-25 | 2023-07-21 | 北京百度网讯科技有限公司 | 用于匹配信息的方法、装置、电子设备以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783806A (zh) * | 2018-12-21 | 2019-05-21 | 众安信息技术服务有限公司 | 一种利用语义解析结构的文本匹配方法 |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006018354A (ja) * | 2004-06-30 | 2006-01-19 | Advanced Telecommunication Research Institute International | テキスト分割装置及び自然言語処理装置 |
CN102298635B (zh) * | 2011-09-13 | 2013-09-04 | 苏州大学 | 事件信息融合方法和系统 |
CN104008187B (zh) * | 2014-06-11 | 2017-02-01 | 北京邮电大学 | 一种基于最小编辑距离的半结构化文本匹配方法 |
CN104331449B (zh) * | 2014-10-29 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
US10810374B2 (en) * | 2016-08-03 | 2020-10-20 | Baidu Usa Llc | Matching a query to a set of sentences using a multidimensional relevancy determination |
JP6665061B2 (ja) * | 2016-08-29 | 2020-03-13 | 日本電信電話株式会社 | 整合性判定装置、方法、及びプログラム |
WO2018057945A1 (en) * | 2016-09-22 | 2018-03-29 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN108268441B (zh) * | 2017-01-04 | 2021-06-22 | 科大讯飞股份有限公司 | 句子相似度计算方法和装置及系统 |
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108363692B (zh) * | 2018-02-13 | 2021-04-02 | 成都智库二八六一信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN109033212B (zh) * | 2018-07-01 | 2021-09-07 | 上海新诤信知识产权服务股份有限公司 | 一种基于相似度匹配的文本分类方法 |
CN109145299B (zh) * | 2018-08-16 | 2022-06-21 | 北京金山安全软件有限公司 | 一种文本相似度确定方法、装置、设备及存储介质 |
CN109344236B (zh) * | 2018-09-07 | 2020-09-04 | 暨南大学 | 一种基于多种特征的问题相似度计算方法 |
CN109829104B (zh) * | 2019-01-14 | 2022-12-16 | 华中师范大学 | 基于语义相似度的伪相关反馈模型信息检索方法及系统 |
CN110096702B (zh) * | 2019-04-22 | 2023-07-25 | 安徽省泰岳祥升软件有限公司 | 一种主观题评分方法及装置 |
CN110287312B (zh) * | 2019-05-10 | 2023-08-25 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 |
CN110188350B (zh) * | 2019-05-22 | 2021-06-01 | 北京百度网讯科技有限公司 | 文本一致性计算方法及装置 |
CN110633359B (zh) * | 2019-09-04 | 2022-03-29 | 北京百分点科技集团股份有限公司 | 语句等价性判断方法和装置 |
CN110704600B (zh) * | 2019-09-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 问答动态匹配方法、装置和电子设备 |
-
2020
- 2020-03-20 CN CN202010203644.6A patent/CN111414765B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783806A (zh) * | 2018-12-21 | 2019-05-21 | 众安信息技术服务有限公司 | 一种利用语义解析结构的文本匹配方法 |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
Non-Patent Citations (1)
Title |
---|
词义层级上的专家系统问题相似度计算优化;乔猛等;《信息工程大学学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111414765A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
CN111144115B (zh) | 预训练语言模型获取方法、装置、电子设备和存储介质 | |
JP2021082308A (ja) | マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 | |
JP7095209B2 (ja) | グラフニューラルネットワークをプレトレーニングする方法、プログラム及び装置 | |
CN111859997B (zh) | 机器翻译中的模型训练方法、装置、电子设备及存储介质 | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
JP7395445B2 (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
CN111144108B (zh) | 情感倾向性分析模型的建模方法、装置和电子设备 | |
CN112580324B (zh) | 文本纠错方法、装置、电子设备以及存储介质 | |
CN111274407B (zh) | 知识图谱中三元组置信度计算方法和装置 | |
JP2021174516A (ja) | ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7044839B2 (ja) | エンドツーエンドモデルのトレーニング方法および装置 | |
CN111950293B (zh) | 语义表示模型的生成方法、装置、电子设备及存储介质 | |
CN111640511B (zh) | 医疗事实验证的方法、装置、电子设备及存储介质 | |
JP7300475B2 (ja) | エンティティ関係マイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111914994B (zh) | 多层感知机的生成方法、装置、电子设备及存储介质 | |
US20210319185A1 (en) | Method for generating conversation, electronic device and storage medium | |
US20220300763A1 (en) | Method, apparatus, electronic device and storage medium for training semantic similarity model | |
CN111177339A (zh) | 对话生成方法、装置、电子设备及存储介质 | |
CN111680597A (zh) | 人脸识别模型处理方法、装置、设备和存储介质 | |
CN111414765B (zh) | 句子一致性的判定方法、装置、电子设备及可读存储介质 | |
US20210209143A1 (en) | Document type recommendation method and apparatus, electronic device and readable storage medium | |
CN111680599B (zh) | 人脸识别模型处理方法、装置、设备和存储介质 | |
CN111428489B (zh) | 一种评论生成方法、装置、电子设备及存储介质 | |
CN111488972B (zh) | 数据迁移方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |