CN113590786A - 一种数据预测方法、装置、设备及存储介质 - Google Patents
一种数据预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113590786A CN113590786A CN202110867381.3A CN202110867381A CN113590786A CN 113590786 A CN113590786 A CN 113590786A CN 202110867381 A CN202110867381 A CN 202110867381A CN 113590786 A CN113590786 A CN 113590786A
- Authority
- CN
- China
- Prior art keywords
- sentence
- data set
- model
- data
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000012360 testing method Methods 0.000 claims abstract description 92
- 239000013598 vector Substances 0.000 claims description 77
- 238000012512 characterization method Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及人工智能领域,公开了一种数据预测方法、装置、设备及存储介质,该方法包括:获取测试数据集,测试数据集包括已标注的句子对和未标注的句子对;利用测试数据集对BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入第一数据预测模型中,得到第二数据集;将测试数据集与第二数据集进行合并处理,并根据合并后的训练数据集训练Sentence BERT模型,得到第二数据预测模型;将待测试数据输入第二数据预测模型,得到预测结果,以提升模型的性能以及提高数据预测的准确性。本发明涉及区块链技术,如可将数据写入区块链中,以用于数据取证等场景。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种数据预测方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,自然语言处理是当前人工智能重要的一部分,其中,数据预测受到了广泛的关注。例如,智能检索系统能及时给用户提供用户疑惑的问题答案,其通常包括问句理解、信息检索、答案抽取和选择三个主要部分,其中,句子相似度计算是问句理解的一部分,它的性能将直接影响到最后答案的准确性。
句子相似度指的是两个句子之间匹配的程度,Sentence BERT模型能帮助快速计算句子相似度。但是目前训练一个表现优秀的Sentence BERT模型需要大量标注好的句子对,而大量标注好的句子对的获得需要花费大量的资源,如时间、人力、金钱等。因此,如何有效地提升Sentence BERT模型的性能以及提高数据预测的准确性非常重要。
发明内容
本发明实施例提供了一种数据预测方法、装置、设备及存储介质,可以提升Sentence BERT模型的性能以及提高数据预测的准确性。
第一方面,本发明实施例提供了一种数据预测方法,所述方法包括:
获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
进一步地,所述利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型,包括:
将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量;
根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量,包括:
在所述测试数据集中各个句子对的两个句子之间添加第一标识符,并在每个句子对的起始位置添加第二标识符;
将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型,得到用于标识所述第二标识符所处位置的所述目标特征向量。
进一步地,所述根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型,包括:
将所述目标特征向量输入预设的二分类模型,得到所述测试数据集中各个句子对中每两个句子之间的匹配概率;
根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型,包括:
根据所述匹配概率调整所述预设的BERT模型的模型参数,并利用调整后的模型参数重新训练所述预设的BERT模型;
当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时,确定得到所述第一数据预测模型。
进一步地,所述新的训练数据集包括多个句子对,每个句子对包括第一句子和第二句子,所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型;所述根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型,包括:
将所述训练数据集中每个句子对的第一句子输入所述第一BERT模型中,得到所述每个句子对的第一句子表征向量;
将所述训练数据集中每个句子对的第二句子输入所述第二BERT模型中,得到所述每个句子对的第二句子表征向量;
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型。
进一步地,所述根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型,包括:
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量计算所述每个句子对的第一句子与第二句子之间的相似度;
根据所述相似度调整所述Sentence BERT模型的模型参数,并重新训练所述Sentence BERT模型;
当重新训练所述Sentence BERT模型后得到的相似度满足预设相似度阈值时,确定得到所述第二数据预测模型。
第二方面,本发明实施例提供了一种数据预测装置,包括:
获取单元,用于获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
第一训练单元,用于利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
处理单元,用于将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
第二训练单元,用于将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
预测单元,用于将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
第三方面,本发明实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持数据预测装置执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果,有助于提升Sentence BERT模型的性能以及提高数据预测的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据预测方法的示意流程图;
图2是本发明实施例提供的一种确定第一数据预测模型的流程示意图;
图3是本发明实施例提供的一种确定第二数据预测模型的流程示意图;
图4是本发明实施例提供的一种数据预测装置的示意框图;
图5是本发明实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据预测方法可以应用于一种数据预测装置,在某些实施例中,所述数据预测装置设置于计算机设备中。在某些实施例中,所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。在某些实施例中,所述数据预测方法可以应用于通过文本问题预测答案等智能检索应用的场景。
本发明实施例可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
本发明实施例利用包括已标注的句子对和未标注的句子对的测试数据集对预设的BERT模型进行训练,得到第一数据预测模型,并将未标注的句子对作为第一数据集输入第一数据预测模型得到第二数据集,以及将测试数据集与第二数据集进行合并处理,得到合并后的训练数据集,从而达到数据增强的目的,有效避免了数据资源的浪费,减少了获取更多数据所需的资源开销。然后再利用增强的新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型,有助于提升Sentence BERT模型的性能以及提高数据预测的准确性。
下面结合附图1对本发明实施例提供的数据预测方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种数据预测方法的示意流程图,如图1所示,该方法可以由数据预测装置执行,所述数据预测装置设置于计算机设备中。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对。
本发明实施例中,数据预测装置可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对。
在某些实施例中,所述测试数据集中包括一个或多个已标注的句子对以及一个或多个未标注的句子对。
在一个示例中,所述测试数据集可以记为X,X={Q,A,Y},Y∈{0,1},这里的Q表示问题,A表示答案,Y为标签,当Y=0时表示问题Q与答案A不匹配,当Y=1时表示问题Q与答案A匹配。例如,问题Q为“张三到哪儿了?”,答案A为“张三到学校了”。
S102:利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型。
本发明实施例中,数据预测装置可以利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型。
在一个实施例中,数据预测装置在利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型时,可以将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量,并根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
在一个实施例中,数据预测装置在将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量时,可以在所述测试数据集中各个句子对的两个句子之间添加第一标识符,并在每个句子对的起始位置添加第二标识符,并将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型,得到用于表示所述第二标识符所处位置的所述目标特征向量。
在一个实施例中,数据预测装置在根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,可以将所述目标特征向量输入预设的二分类模型,得到所述测试数据集中各个句子对中每两个句子之间的匹配概率,并根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。在某些实施例中,所述预设的二分类模型可以为多层感知器(Multilayer Perceptron,MLP)模型。
在一个实施例中,数据预测装置在根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,可以根据所述匹配概率调整所述预设的BERT模型的模型参数,并利用调整后的模型参数重新训练所述预设的BERT模型;当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时,确定得到所述第一数据预测模型。
具体可以图2为例进行说明,图2是本发明实施例提供的一种确定第一数据预测模型的流程示意图,如图2所示,假设测试数据集21为X={Q,A,Y},其中,问题Q=″我是谁″,答案A=″我到了″,将它们作为BERT模型22的输入,得到的标签为Y∈(0,1)。这里的标签Y为一个概率值即为两个句子“我是谁”和“我到了”之间的匹配概率。此处的BERT模型接收句子对Q和A作为输入,两个句子Q和A之间用第一标识符[SEP]作为分隔,在输入的开头加入第二标识符[CLS]作为句子的起始位置,如图2所示。然后取BERT模型最后输出中第一个位置的目标特征向量,也就是第二标识符[CLS]对应的目标特征向量23,在图中记为V_c,作为预设的二分类模型MLP模型24的输入,最后的输出结果25分别表示输入的句子对之间的匹配概率即标签Y。该标签Y越靠近0就越说明问题Q与答案A不匹配,而标签Y越靠近1就越说明问题Q与答案A匹配。
S103:将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集。
本发明实施例中,数据预测装置可以从所述测试数据集中随机抽取未标注的第一数据集,所述第一数据集为未标注的句子对集合,并将所述第一数据集输入所述第一数据预测模型中,得到第二数据集。
在一个实施例中,数据预测装置可以从测试数据集中随机抽取新的未标注的第一数据集,所述第一数据集为未标注的句子对集合。例如,对于任何测试数据集X中的数据(Qi,Ai,Yi),都有第一数据集B(Qi,Aj),其中i不等j,是未经过标注的问题-答案组合。
在一个实施例中,将随机抽取的未标注的第一数据集作为第一数据预测模型的输入,得到预测结果为第二数据集。在某些实施例中,所述第二数据集为一组具有标签的句子对集合,其中,所述标签为句子对之间的匹配概率。
例如,假设第一数据集为B,第二数据集为C,则
C={Qi,Aj,Yij},Yij∈(0,1)
这里Qi表示问题,Aj表示答案,标签Yij为0到1的概率值,Yij越靠近0就越说明问题Qi和答案Aj不匹配,而Yij越靠近1就越说明问题Qi和答案Aj匹配。
S104:将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型。
本发明实施例中,数据预测装置可以将所述测试数据集与所述第二数据集进行合并处理,得到新的训练数据集,并根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型。
在一个实施例中,数据预测装置将测试数据集和第二数据集合并,得到新的训练数据集,有助于达到数据增强的目的。
在一个实施例中,所述新的训练数据集包括多个句子对,每个句子对包括第一句子和第二句子,所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型;数据预测装置在根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型时,可以将所述训练数据集中每个句子对的第一句子输入所述第一BERT模型中,得到所述每个句子对的第一句子表征向量;将所述训练数据集中每个句子对的第二句子输入所述第二BERT模型中,得到所述每个句子对的第二句子表征向量;根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型。
在一个实施例中,数据预测装置在根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型时,可以根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量计算所述每个句子对的第一句子与第二句子之间的相似度;根据所述相似度调整所述Sentence BERT模型的模型参数,并重新训练所述Sentence BERT模型;当重新训练所述Sentence BERT模型后得到的相似度满足预设相似度阈值时,确定得到所述第二数据预测模型。
具体可以图3为例进行说明,图3是本发明实施例提供的一种确定第二数据预测模型的流程示意图,如图3所示,以一个句子对中的第一句子和第二句子为例,假设第一句子为问题Q,第二句子为答案A,Sentence BERT模型30包括第一BERT模型31和第二BERT模型32,将问题Q输入第一BERT模型31,得到第一句子表征向量311,将答案A输入第二BERT模型32,得到第二句子表征向量321,根据第一句子表征向量311和第二句子表征向量321计算得到问题Q与答案A的相似度33,该相似度33即为问题Q与答案A的匹配概率。当相似度33不满足预设相似度阈值时,根据所述相似度33调整所述Sentence BERT模型30的模型参数,并重新训练所述Sentence BERT模型30,当重新训练所述Sentence BERT模型30后得到的相似度33满足预设相似度阈值时,确定得到所述第二数据预测模型34。
S105:将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
本发明实施例中,数据预测装置可以将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。在某些实施例中,所述待测试数据为未标注的句子,例如,所述待测试数据可以为问题句子“我在哪儿”。
在一个实际的问题与答案的智能检索场景中,所有的答案都可以通过训练好的Sentence BERT模型(即第二数据预测模型)里面的BERT模型将其编码为句子表征向量,存储在特定的问题库中。当待测试数据为一个实际的问题句子时,可以将该问题句子输入第二数据预测模型,得到该问题句子对应的句子表征向量,然后计算跟问题库里所有问题相对应的句子表征向量的距离作为句子之间的相似度,最后选取问题库里相似度最高的问题的答案为待测试的问题句子的输出答案。
本发明实施例可以有效地从测试数据集中提取出新的未标注的第一数据集,并利用BERT模型标注这个新的第一数据集得到第二数据集,然后将测试数据集和第二数据集这两个数据集进行合并,得到新的训练数据集,从而达到数据增强的效果,通过数据增强方法,有效避免了数据资源浪费,也减少了获取更多数据所需要的资源开销。利用扩充后的训练数据集训练Sentence BERT模型,从而提高Sentence BERT模型在句子相似度计算上的性能和准确性。
本发明实施例中,数据预测装置可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果,有助于提升Sentence BERT模型的性能以及提高数据预测的准确性。
本发明实施例还提供了一种数据预测装置,该数据预测装置用于执行前述任一项所述的方法的单元。具体地,参见图4,图4是本发明实施例提供的一种数据预测装置的示意框图。本实施例的数据预测装置包括:获取单元401、第一训练单元402、处理单元403、第二训练单元404以及预测单元405。
获取单元401,用于获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
第一训练单元402,用于利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
处理单元403,用于将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
第二训练单元404,用于将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
预测单元405,用于将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
进一步地,所述第一训练单元402利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型时,具体用于:
将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量;
根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述第一训练单元402将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量时,具体用于:
在所述测试数据集中各个句子对的两个句子之间添加第一标识符,并在每个句子对的起始位置添加第二标识符;
将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型,得到用于表示所述第二标识符所处位置的所述目标特征向量。
进一步地,所述第一训练单元402根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,具体用于:
将所述目标特征向量输入预设的二分类模型,得到所述测试数据集中各个句子对中每两个句子之间的匹配概率;
根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述第一训练单元402根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,具体用于:
根据所述匹配概率调整所述预设的BERT模型的模型参数,并利用调整后的模型参数重新训练所述预设的BERT模型;
当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时,确定得到所述第一数据预测模型。
进一步地,所述新的训练数据集包括多个句子对,每个句子对包括第一句子和第二句子,所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型;所述第二训练单元404根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型时,具体用于:
将所述训练数据集中每个句子对的第一句子输入所述第一BERT模型中,得到所述每个句子对的第一句子表征向量;
将所述训练数据集中每个句子对的第二句子输入所述第二BERT模型中,得到所述每个句子对的第二句子表征向量;
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型。
进一步地,所述第二训练单元404根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型时,具体用于:
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量计算所述每个句子对的第一句子与第二句子之间的相似度;
根据所述相似度调整所述Sentence BERT模型的模型参数,并重新训练所述Sentence BERT模型;
当重新训练所述Sentence BERT模型后得到的相似度满足预设相似度阈值时,确定得到所述第二数据预测模型。
本发明实施例中,数据预测装置可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果,有助于提升Sentence BERT模型的性能以及提高数据预测的准确性。
参见图5,图5是本发明实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的设备可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序,所述计算机程序包括程序,处理器501用于执行存储器504存储的程序。
其中,处理器501被配置用于调用所述程序执行:
获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
进一步地,所述处理器501利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型时,具体用于:
将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量;
根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述处理器501将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量时,具体用于:
在所述测试数据集中各个句子对的两个句子之间添加第一标识符,并在每个句子对的起始位置添加第二标识符;
将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型,得到用于表示所述第二标识符所处位置的所述目标特征向量。
进一步地,所述处理器501根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,具体用于:
将所述目标特征向量输入预设的二分类模型,得到所述测试数据集中各个句子对中每两个句子之间的匹配概率;
根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
进一步地,所述处理器501根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型时,具体用于:
根据所述匹配概率调整所述预设的BERT模型的模型参数,并利用调整后的模型参数重新训练所述预设的BERT模型;
当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时,确定得到所述第一数据预测模型。
进一步地,所述新的训练数据集包括多个句子对,每个句子对包括第一句子和第二句子,所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型;所述处理器501根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型时,具体用于:
将所述训练数据集中每个句子对的第一句子输入所述第一BERT模型中,得到所述每个句子对的第一句子表征向量;
将所述训练数据集中每个句子对的第二句子输入所述第二BERT模型中,得到所述每个句子对的第二句子表征向量;
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型。
进一步地,所述处理器501根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型时,具体用于:
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量计算所述每个句子对的第一句子与第二句子之间的相似度;
根据所述相似度调整所述Sentence BERT模型的模型参数,并重新训练所述Sentence BERT模型;
当重新训练所述Sentence BERT模型后得到的相似度满足预设相似度阈值时,确定得到所述第二数据预测模型。
本发明实施例中,计算机设备可以获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果,有助于提升Sentence BERT模型的性能以及提高数据预测的准确性。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式,也可执行本发明实施例图4所描述的数据预测装置的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图1所对应实施例中描述的数据预测方法,也可实现本发明图4所对应实施例的数据预测装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的数据预测装置的内部存储单元,例如数据预测装置的硬盘或内存。所述计算机可读存储介质也可以是所述数据预测装置的外部存储装置,例如所述数据预测装置上配备的插接式硬盘,智能存储卡(SmarSMedia Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述数据预测装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述数据预测装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种数据预测方法,其特征在于,所述方法包括:
获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型,包括:
将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量;
根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述测试数据集中的各个句子对输入预设的BERT模型,得到与所述各个句子对对应的目标特征向量,包括:
在所述测试数据集中各个句子对的两个句子之间添加第一标识符,并在每个句子对的起始位置添加第二标识符;
将添加第一标识符和第二标识符的各个句子对输入所述预设的BERT模型,得到用于表示所述第二标识符所处位置的所述目标特征向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标特征向量重新训练所述预设的BERT模型,确定得到所述第一数据预测模型,包括:
将所述目标特征向量输入预设的二分类模型,得到所述测试数据集中各个句子对中每两个句子之间的匹配概率;
根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述匹配概率重新训练所述预设的BERT模型,确定得到所述第一数据预测模型,包括:
根据所述匹配概率调整所述预设的BERT模型的模型参数,并利用调整后的模型参数重新训练所述预设的BERT模型;
当利用重新训练后的BERT模型得到的匹配概率满足预设阈值时,确定得到所述第一数据预测模型。
6.根据权利要求1所述的方法,其特征在于,所述新的训练数据集包括多个句子对,每个句子对包括第一句子和第二句子,所述预设的Sentence BERT模型包括第一BERT模型和第二BERT模型;所述根据所述新的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型,包括:
将所述训练数据集中每个句子对的第一句子输入所述第一BERT模型中,得到所述每个句子对的第一句子表征向量;
将所述训练数据集中每个句子对的第二句子输入所述第二BERT模型中,得到所述每个句子对的第二句子表征向量;
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量,训练所述预设的Sentence BERT模型,得到所述第二数据预测模型,包括:
根据所述每个句子对的第一句子表征向量和所述每个句子对的第二句子表征向量计算所述每个句子对的第一句子与第二句子之间的相似度;
根据所述相似度调整所述Sentence BERT模型的模型参数,并重新训练所述SentenceBERT模型;
当重新训练所述Sentence BERT模型后得到的相似度满足预设相似度阈值时,确定得到所述第二数据预测模型。
8.一种数据预测装置,其特征在于,包括:
获取单元,用于获取测试数据集,所述测试数据集包括多个句子对,所述多个句子对中包括已标注的句子对和未标注的句子对;
第一训练单元,用于利用所述测试数据集对预设的BERT模型进行训练,得到第一数据预测模型;
处理单元,用于将未标注的句子对作为第一数据集输入所述第一数据预测模型中,得到第二数据集;
第二训练单元,用于将所述测试数据集与所述第二数据集进行合并处理,并根据合并后的训练数据集训练预设的Sentence BERT模型,得到第二数据预测模型;
预测单元,用于将待测试数据输入所述第二数据预测模型,得到与所述待测试数据对应的预测结果。
9.一种计算机设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867381.3A CN113590786B (zh) | 2021-07-28 | 2021-07-28 | 一种数据预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867381.3A CN113590786B (zh) | 2021-07-28 | 2021-07-28 | 一种数据预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590786A true CN113590786A (zh) | 2021-11-02 |
CN113590786B CN113590786B (zh) | 2024-07-09 |
Family
ID=78252358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110867381.3A Active CN113590786B (zh) | 2021-07-28 | 2021-07-28 | 一种数据预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590786B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329784A (zh) * | 2022-10-12 | 2022-11-11 | 之江实验室 | 基于预训练模型的句子复述生成系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112256849A (zh) * | 2020-10-20 | 2021-01-22 | 深圳前海微众银行股份有限公司 | 模型训练方法、文本检测方法、装置、设备和存储介质 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN113158685A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 文本的语义预测方法、装置、计算机设备和存储介质 |
-
2021
- 2021-07-28 CN CN202110867381.3A patent/CN113590786B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112256849A (zh) * | 2020-10-20 | 2021-01-22 | 深圳前海微众银行股份有限公司 | 模型训练方法、文本检测方法、装置、设备和存储介质 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN113158685A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 文本的语义预测方法、装置、计算机设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329784A (zh) * | 2022-10-12 | 2022-11-11 | 之江实验室 | 基于预训练模型的句子复述生成系统 |
CN115329784B (zh) * | 2022-10-12 | 2023-04-07 | 之江实验室 | 基于预训练模型的句子复述生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113590786B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN113591902B (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
CN112860841B (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN109979439B (zh) | 基于区块链的语音识别方法、装置、介质及电子设备 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN112613322A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN113190675A (zh) | 文本摘要生成方法、装置、计算机设备和存储介质 | |
CN115859302A (zh) | 源代码漏洞检测方法、装置、设备及存储介质 | |
CN113707157B (zh) | 基于声纹识别的身份验证方法、装置、电子设备及介质 | |
CN114357195A (zh) | 基于知识图谱的问答对生成方法、装置、设备及介质 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
WO2024109597A1 (zh) | 文本合并判断模型的训练方法和文本合并判断方法 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN113590786A (zh) | 一种数据预测方法、装置、设备及存储介质 | |
CN110222139A (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113886697A (zh) | 基于聚类算法的活动推荐方法、装置、设备及存储介质 | |
CN113486659A (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN113704452B (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
CN112988996B (zh) | 知识库生成方法、装置、设备及存储介质 | |
CN111883111B (zh) | 话术训练处理方法、装置、计算机设备和可读存储介质 | |
CN113901821A (zh) | 一种实体命名识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |