CN113807101A - 文本处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113807101A CN113807101A CN202010532018.1A CN202010532018A CN113807101A CN 113807101 A CN113807101 A CN 113807101A CN 202010532018 A CN202010532018 A CN 202010532018A CN 113807101 A CN113807101 A CN 113807101A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- vector sequence
- semantic vector
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 399
- 230000002776 aggregation Effects 0.000 claims abstract description 58
- 238000004220 aggregation Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000002452 interceptive effect Effects 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 122
- 238000009826 distribution Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 12
- 230000036961 partial effect Effects 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000006116 polymerization reaction Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 26
- 230000011218 segmentation Effects 0.000 description 21
- 230000004044 response Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了一种文本处理方法、装置、电子设备及计算机可读存储介质,所述文本处理方法包括一种文本处理方法,其特征在于,包括:获得具有关联关系的第一文本和第二文本;获得第一文本的语义向量序列以及第二文本的语义向量序列;对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点,从而可以提高获取的关联点的准确度。
Description
技术领域
本公开涉及计算机应用技术领域,具体涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
在法院开庭之前,经常需要根据当前案件的客观事实文本,比如,原告起诉书和/或被告答辩状等,获取当前案件的主要争议焦点,以便于法官根据主要争议焦点了解当前案件的整体概括,并在法院庭审阶段根据主要争议焦点向原告或被告提问。由于客观事实文本为非结构化的文本,不具有树状或者网状等拓扑结构,因此,如何从非结构化的客观事实文本中提取争议焦点成为亟待解决的技术问题。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种文本处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种文本处理的方法。
具体地,所述文本处理方法,包括:
基于第一文本数据,通过处理器利用第一模型获取与所述第一文本数据相对应的第一语义向量序列{e1,e2,…,em},其中,ei为向量,i=1~m;
基于第二文本数据,通过处理器利用所述第一模型获取与所述第二文本数据相对应的第二语义向量序列{d1,d2,…,dn},其中,dj为向量,j=1~n;
基于所述第一语义向量序列{e1,e2,…,em},通过处理器利用第二模型获取与所述第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},其中,qi为向量;
基于所述第二语义向量序列{d1,d2,…,dn},通过处理器利用所述第二模型获取与所述第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},其中,hj为向量;
基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据。
结合第一方面,本公开在第一方面的第一种实现方式中,所述第一文本数据和所述第二文本数据包含彼此对应的内容,所述目标文本数据的内容与所述第一文本数据和所述第二文本数据中相对应的内容相关联;和/或
所述第二文本数据包括对所述第一文本数据中的至少部分内容的应答,所述目标文本数据包括与所述第一文本数据和/或所述第二文本数据有关的文本数据;和/或
所述目标文本数据与所述第一文本数据和所述第二文本数据中彼此有争议的文本数据相关联。
结合第一方面,本公开在第一方面的第二种实现方式中,所述基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据,包括:
将所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr},其中,Hk为向量,r=n+m,k=1~r;
基于所述拼接向量序列{H1,H2,…,Hr},通过第三模型,获取第五语义向量序列{V1,V2,…,Vr},其中,Vk为向量;
根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据,包括:
基于所述第五语义向量序列{V1,V2,…,Vr},通过第四模型,获取第一聚合向量v1;
将所述第一聚合向量v1输入全连接层,获取第二聚合向量v2;
将所述第二聚合向量v2经过激活函数作用之后,获取与N个候选目标文本数据相对应的概率分布,所述概率分布包括所述N个候选目标文本数据各自对应的概率;
根据所述概率分布,确定所述目标文本数据。
结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,还包括通过以下至少一项任务,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练:预测两段文本是否是连续文本、预测文本中被遮蔽的部分、预测对文本执行的操作,其中,根据所述至少一项任务中各任务的损失函数确定所述预训练的整体损失函数,根据所述整体损失函数调整所述第一模型、所述第二模型、所述第三模型和所述第四模型的参数。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述预测两段文本是否是连续文本包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
基于所述第一训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第一方面的第四种实现方式,本公开在第一方面的第六种实现方式中,所述预测文本中被遮蔽的部分包括:
获取第二训练样本数据,其中,所述第二训练样本数据包括通过预设掩码方式处理所述第一文本数据获取的第一文本掩码数据和/或通过所述预设掩码方式处理所述第二文本数据获取的第二文本掩码数据;
基于所述第二训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第一方面的第四种实现方式,本公开在第一方面的第七种实现方式中,所述预测对文本执行的操作包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和/或第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
根据所述第一训练样本数据,获取第三训练样本数据,所述第三训练样本数据包括对所述第一文本样本数据执行特定动作所获取的第三文本样本数据和/或对所述第二文本样本数据执行所述特定动作获取的第四文本样本数据;
基于所述第三训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第一方面,本公开在第一方面的第八种实现方式中,所述第一模型包括以下模型中任意一个模型:Word2vector模型、Glove模型,Fasttext模型、BERT模型。
结合第一方面,本公开在第一方面的第九种实现方式中,所述第二模型包括以下模型中任意一个模型:CNN模型、RNN模型、LSTM模型、Transformer模型、BERT模型、注意力模型。
结合第一方面的第二种实现方式,本公开在第一方面的第十种实现方式中,所述第三模型包括以下模型中任意一个模型:Transformer模型、注意力模型。
结合第一方面的第三种实现方式,本公开在第一方面的第十一种实现方式中,所述第四模型包括注意力模型。
第二方面,本公开实施例中提供了一种文本处理的方法。
具体地,所述文本处理方法,包括:
获得具有关联关系的第一文本和第二文本;
获得第一文本的语义向量序列以及第二文本的语义向量序列;
对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
结合第二方面,本公开在第二方面的第一种实现方式中,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算,包括:
将所述第一文本的语义向量序列和所述第二文本的语义向量序列进行拼接,得到拼接向量;
计算所述拼接向量的语义向量序列。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行信息聚合,包括:
根据所述拼接向量的语义向量序列得到聚合向量;
根据所述聚合向量得到与多个候选关联点相对应的概率分布;
根据所述多个候选关联点相对应的概率分布,得到所述第一文本和所述第二文本的关联点。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述根据所述聚合向量得到与多个候选关联点相对应的概率分布,包括:
将所述聚合向量输入系统模型的全连接层并经过激活函数作用,得到与多个候选关联点相对应的概率分布。
结合第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,所述方法还包括:
对所述系统模型进行预训练;
所述预训练包括以下任务的一项或多项:预测两个文本片段是否为连续文本、预测文本中被遮蔽的部分内容、预测对文本执行的操作。
结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述预测两个文本片段是否为连续文本包括:
从第三文本中获得连续的第一片段和第二片段;
从所述第三文本中随机选择第三片段;
使用所述第三片段替换所述第一片段或所述第二片段;
预测所述第三片段与所述第二片段,或者所述第一片段与所述第三片段是否为连续文本。
结合第二方面的第四种实现方式,本公开在第二方面的第六种实现方式中,所述预测文本中被遮蔽的部分内容,包括:
在所述第一文本和/或所述第二文本中随机选择任意文本片段;
以预设的掩码方式处理所述任意文本片段;
对处理后的任意文本片段中被遮蔽的部分内容进行预测。
结合第二方面的第五种实现方式,本公开在第二方面的第七种实现方式中,所述预测对文本执行的操作包括:
在所述第一片段和所述第二片段组成的文本,和/或,所述第一片段和所述第三片段组成的文本,和/或,所述第三片段和所述第二片段组成的文本中,选择任意词进行特定操作;
对所述特定操作进行预测,所述特定操作包括删除、替换、无操作。
第三方面,本公开实施例中提供了一种文本处理装置。
具体地,所述文本处理装置,包括:
第一获取模块,被配置为基于第一文本数据,通过处理器利用第一模型获取与所述第一文本数据相对应的第一语义向量序列{e1,e2,…,em},其中,ei为向量,i=1~m;
第二获取模块,被配置为基于第二文本数据,通过处理器利用所述第一模型获取与所述第二文本数据相对应的第二语义向量序列{d1,d2,…,dn},其中,dj为向量,j=1~n;
第三获取模块,被配置为基于所述第一语义向量序列{e1,e2,…,em},通过处理器利用第二模型获取与所述第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},其中,qi为向量;
第四获取模块,被配置为基于所述第二语义向量序列{d1,d2,…,dn},通过处理器利用所述第二模型获取与所述第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},其中,hj为向量;
确定模块,被配置为基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据。
结合第三方面,本公开在第三方面的第一种实现方式中,所述第一文本数据和所述第二文本数据包含彼此对应的内容,所述目标文本数据的内容与所述第一文本数据和所述第二文本数据中相对应的内容相关联;和/或
所述第二文本数据包括对所述第一文本数据中的至少部分内容的应答,所述目标文本数据包括与所述第一文本数据和/或所述第二文本数据有关的文本数据;和/或
所述目标文本数据与所述第一文本数据和所述第二文本数据中彼此有争议的文本数据相关联。
结合第三方面,本公开在第三方面的第二种实现方式中,所述基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据,包括:
将所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr},其中,Hk为向量,r=n+m,k=1~r;
基于所述拼接向量序列{H1,H2,…,Hr},通过第三模型,获取第五语义向量序列{V1,V2,…,Vr},其中,Vk为向量;
根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据。
结合第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据,包括:
基于所述第五语义向量序列{V1,V2,…,Vr},通过第四模型,获取第一聚合向量v1;
将所述第一聚合向量v1输入全连接层,获取第二聚合向量v2;
将所述第二聚合向量v2经过激活函数作用之后,获取与N个候选目标文本数据相对应的概率分布,所述概率分布包括所述N个候选目标文本数据各自对应的概率;
根据所述概率分布,确定所述目标文本数据。
结合第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,还包括:
第一预训练模块,被配置为通过以下至少一项任务,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练:预测两段文本是否是连续文本、预测文本中被遮蔽的部分、预测对文本执行的操作,其中,根据所述至少一项任务中各任务的损失函数确定所述预训练的整体损失函数,根据所述整体损失函数调整所述第一模型、所述第二模型、所述第三模型和所述第四模型的参数。
结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述预测两段文本是否是连续文本包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
基于所述第一训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第三方面的第四种实现方式,本公开在第三方面的第六种实现方式中,所述预测文本中被遮蔽的部分包括:
获取第二训练样本数据,其中,所述第二训练样本数据包括通过预设掩码方式处理所述第一文本数据获取的第一文本掩码数据和/或通过所述预设掩码方式处理所述第二文本数据获取的第二文本掩码数据;
基于所述第二训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第三方面的第四种实现方式,本公开在第三方面的第七种实现方式中,所述预测对文本执行的操作包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和/或第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
根据所述第一训练样本数据,获取第三训练样本数据,所述第三训练样本数据包括对所述第一文本样本数据执行特定动作所获取的第三文本样本数据和/或对所述第二文本样本数据执行所述特定动作获取的第四文本样本数据;
基于所述第三训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
结合第三方面,本公开在第三方面的第八种实现方式中,所述第一模型包括以下模型中任意一个模型:Word2vector模型、Glove模型,Fasttext模型、BERT模型。
结合第三方面,本公开在第三方面的第九种实现方式中,所述第二模型包括以下模型中任意一个模型:CNN模型、RNN模型、LSTM模型、Transformer模型、BERT模型、注意力模型。
结合第三方面的第二种实现方式,本公开在第三方面的第十种实现方式中,所述第三模型包括以下模型中任意一个模型:Transformer模型、注意力模型。
结合第三方面的第三种实现方式,本公开在第三方面的第十一种实现方式中,所述第四模型包括注意力模型。
第四方面,本公开实施例中提供了一种文本处理装置。
具体地,所述文本处理装置,包括:
第五获取模块,被配置为获得具有关联关系的第一文本和第二文本;
第六获取模块,被配置为获得第一文本的语义向量序列以及第二文本的语义向量序列;
第七获取模块,被配置为对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
结合第四方面,本公开在第四方面的第一种实现方式中,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算,包括:
将所述第一文本的语义向量序列和所述第二文本的语义向量序列进行拼接,得到拼接向量;
计算所述拼接向量的语义向量序列。
结合第四方面的第一种实现方式,本公开在第四方面的第二种实现方式中,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行信息聚合,包括:
根据所述拼接向量的语义向量序列得到聚合向量;
根据所述聚合向量得到与多个候选关联点相对应的概率分布;
根据所述多个候选关联点相对应的概率分布,得到所述第一文本和所述第二文本的关联点。
结合第四方面的第二种实现方式,本公开在第四方面的第三种实现方式中,所述根据所述聚合向量得到与多个候选关联点相对应的概率分布,包括:
将所述聚合向量输入系统模型的全连接层并经过激活函数作用,得到与多个候选关联点相对应的概率分布。
结合第四方面的第三种实现方式,本公开在第四方面的第四种实现方式中,所述装置还包括:
第二预训练模块,被配置为对所述系统模型进行预训练;
所述预训练包括以下任务的一项或多项:预测两个文本片段是否为连续文本、预测文本中被遮蔽的部分内容、预测对文本执行的操作。
结合第四方面的第四种实现方式,本公开在第四方面的第五种实现方式中,所述预测两个文本片段是否为连续文本包括:
从第三文本中获得连续的第一片段和第二片段;
从所述第三文本中随机选择第三片段;
使用所述第三片段替换所述第一片段或所述第二片段;
预测所述第三片段与所述第二片段,或者所述第一片段与所述第三片段是否为连续文本。
结合第四方面的第四种实现方式,本公开在第四方面的第六种实现方式中,所述预测文本中被遮蔽的部分内容,包括:
在所述第一文本和/或所述第二文本中随机选择任意文本片段;
以预设的掩码方式处理所述任意文本片段;
对处理后的任意文本片段中被遮蔽的部分内容进行预测。
结合第四方面的第五种实现方式,本公开在第四方面的第七种实现方式中,所述预测对文本执行的操作包括:
在所述第一片段和所述第二片段组成的文本,和/或,所述第一片段和所述第三片段组成的文本,和/或,所述第三片段和所述第二片段组成的文本中,选择任意词进行特定操作;
对所述特定操作进行预测,所述特定操作包括删除、替换、无操作。
第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第十一种实现方式、第二方面、第二方面的第一种实现方式至第七种实现方式任一项所述的方法。
第六方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第十一种实现方式、第二方面、第二方面的第一种实现方式至第七种实现方式任一项所述的方法。
根据本公开实施例提供的技术方案,获得具有关联关系的第一文本和第二文本,获得第一文本的语义向量序列以及第二文本的语义向量序列,对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。本公开的实施例可以应用于法院庭审应用场景,通过起诉书和答辩状的各自上下文语义信息以及交互语义信息,获取可以推荐给法官进行候选的争议焦点,从而使获取的争议焦点可以与起诉书和答辩状的语义信息相对应,并可以提高推荐的争议焦点的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开的实施例的文本处理方法的流程图;
图2示出根据本公开实施例的基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据的示意图;
图3示出根据本公开实施例的将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练的示意图;
图4示出根据本公开实施例的文本处理方法的应用场景示意图;
图5示出根据本公开的实施例的文本处理方法的流程图;
图6示出根据本公开实施例的对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点的示意图;
图7示出根据本公开实施例的对所述系统模型进行预训练的示意图;
图8示出根据本公开实施例的文本处理方法的应用场景示意图;
图9示出根据本公开的实施例的文本处理装置的结构框图;
图10示出根据本公开的实施例的文本处理装置的结构框图;
图11示出根据本公开的实施例的电子设备的结构框图;
图12示出适于用来实现根据本公开实施例的文本处理方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
法律知识图谱是关联事实与法律知识的纽带,图谱中存储着法律相关的知识节点,比如本金争议、利息约定、抵押担保、夫妻共同债务等,这些节点是法律知识体系中的重要概念与抽象。通常,法律知识图谱具有树状或网状的拓扑结构,用于表达复杂的法律关系,如利息-还清部分借款利息,违约损失-律师费、调查费等其他损失等。知识图谱的构建既可以由算法自动构建,也可以人工构建。而争议焦点的生成,可以看成由原被告的起诉书、答辩状内容,映射到图谱中的某个知识节点,进而把非结构化的文本信息进行结构化。每个节点即对应一个争议焦点。由于客观事实文本为非结构化的文本,不具有树状或者网状等拓扑结构,因此,如何基于非结构化的客观事实文本获取争议焦点成为亟待解决的技术问题。
需要注意的是,本公开的技术方案可以用于处理非结构化的文本,也可以用于处理结构化的文本。
图1示出根据本公开的实施例的文本处理方法的流程图。如图1所示,所述文本处理方法包括以下步骤S101-S105:
在步骤S101中,基于第一文本数据,通过处理器利用第一模型获取与所述第一文本数据相对应的第一语义向量序列{e1,e2,…,em},其中,ei为向量,i=1~m;
在步骤S102中,基于第二文本数据,通过处理器利用所述第一模型获取与所述第二文本数据相对应的第二语义向量序列{d1,d2,…,dn},其中,dj为向量,j=1~n;
在步骤S103中,基于所述第一语义向量序列{e1,e2,…,em},通过处理器利用第二模型获取与所述第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},其中,qi为向量;
在步骤S104中,基于所述第二语义向量序列{d1,d2,…,dn},通过处理器利用所述第二模型获取与所述第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},其中,hj为向量;
在步骤S105中,基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据。
根据本公开的实施例,所述第一文本数据和所述第二文本数据包含彼此对应的内容;和/或所述第二文本数据包括对所述第一文本数据中的至少部分内容的应答。
根据本公开的实施例,可以获取第一文本数据和第二文本数据,其中,第一文本数据和第二文本数据可以包含彼此对应的内容,例如,包含相同或相近的主题。或者,第二文本数据可以包括对第一文本数据中的至少部分内容的应答,例如第二文本数据可以包括第一文本数据的答复文本数据。例如,在法院庭审应用场景中,第一文本数据可以包括原告的起诉书,第二文本数据可以包括被告的答辩状。
根据本公开的实施例,可以对第一文本数据进行分词处理,获取第一分词数据集合,其中,第一分词数据集合包括第一文本数据的分词结果,本公开对分词处理方法不做具体限定,可以根据实际需要进行选择。
根据本公开的实施例,为了获取第一文本数据的语义信息,可以利用第一模型获取与第一分词数据集合中的每个分词相对应的向量表示,并获取第一语义向量序列{e1,e2,…,em},其中,ei为第i个分词的词向量,从而通过第一模型引入第一文本数据的语义信息。本公开对第一模型不做具体限定,只要可以实现将文本数据转换为嵌入(embedding)向量的模型均在本公开实施例的保护范围之内,比如,第一模型可以包括以下模型中任意一个模型:Word2vector模型、Glove模型,Fasttext模型或BERT(Bidirectional EncoderRepresentations from Transformers,基于变换器的双向编码器表示)模型等。
根据本公开的实施例,可以对第二文本数据进行分词处理,获取第二分词数据集合,其中,第二分词数据集合包括第二文本数据的分词结果,本公开对分词处理方法不做具体限定,可以根据实际需要进行选择。为了获取第二文本数据的语义信息,可以利用第一模型获取与第二分词数据集合中的每个分词相对应的向量表示,并获取第二语义向量序列{d1,d2,…,dn},其中,dj为第j个分词的词向量,从而通过第一模型引入第二文本数据的语义信息。
根据本公开的实施例,为了获取第一文本数据的上下文语义信息,可以利用第二模型,基于包含了第一文本数据语义信息的第一语义向量序列{e1,e2,…,em},通过学习m个向量ei之间的内部关联关系,获取第三语义向量序列{q1,q2,…,qm},其中,qi为向量,从而通过第二模型引入第一文本数据的上下文语义信息。第二模型可以为训练好的深度学习模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第二模型可以包括以下模型中任意一个模型:CNN模型、RNN模型、LSTM模型、Transformer模型、BERT模型、注意力模型等,其中,注意力模型可以包括自注意力模型(Self Attention)、多头注意力模型(Multi-Head Attention)或HAN(Hierarchical Attention Networks,多层注意力)模型等。
根据本公开的实施例,为了获取第二文本数据的上下文语义信息,可以利用第二模型,基于包含了第二文本数据语义信息的第二语义向量序列{d1,d2,…,dn},通过学习n个向量dj之间的内部关联关系,获取第四语义向量序列{h1,h2,…,hn},其中,hj为向量,从而通过第二模型引入第二文本数据的上下文语义信息。
根据本公开的实施例,可以根据包含了第一文本数据的上下文语义信息的第三语义向量序列{q1,q2,…,qm},以及包含了第二文本数据的上下文语义信息的第四语义向量序列{h1,h2,…,hn},获取第一文本数据和第二文本数据的交互语义信息,并基于第一文本数据和第二文本数据的交互语义信息确定目标文本数据。
根据本公开的实施例,所述目标文本数据的内容与所述第一文本数据和/或所述第二文本数据相关联;和/或所述目标文本数据包括与所述第一文本数据和/或所述第二文本数据有关的文本数据;和/或所述目标文本数据与所述第一文本数据和所述第二文本数据中彼此有争议的文本数据相关联。
根据本公开的实施例,目标文本数据的内容与第一文本数据和/或第二文本数据相关联,例如,第一文本数据和第二文本数据包含彼此对应的内容时,目标文本数据的内容可以与上述彼此对应的内容相关联。
或者,目标文本数据可以包括与第一文本数据和/或第二文本数据有关的文本数据,例如,第二文本数据包括对第一文本数据中的至少部分内容的应答时,目标文本数据可以包括与上述至少部分内容和/或应答内容有关的文本数据。
或者,目标文本数据可以包括与第一文本数据和第二文本数据中彼此有争议的文本数据相关联,例如,第一文本数据和第二文本数据包含彼此有争议的文本数据时,目标文本数据可以与上述彼此有争议的文本数据相关联。
例如,在法院庭审应用场景中,第一文本数据可以包括原告的起诉书,第二文本数据可以包括被告的答辩状,目标文本数据可以包括根据起诉书和答辩状提取的多个争议焦点。
根据本公开实施例提供的技术方案,基于第一文本数据,通过处理器利用第一模型获取与第一文本数据相对应的第一语义向量序列{e1,e2,…,em},基于第二文本数据,通过处理器利用第一模型获取与第二文本数据相对应的第二语义向量序列{d1,d2,…,dn},基于第一语义向量序列{e1,e2,…,em},通过处理器利用第二模型获取与第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},基于第二语义向量序列{d1,d2,…,dn},通过处理器利用第二模型获取与第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},基于第三语义向量序列{q1,q2,…,qm}和第四语义向量序列{h1,h2,…,hn},确定目标文本数据。本公开的实施例通过第一文本数据和第二文本数据的各自上下文语义信息以及交互语义信息,获取目标文本数据,从而可以使获取的目标文本数据可以与第一文本数据和第二文本数据的语义信息相对应,并可以提高目标文本数据的准确度。本公开的实施例可以应用于法院庭审应用场景,通过起诉书和答辩状的各自上下文语义信息以及交互语义信息,获取可以推荐给法官进行候选的争议焦点,从而使获取的争议焦点可以与起诉书和答辩状的语义信息相对应,并可以提高推荐的争议焦点的准确度。
根据本公开的实施例,所述步骤S105,即基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据,包括:
将所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr},其中,Hk为向量,r=n+m,k=1~r;
基于所述拼接向量序列{H1,H2,…,Hr},通过第三模型,获取第五语义向量序列{V1,V2,…,Vr},其中,Vk为向量;
根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据。
图2示出根据本公开实施例的基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据的示意图。
如图2所示,为了获取第一文本数据与第二文本数据的语义信息,可以将包含了第一文本数据的上下文语义信息的第三语义向量序列{q1,q2,…,qm}以及包含了第二文本数据的上下文语义信息的第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr}。
根据本公开的实施例,为了获取第一文本数据与二文本数据的交互语义信息,可以利用第三模型,基于包含了第一文本数据与二文本数据的上下文语义信息的拼接向量序列{H1,H2,…,Hr},通过学习r个向量Hk之间的相互关联关系,获取第五语义向量序列{V1,V2,…,Vr},其中,第五语义向量序列{V1,V2,…,Vr}可以用于表征以下至少一种或多种语义信息:第一文本数据的上下文语义信息、第二文本数据的上下文语义信息、第一文本数据与第二文本数据的交互语义信息。第三模型可以为训练好的深度学习模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第三模型可以包括以下模型中任意一个模型:Transformer模型、注意力模型等,其中,注意力模型可以包括自注意力模型、多头注意力模型或HAN模型等。
根据本公开的实施例,所述根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据,包括:
基于所述第五语义向量序列{V1,V2,…,Vr},通过第四模型,获取第一聚合向量v1;
将所述第一聚合向量v1输入全连接层,获取第二聚合向量v2;
将所述第二聚合向量v2经过激活函数作用之后,获取与N个候选目标文本数据相对应的概率分布,所述概率分布包括所述N个候选目标文本数据各自对应的概率;
根据所述概率分布,确定所述目标文本数据。
如图2所示,为了有效提取第五语义向量序列{V1,V2,…,Vr}的关键语义特征,可以利用第四模型,分别获取r个向量Vk在第五语义向量序列{V1,V2,…,Vr}中相对应的权重,通过对r个向量Vk以及相对应的权重进行加权求和,获取第一聚合向量v1。第四模型202可以为训练好的注意力模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第四模型202可以包括以下模型中任意一个模型:自注意力模型、多头注意力模型或HAN模型等。
根据本公开的实施例,可以将包括第一文本数据语义信息与第二文本数据语义信息的第一聚合向量v1,与预设的文本数据之间建立映射关系。例如,可以预先确定N个候选目标文本数据,根据第一聚合向量v1在N个候选目标文本数据中确定目标文本数据。
根据本公开的实施例,可以将第一聚合向量v1输入至全连接层,获取第二聚合向量v2,其中,第二聚合向量v2的维度与候选目标文本数据的数量相同,即第二聚合向量v2的维度为N。
例如,在法院庭审应用场景中,可以在法律知识图谱的拓扑结构节点上确定N个争议焦点,比如,“借款催讨”、“夫妻共同债务”等争议焦点。可以将法律知识图谱中的争议焦点作为候选目标文本数据,基于第一聚合向量v1在候选目标文本数据中确定与起诉书和答辩状相关的目标文本数据,即起诉书和答辩状的争议焦点。
根据本公开的实施例,可以将第二聚合向量v2经过激活函数作用之后,获取概率分布,其中,概率分布表示N个候选目标文本数据属于目标文本数据的概率。某个候选目标文本数据对应的概率越大,代表该候选目标文本数据属于目标文本数据的可能性越大。
根据本公开的实施例,根据概率分布,可以将K个候选目标文本数据确定为目标文本数据。例如,可以将概率分布中最高的K个概率相对应的候选目标文本数据确定为目标文本数据,其中,1≤K≤N且为整数。
例如,在法院庭审应用场景中,第一文本数据可以包括原告的起诉书,第二文本数据可以包括被告的答辩状,可以利用起诉书和答辩状获取第五语义向量序列{V1,V2,…,Vr},并基于第五语义向量序列{V1,V2,…,Vr}以及法律知识图谱的N个争议焦点,确定K个争议焦点。
由于本公开的实施例中的文本处理方法涉及到第一模型、第二模型、第三模型和第四模型,在预训练第一模型、第二模型、第三模型和第四模型时,这些模型包括大量的参数,且大部分参数都是随机初始化的。当本公开的实施例的文本处理方法应用的技术领域或者应用场景包括的训练数据较少时,例如,当本公开的实施例的文本处理方法运用到法院庭审的应用场景时,由于可以获取的起诉书或者答辩状等训练数据不多,导致根据随机初始化的参数训练第一模型、第二模型、第三模型和第四模型时,很难收敛或者不能获取预期的训练效果。
根据本公开的实施例,还包括通过以下至少一项任务,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练:预测两段文本是否是连续文本、预测文本中被遮蔽的部分、预测对文本执行的操作,其中,根据所述至少一项任务中各任务的损失函数确定所述预训练的整体损失函数,根据所述整体损失函数调整所述第一模型、所述第二模型、所述第三模型和所述第四模型的参数。
图3示出根据本公开实施例的将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练的示意图。
如图3所示,为了使本公开的实施例中的文本处理方法所涉及的第一模型、第二模型、第三模型和第四模型获取更好的初始化参数,提高模型收敛效率和预期训练效果,可以通过以下一项或多项任务,将第一模型、第二模型、第三模型和第四模型作为整体进行预训练:第一任务301即预测两段文本是否是连续文本、第二任务302即预测文本中被遮蔽的部分、第三任务303即预测对文本执行的操作。
根据本公开的实施例,可以根据至少一项任务中各任务的损失函数确定预训练的整体损失函数,例如通过对各任务的损失函数求和来确定预训练的整体损失函数。例如,假设预训练仅包括第一任务301时,可以根据第一任务301的损失函数确定预训练的整体损失函数;又例如,假设包括第一任务301、第二任务302和第三任务303时,可以对第一任务301、第二任务302和第三任务303的损失函数求和来确定预训练的整体损失函数。可以根据整体损失函数调整第一模型、第二模型、第三模型和第四模型的参数,以便于使第一模型、第二模型、第三模型和第四模型获取更好的初始化参数,从而提高模型收敛效率和预期训练效果。
根据本公开的实施例,所述预测两段文本是否是连续文本包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
基于所述第一训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
如图3所示,为了实现第一任务301即预测两段文本是否是连续文本的训练目标,可以获取第一训练样本数据。本公开对第一训练样本数据的来源以及获取方式不做具体限定。
根据本公开的实施例,可以基于第一文本数据和/或第二文本数据获取第一训练样本数据。比如,第一文本数据包括起诉书A,第二文本数据包括答辩状B,可以在起诉书A和/或答辩状B中随机抽取两段连续文本样本数据(a1,b1),即可以获取第一文本样本数据。可以以一定的概率在起诉书A和/或答辩状B中随机选择一段其他的文本样本数据c1,并用文本样本数据c1替换文本样本数据a1或文本样本数据b1,从而获取两段不连续文本样本数据(c1,b1)或(a1,c1),即第二文本样本数据。
根据本公开的实施例,还可以不基于第一文本数据和/或第二文本数据获取第一训练样本数据,例如,可以从以下任意一个或多个文本数据中获取第一训练样本数据:其他起诉书(不包括起诉书A)、其他答辩状(不包括答辩状B)、其他法律文件(不包括起诉书和答辩状类型文件,比如,公开的裁判文件等),从而可以增加训练样本数据的数量。
根据本公开的实施例,可以基于第一训练样本数据,将第一模型、第二模型、第三模型和第四模型作为整体进行训练,以便于获取两段文本的相互关联关系,例如,句子与句子之间的相互关联关系。
根据本公开的实施例,所述预测文本中被遮蔽的部分包括:
获取第二训练样本数据,其中,所述第二训练样本数据包括通过预设掩码方式处理所述第一文本数据获取的第一文本掩码数据和/或通过所述预设掩码方式处理所述第二文本数据获取的第二文本掩码数据;
基于所述第二训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
如图3所示,为了实现第二任务302即预测文本中被遮蔽的部分的训练目标,可以获取第二训练样本数据,本公开对第二训练样本数据的来源以及获取方式不做具体限定。
根据本公开的实施例,可以基于第一文本数据和/或第二文本数据获取第二训练样本数据。比如,第一文本数据包括起诉书A,第二文本数据包括答辩状B,可以在起诉书A中随机抽取一段文本样本数据a2,可以在答辩状B中随机抽取一段文本样本数据b2。可以通过预设掩码方式处理文本样本数据a2获取第一文本掩码数据,例如,以一定的概率随机选择文本样本数据a2中预设比例的分词,采用掩码(Mask)代替原始分词,从而获取第一文本掩码数据。可以采用上述预设掩码方式处理文本样本数据b2获取第二文本掩码数据。
根据本公开的实施例,可以基于第二训练样本数据,将第一模型、第二模型、第三模型和第四模型作为整体进行训练,以便于获取文本中两个分词的相互关联关系,和/或分词与文本的相互关联关系,例如,词与词之间的相互关联关系,和/或词与句子之间的相互关联关系。
根据本公开的实施例,所述预测对文本执行的操作包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和/或第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
根据所述第一训练样本数据,获取第三训练样本数据,所述第三训练样本数据包括对所述第一文本样本数据执行特定动作所获取的第三文本样本数据和/或对所述第二文本样本数据执行所述特定动作获取的第四文本样本数据;
基于所述第三训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
如图3所示,为了实现第三任务303即预测对文本执行的操作的训练目标,可以基于第一训练样本数据获取第三训练样本数据,本公开对第一训练样本数据和第三训练样本数据的来源以及获取方式不做具体限定。
根据本公开的实施例,可以基于第一文本数据和/或第二文本数据获取第一训练样本数据。比如,第一文本数据包括起诉书A,第二文本数据包括答辩状B,可以在起诉书A和/或答辩状B中随机抽取两段连续文本样本数据(a1,b1),即可以获取第一文本样本数据。可以以一定的概率在起诉书A和/或答辩状B中随机选择一段其他的文本样本数据c1,并用文本样本数据c1替换文本样本数据a1或文本样本数据b1,从而获取两段不连续文本样本数据(c1,b1)或(a1,c1),即第二文本样本数据。
根据本公开的实施例,还可以不基于第一文本数据和/或第二文本数据获取第一训练样本数据,例如,可以从以下任意一个或多个文本数据中获取第一训练样本数据:其他起诉书(不包括起诉书A)、其他答辩状(不包括答辩状B)、其他法律文件(不包括起诉书和答辩状类型文件,比如,公开的裁判文件等),从而可以增加训练样本数据的数量。
根据本公开的实施例,可以基于第一训练样本数据,获取第三训练样本。可以对第一文本样本数据执行特定动作获取第三文本样本数据,和/或对第二文本样本数据执行特定动作获取第四文本样本数据,其中,特定动作包括但不限于“删除”、“替换”或“无操作”。例如,对于第一文本样本数据(a1,b1)中的分词可以进行随机的删除或替换,或者不执行任何的操作,获取第三文本样本数据。或者,对于第二文本样本数据(c1,b1)或(a1,c1)中的词可以进行随机的删除或替换,或者不执行任何的操作,获取第四文本样本数据。
根据本公开的实施例,可以基于第三训练样本数据,将第一模型、第二模型、第三模型和第四模型作为整体进行训练,在不依赖于人工标注数据的情形下,可以使预训练的第一模型、第二模型、第三模型和第四模型的参数收敛至更好的范围,从而提高预训练的第一模型、第二模型、第三模型和第四模型的鲁棒性。
图4示出根据本公开实施例的文本处理方法的应用场景示意图。如图4所示,应用场景包括服务器400,为了描述的方便,图4的应用场景中仅绘制了一个服务器400,应当了解的是,该示例仅为示例使用,并非是对于本公开的限制,本公开中的服务器400的数量、种类可以根据实际需要进行设定,本公开对此不作具体限定。同时,本公开实施例的应用场景将以法院庭审为例进行说明,但本公开不限于此,而是也适用于其他应用场景。
服务器400可以获取第一文本数据(起诉书)和第二文本数据(答辩状)。为了获取起诉书和答辩状各自的语义信息,基于起诉书,可以利用第一模型获取与起诉书相对应的第一语义向量序列{e1,e2,…,em},其中,第一语义向量序列{e1,e2,…,em}可以用于表征起诉书的语义信息;基于答辩状,可以利用第一模型获取与答辩状相对应的第二语义向量序列{d1,d2,…,dn},其中,第二语义向量序列{d1,d2,…,dn}可以用于表征答辩状的语义信息。
根据本公开的实施例,为了获取起诉书和答辩状各自的上下文语义信息,基于第一语义向量序列{e1,e2,…,em},可以利用第二模型获取与第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},其中,第三语义向量序列{q1,q2,…,qm}可以用于表征起诉书的上下文语义信息;基于第二语义向量序列{d1,d2,…,dn},可以利用第二模型获取与第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},其中,第四语义向量序列{h1,h2,…,hn}可以用于表征答辩状的上下文语义信息。
根据本公开的实施例,为了获取起诉书和答辩状的交互语义信息,可以将第三语义向量序列{q1,q2,…,qm}以及第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr}。基于拼接向量序列{H1,H2,…,Hr},可以利用第三模型,获取第五语义向量序列{V1,V2,…,Vr},其中,第五语义向量序列{V1,V2,…,Vr}可以用于表征以下至少一种或多种语义信息:起诉书的上下文语义信息、答辩状的上下文语义信息、起诉书与答辩状的交互语义信息。
根据本公开的实施例,为了有效提取第五语义向量序列{V1,V2,…,Vr}的关键语义特征,可以利用第四模型,获取第一聚合向量v1。可以将第一聚合向量v1输入至全连接层,获取第二聚合向量v2,从而可以将第一聚合向量v1映射到法律知识图谱的N个争议焦点所在空间。第二聚合向量v2经过激活函数作用之后,可以获取候选争议焦点属于N个争议焦点中的某个争议焦点的相应概率,从而根据上述概率分布,确定K个争议焦点。
本公开的实施例可以应用于法院庭审应用场景,通过起诉书和答辩状的各自上下文语义信息以及交互语义信息,获取可以推荐给法官进行候选的争议焦点,从而使获取的争议焦点可以与起诉书和答辩状的语义信息相对应,并可以提高推荐的争议焦点的准确度。
图5示出根据本公开的实施例的文本处理方法的流程图。如图5所示,所述文本处理方法包括以下步骤S501-S503:
在步骤S501中,获得具有关联关系的第一文本和第二文本;
在步骤S502中,获得第一文本的语义向量序列以及第二文本的语义向量序列;
在步骤S503中,对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
根据本公开的实施例,所述第一文本和所述第二文本包含彼此对应的内容;和/或所述第二文本包括对所述第一文本中的至少部分内容的应答。
根据本公开的实施例,可以获取具有关联关系的第一文本和第二文本,其中,第一文本和第二文本可以包含彼此对应的内容,例如,包含相同或相近的主题。或者,第二文本可以包括对第一文本中的至少部分内容的应答,例如第二文本可以包括第一文本的答复文本数据。例如,在法院庭审应用场景中,第一文本可以包括原告的起诉书,第二文本可以包括被告的答辩状。
根据本公开的实施例,可以对第一文本进行分词处理,获取第一分词集合,其中,第一分词集合包括第一文本的分词结果,本公开对分词处理方法不做具体限定,可以根据实际需要进行选择。
根据本公开的实施例,为了获取第一文本的语义信息,可以利用第一模型获取与第一分词集合中的每个分词相对应的向量表示,并获取第一语义向量序列{e1,e2,…em},其中,ei为第i个分词的词向量,i=1~m,从而通过第一模型引入第一文本的语义信息。本公开对第一模型不做具体限定,只要可以实现将文本数据转换为嵌入(embedding)向量的模型均在本公开实施例的保护范围之内,比如,第一模型可以包括以下模型中任意一个模型:Word2vector模型、Glove模型,Fasttext模型或BERT(Bidirectional EncoderRepresentations from Transformers,基于变换器的双向编码器表示)模型等。
根据本公开的实施例,可以对第二文本进行分词处理,获取第二分词集合,其中,第二分词集合包括第二文本的分词结果,本公开对分词处理方法不做具体限定,可以根据实际需要进行选择。为了获取第二文本的语义信息,可以利用第一模型获取与第二分词集合中的每个分词相对应的向量表示,并获取第二语义向量序列{d1,d2,…,dn},其中,dj为第j个分词的词向量,j=1~n,从而通过第一模型引入第二文本的语义信息。
根据本公开的实施例,为了获取第一文本的上下文语义信息,可以利用第二模型,基于包含了第一文本语义信息的第一语义向量序列{e1,e2,…,em},通过学习m个向量ei之间的内部关联关系,获取第一文本的语义向量序列{q1,q2,…,qm},其中,qi为向量,从而通过第二模型引入第一文本的上下文语义信息。第二模型可以为训练好的深度学习模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第二模型可以包括以下模型中任意一个模型:CNN模型、RNN模型、LSTM模型、Transformer模型、BERT模型、注意力模型等,其中,注意力模型可以包括自注意力模型(Self Attention)、多头注意力模型(Multi-HeadAttention)或HAN(Hierarchical Attention Networks,多层注意力)模型等。
根据本公开的实施例,为了获取第二文本的上下文语义信息,可以利用第二模型,基于包含了第二文本语义信息的第二语义向量序列{d1,d2,…,dn},通过学习n个向量dj之间的内部关联关系,获取第二文本的语义向量序列{h1,h2,…,hn},其中,hj为向量,从而通过第二模型引入第二文本的上下文语义信息。
根据本公开的实施例,可以对包含了第一文本的上下文语义信息的第一文本的语义向量序列{q1,q2,…,qm},以及包含了第二文本的上下文语义信息的第二文本的语义向量序列{h1,h2,…,hn},进行交互计算和信息聚合,从而获取第一文本和第二文本的交互语义信息,并基于第一文本和第二文本的交互语义信息确定第一文本和第二文本的关联点。
根据本公开的实施例,所述关联点与所述第一文本和/或所述第二文本相关联;和/或所述关联点包括与所述第一文本和/或所述第二文本有关的文本;和/或所述关联点与所述第一文本和所述第二文本中彼此有争议的文本相关联。
根据本公开的实施例,关联点与第一文本和/或第二文本相关联,例如,第一文本和第二文本包含彼此对应的内容时,关联点可以与上述彼此对应的内容相关联。
或者,关联点可以包括与第一文本和/或第二文本有关的文本,例如,第二文本包括对第一文本中的至少部分内容的应答时,关联点可以包括与上述至少部分内容和/或应答内容有关的文本数据。
或者,关联点可以包括与第一文本和第二文本中彼此有争议的文本相关联,例如,第一文本和第二文本包含彼此有争议的文本时,关联点可以与上述彼此有争议的文本相关联。
例如,在法院庭审应用场景中,第一文本可以包括原告的起诉书,第二文本可以包括被告的答辩状,关联点可以包括根据起诉书和答辩状提取的多个争议焦点。
根据本公开实施例提供的技术方案,获得具有关联关系的第一文本和第二文本,并获得第一文本的语义向量序列以及第二文本的语义向量序列,通过对第一文本的语义向量序列和第二文本的语义向量序列进行交互计算和信息聚合,得到第一文本和第二文本的关联点。本公开的实施例通过第一文本和第二文本的语义信息,获取关联点,从而可以使获取的关联点可以与第一文本和第二文本的语义信息相对应,并可以提高关联点的准确度。本公开的实施例可以应用于法院庭审应用场景,通过起诉书和答辩状的语义信息,获取可以推荐给法官进行候选的争议焦点,从而使获取的争议焦点可以与起诉书和答辩状的语义信息相对应,并可以提高推荐的争议焦点的准确度。
图6示出根据本公开实施例的对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点的示意图。
根据本公开的实施例,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算,包括:
将所述第一文本的语义向量序列和所述第二文本的语义向量序列进行拼接,得到拼接向量;
计算所述拼接向量的语义向量序列。
如图6所示,可以将包含了第一文本的上下文语义信息的第一文本的语义向量序列{q1,q2,…,qm}以及包含了第二文本的上下文语义信息的第二文本的语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量{H1,H2,…,Hr},r=n+m。
根据本公开的实施例,为了获取第一文本与第二文本的交互语义信息,可以利用第三模型601,基于包含了第一文本与第二文本的上下文语义信息的拼接向量{H1,H2,…,Hr},通过学习r个向量Hk之间的相互关联关系,k=1~r,获取拼接向量的语义向量序列{V1,V2,…,Vr},其中,拼接向量的语义向量序列{V1,V2,…,Vr}可以用于表征以下至少一种或多种语义信息:第一文本的上下文语义信息、第二文本的上下文语义信息、第一文本与第二文本的交互语义信息。第三模型可以为训练好的深度学习模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第三模型可以包括以下模型中任意一个模型:Transformer模型、注意力模型等,其中,注意力模型可以包括自注意力模型、多头注意力模型或HAN模型等。
根据本公开的实施例,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行信息聚合,包括:
根据所述拼接向量的语义向量序列得到聚合向量;
根据所述聚合向量得到与多个候选关联点相对应的概率分布;
根据所述多个候选关联点相对应的概率分布,得到所述第一文本和所述第二文本的关联点。
如图6所示,为了有效提取拼接向量的语义向量序列{V1,V2,…,Vr}的关键语义特征,可以利用第四模型,分别获取r个向量Vk在拼接向量的语义向量序列{V1,V2,…,Vr}中相对应的权重,通过对r个向量Vk以及相对应的权重进行加权求和,获取聚合向量v1。第四模型可以为训练好的注意力模型,本公开对其不做具体限定,可以根据实际需要进行选择,例如,第四模型可以包括以下模型中任意一个模型:自注意力模型、多头注意力模型或HAN模型等。
根据本公开的实施例,可以预设多个候选关联点,例如,在法院庭审应用场景中,可以在法律知识图谱的拓扑结构节点上确定N个争议焦点,比如,“借款催讨”、“夫妻共同债务”等争议焦点,可以将法律知识图谱中的N个争议焦点作为N个候选关联点。
根据本公开的实施例,可以将包括第一文本与第二文本交互语义信息的聚合向量v1,与预设的多个候选关联点之间建立映射关系,从而获取多个候选关联点相对应的概率分布,其中,概率分布表示该候选关联点属于第一文本和第二文本的关联点的概率。某个候选关联点的相应概率越大,代表该候选关联点属于第一文本和所第二文本的关联点的可能性越大。例如,可以预设N个候选关联点,并根据聚合向量v1,得到N个候选关联点相对应的概率分布,比如,在法院庭审应用场景中,可以在法律知识图谱的拓扑结构节点上确定N个争议焦点,并根据聚合向量v1,得到N个争议焦点相对应的概率分布。
根据本公开的实施例,根据多个候选关联点相对应的概率分布,可以将其中一个或者多个概率较大的候选关联点确定为第一文本和第二文本的关联点。例如,在获取N个候选关联点相对应的概率分布之后,可以将概率分布中最大的K个概率相对应的候选关联点确定为关联点,其中,1≤K≤N且为整数。
例如,在法院庭审应用场景中,第一文本可以包括原告的起诉书,第二文本可以包括被告的答辩状,可以利用起诉书和答辩状获取拼接向量的语义向量序列{V1,V2,…,Vr},并基于拼接向量的语义向量序列{V1,V2,…,Vr}得到聚合向量v1,可以根据聚合向量v1以及法律知识图谱的N个争议焦点,得到N个争议焦点相对应的概率分布,从而确定第一文本和第二文本的K个关联点,即K个争议焦点。
根据本公开的实施例,所述根据所述聚合向量得到与多个候选关联点相对应的概率分布,包括:
将所述聚合向量输入系统模型的全连接层并经过激活函数作用,得到与多个候选关联点相对应的概率分布。
根据本公开的实施例,可以将聚合向量v1输入系统模型的全连接层,获取全连接向量v2,其中,全连接向量v2的维度与多个候选关联点的数量相同,例如,假设有N个候选关联点,则全连接向量v2的维度为N。可以将全连接向量v2经过激活函数作用,得到与多个候选关联点相对应的概率分布,本公开对激活函数不做具体限定,可以根据实际需要进行选择,例如,可以为Sigmoid函数等。
由于本公开的实施例中的文本处理方法涉及到系统模型,系统模型可以包括上述第一模型、第二模型、第三模型、第四模型和全连接层等,在预训练系统模型时,系统模型包括大量的参数,且大部分参数都是随机初始化的。当本公开的实施例的文本处理方法应用的技术领域或者应用场景包括的训练数据较少时,例如,当本公开的实施例的文本处理方法运用到法院庭审的应用场景时,由于可以获取的起诉书或者答辩状等训练数据不多,导致根据随机初始化的参数训练系统模型时,系统模型很难收敛或者不能获取预期的训练效果。
根据本公开的实施例,所述文本处理方法,还包括:
对所述系统模型进行预训练;
所述预训练包括以下任务的一项或多项:预测两个文本片段是否为连续文本、预测文本中被遮蔽的部分内容、预测对文本执行的操作。
图7示出根据本公开实施例的对所述系统模型进行预训练的示意图。
如图7所示,为了使本公开的实施例中的文本处理方法所涉及的系统模型获取更好的初始化参数,并提高系统模型收敛效率和预期训练效果,可以通过以下一项或多项任务,对系统模型进行预训练:第四任务701即预测两个文本片段是否为连续文本、第五任务702即预测文本中被遮蔽的部分内容、第六任务703即预测对文本执行的操作。
根据本公开的实施例,可以根据上述至少一项内容中各内容的损失函数确定预训练的系统模型的损失函数,例如通过对各内容的损失函数求和来确定预训练的系统模型的损失函数。例如,假设预训练仅包括第四任务701时,可以根据第四任务701的损失函数确定预训练的系统模型的损失函数;又例如,假设预训练包括第四任务701、第五任务702和第六任务703时,可以对第四任务701、第五任务702和第六任务703的损失函数求和来确定预训练的系统模型的损失函数。可以根据系统模型的损失函数调整系统模型的参数,以便于使系统模型获取更好的初始化参数,从而提高系统模型收敛效率和预期训练效果。
根据本公开的实施例,所述预测两个文本片段是否为连续文本包括:
从第三文本中获得连续的第一片段和第二片段;
从所述第三文本中随机选择第三片段;
使用所述第三片段替换所述第一片段或所述第二片段;
预测所述第三片段与所述第二片段,或者所述第一片段与所述第三片段是否为连续文本。
如图7所示,为了实现第四任务701即预测两个文本片段是否为连续文本的训练目标,可以从第三文本中随机获得连续的第一片段和第二片段(a1,b1)。可以以一定的概率在第三文本中随机选择第三片段c1,并用第三片段c1替换第一片段a1或第二片段b1,从而获取两段不连续文本片段(c1,b1)或(a1,c1)。可以通过预测第三片段与第二片段(c1,b1),或者第一片段与第三片段(a1,c1)是否为连续文本,调整系统模型的参数。例如,在法院庭审应用场景中,第三文本可以包括起诉书、答辩状或其他法律文件(比如,公开的裁判文件等),从而可以增加系统模型预训练样本的数量。
根据本公开的实施例提供的技术方案,基于第四任务701即预测两个文本片段是否为连续文本训练整体模型,可以获取两段文本的相互关联关系,例如,句子与句子之间的相互关联关系。
根据本公开的实施例,所述预测文本中被遮蔽的部分内容,包括:
在所述第一文本和/或所述第二文本中随机选择任意文本片段;
以预设的掩码方式处理所述任意文本片段;
对处理后的任意文本片段中被遮蔽的部分内容进行预测。
如图7所示,为了实现第五任务702即预测文本中被遮蔽的部分内容的训练目标,可以在第一文本和/或第二文本中随机选择任意文本片段。比如,第一文本包括起诉书A,第二文本包括答辩状B,可以在起诉书A中随机抽取一段文本片段a2,可以在答辩状B中随机抽取一段文本片段b2。可以通过预设的掩码方式处理文本片段a2获取处理后的任意文本片段,例如,以一定的概率随机选择文本片段a2中预设比例的分词,采用掩码(Mask)代替原始分词,从而获取处理后的任意文本片段a3。可以采用上述预设的掩码方式处理文本片段b2获取处理后的任意文本片段b3。可以通过预测处理后的任意文本片段a3和/或处理后的任意文本片段b3中被遮蔽的部分内容,调整系统模型的参数。
根据本公开的实施例提供的技术方案,基于第五任务702即预测文本中被遮蔽的部分内容训练整体模型,可以获取文本中两个分词的相互关联关系,和/或分词与文本的相互关联关系,例如,词与词之间的相互关联关系,和/或词与句子之间的相互关联关系。
根据本公开的实施例,所述预测对文本执行的操作包括:
在所述第一片段和所述第二片段组成的文本,和/或,所述第一片段和所述第三片段组成的文本,和/或,所述第三片段和所述第二片段组成的文本中,选择任意词进行特定操作;
对所述特定操作进行预测,所述特定操作包括删除、替换、无操作。
如图7所示,为了实现第六任务703即预测对文本执行的操作的训练目标,可以在第一片段和第二片段组成的文本(a1,b1),和/或,第一片段和第三片段组成的文本(a1,c1),和/或,第三片段和第二片段组成的文本(c1,b1)中,选择任意词进行特定操作,其中,特定操作包括但不限于“删除”、“替换”或“无操作”。例如,对于第一片段和第二片段组成的文本(a1,b1)、第一片段和第三片段组成的文本(a1,c1)、或第三片段和第二片段组成的文本(c1,b1)中的分词可以进行随机的删除或替换,或者不执行任何的操作。可以通过对上述特定操作进行预测,调整系统模型的参数。
根据本公开的实施例提供的技术方案,基于第六任务703即预测对文本执行的操作训练整体模型,在不依赖于人工标注数据的情形下,可以使预训练的整体模型的参数收敛至更好的范围,从而提高预训练的整体模型的鲁棒性。
图8示出根据本公开实施例的文本处理方法的应用场景示意图。如图8所示,应用场景包括服务器800,为了描述的方便,图8的应用场景中仅绘制了一个服务器800,应当了解的是,该示例仅为示例使用,并非是对于本公开的限制,本公开中的服务器800的数量、种类可以根据实际需要进行设定,本公开对此不作具体限定。同时,本公开实施例的应用场景将以法院庭审为例进行说明,但本公开不限于此,而是也适用于其他应用场景。
服务器800可以获取具有关联关系的第一文本(起诉书)和第二文本(答辩状)。为了获取起诉书和答辩状各自的语义信息,基于起诉书,可以利用第一模型获取与起诉书相对应的第一语义向量序列{e1,e2,…,em},其中,第一语义向量序列{e1,e2,…,em}可以用于表征起诉书的语义信息;基于答辩状,可以利用第一模型获取与答辩状相对应的第二语义向量序列{d1,d2,…,dn},其中,第二语义向量序列{d1,d2,…,dn}可以用于表征答辩状的语义信息。
根据本公开的实施例,为了获取起诉书和答辩状各自的上下文语义信息,基于第一语义向量序列{e1,e2,…,em},可以利用第二模型获取与第一语义向量序列{e1,e2,…,em}相对应的第一文本的语义向量序列{q1,q2,…,qm},其中,第一文本的语义向量序列{q1,q2,…,qm}可以用于表征起诉书的上下文语义信息;基于第二语义向量序列{d1,d2,…,dn},可以利用第二模型获取与第二语义向量序列{d1,d2,…,dn}相对应的第二文本的语义向量序列{h1,h2,…,hn},其中,第二文本的语义向量序列{h1,h2,…,hn}可以用于表征答辩状的上下文语义信息。
根据本公开的实施例,为了获取起诉书和答辩状的交互语义信息,可以将第一文本的语义向量序列{q1,q2,…,qm}以及第二文本的语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量{H1,H2,…,Hr}。基于拼接向量{H1,H2,…,Hr},可以利用第三模型,获取拼接向量的语义向量序列{V1,V2,…,Vr},其中,拼接向量的语义向量序列{V1,V2,…,Vr}可以用于表征以下至少一种或多种语义信息:起诉书的上下文语义信息、答辩状的上下文语义信息、起诉书与答辩状的交互语义信息。
根据本公开的实施例,为了有效提取拼接向量的语义向量序列{V1,V2,…,Vr}的关键语义特征,可以利用第四模型,获取聚合向量v1。可以将聚合向量v1输入至系统模型的全连接层,获取全连接向量v2,从而可以将聚合向量v1映射到法律知识图谱的N个候选关联点(N个争议焦点)所在空间。全连接向量v2经过激活函数作用之后,可以获取N个候选关联点(N个争议焦点)相对应的概率分布,从而根据上述概率分布,确定K个关联点(K个争议焦点)。
本公开的实施例可以应用于法院庭审应用场景,通过起诉书和答辩状的各自上下文语义信息以及交互语义信息,获取可以推荐给法官进行候选的争议焦点,从而使获取的争议焦点可以与起诉书和答辩状的语义信息相对应,并可以提高推荐的争议焦点的准确度。
图9示出根据本公开的实施例的文本处理装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图9所示,所述文本处理装置900包括第一获取模块910、第二获取模块920、第三获取模块930、第四获取模块940和确定模块950。
所述第一获取模块910被配置为基于第一文本数据,通过处理器利用第一模型获取与所述第一文本数据相对应的第一语义向量序列{e1,e2,…,em},其中,ei为向量,i=1~m;
所述第二获取模块920被配置为基于第二文本数据,通过处理器利用所述第一模型获取与所述第二文本数据相对应的第二语义向量序列{d1,d2,…,dn},其中,dj为向量,j=1~n;
所述第三获取模块930被配置为基于所述第一语义向量序列{e1,e2,…,em},通过处理器利用第二模型获取与所述第一语义向量序列{e1,e2,…,em}相对应的第三语义向量序列{q1,q2,…,qm},其中,qi为向量;
所述第四获取模块940被配置为基于所述第二语义向量序列{d1,d2,…,dn},通过处理器利用所述第二模型获取与所述第二语义向量序列{d1,d2,…,dn}相对应的第四语义向量序列{h1,h2,…,hn},其中,hj为向量;
所述确定模块950被配置为基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据。
根据本公开的实施例,所述第一文本数据和所述第二文本数据包含彼此对应的内容,所述目标文本数据的内容与所述第一文本数据和所述第二文本数据中相对应的内容相关联;和/或
所述第二文本数据包括对所述第一文本数据中的至少部分内容的应答,所述目标文本数据包括与所述第一文本数据和/或所述第二文本数据有关的文本数据;和/或
所述目标文本数据与所述第一文本数据和所述第二文本数据中彼此有争议的文本数据相关联。
根据本公开的实施例,所述基于所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn},确定目标文本数据,包括:
将所述第三语义向量序列{q1,q2,…,qm}和所述第四语义向量序列{h1,h2,…,hn}进行拼接处理,获取拼接向量序列{H1,H2,…,Hr},其中,Hk为向量,r=n+m,k=1~r;
基于所述拼接向量序列{H1,H2,…,Hr},通过第三模型,获取第五语义向量序列{V1,V2,…,Vr},其中,Vk为向量;
根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据。
根据本公开的实施例,所述根据所述第五语义向量序列{V1,V2,…,Vr},确定所述目标文本数据,包括:
基于所述第五语义向量序列{V1,V2,…,Vr},通过第四模型,获取第一聚合向量v1;
将所述第一聚合向量v1输入全连接层,获取第二聚合向量v2;
将所述第二聚合向量v2经过激活函数作用之后,获取与N个候选目标文本数据相对应的概率分布,所述概率分布包括所述N个候选目标文本数据各自对应的概率;
根据所述概率分布,确定所述目标文本数据。
根据本公开的实施例,还包括:第一预训练模块960,被配置为通过以下至少一项任务,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行预训练:预测两段文本是否是连续文本、预测文本中被遮蔽的部分、预测对文本执行的操作,其中,根据所述至少一项任务中各任务的损失函数确定所述预训练的整体损失函数,根据所述整体损失函数调整所述第一模型、所述第二模型、所述第三模型和所述第四模型的参数。
根据本公开的实施例,所述预测两段文本是否是连续文本包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
基于所述第一训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
根据本公开的实施例,所述预测文本中被遮蔽的部分包括:
获取第二训练样本数据,其中,所述第二训练样本数据包括通过预设掩码方式处理所述第一文本数据获取的第一文本掩码数据和/或通过所述预设掩码方式处理所述第二文本数据获取的第二文本掩码数据;
基于所述第二训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
根据本公开的实施例,所述预测对文本执行的操作包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括第一文本样本数据和/或第二文本样本数据,所述第一文本样本数据包括两段连续文本样本数据,所述第二文本样本数据包括两段不连续文本样本数据;
根据所述第一训练样本数据,获取第三训练样本数据,所述第三训练样本数据包括对所述第一文本样本数据执行特定动作所获取的第三文本样本数据和/或对所述第二文本样本数据执行所述特定动作获取的第四文本样本数据;
基于所述第三训练样本数据,将所述第一模型、所述第二模型、所述第三模型和所述第四模型作为整体进行训练。
根据本公开的实施例,所述第一模型包括以下模型中任意一个模型:Word2vector模型、Glove模型,Fasttext模型、BERT模型。
根据本公开的实施例,所述第二模型包括以下模型中任意一个模型:CNN模型、RNN模型、LSTM模型、Transformer模型、BERT模型、注意力模型。
根据本公开的实施例,所述第三模型包括以下模型中任意一个模型:Transformer模型、注意力模型。
根据本公开的实施例,所述第四模型包括注意力模型。
图10示出根据本公开的实施例的文本处理装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图10所示,所述文本处理装置1000包括第五获取模块1010、第六获取模块1020和第七获取模块1030。
所述第五获取模块1010被配置为获得具有关联关系的第一文本和第二文本;
所述第六获取模块1020被配置为获得第一文本的语义向量序列以及第二文本的语义向量序列;
所述第七获取模块1030被配置为对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
根据本公开的实施例,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算,包括:
将所述第一文本的语义向量序列和所述第二文本的语义向量序列进行拼接,得到拼接向量;
计算所述拼接向量的语义向量序列。
根据本公开的实施例,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行信息聚合,包括:
根据所述拼接向量的语义向量序列得到聚合向量;
根据所述聚合向量得到与多个候选关联点相对应的概率分布;
根据所述多个候选关联点相对应的概率分布,得到所述第一文本和所述第二文本的关联点。
根据本公开的实施例,所述根据所述聚合向量得到与多个候选关联点相对应的概率分布,包括:
将所述聚合向量输入系统模型的全连接层并经过激活函数作用,得到与多个候选关联点相对应的概率分布。
根据本公开的实施例,所述装置还包括:
第二预训练模块1040,被配置为对所述系统模型进行预训练;
所述预训练包括以下任务的一项或多项:预测两个文本片段是否为连续文本、预测文本中被遮蔽的部分内容、预测对文本执行的操作。
根据本公开的实施例,所述预测两个文本片段是否为连续文本包括:
从第三文本中获得连续的第一片段和第二片段;
从所述第三文本中随机选择第三片段;
使用所述第三片段替换所述第一片段或所述第二片段;
预测所述第三片段与所述第二片段,或者所述第一片段与所述第三片段是否为连续文本。
根据本公开的实施例,所述预测文本中被遮蔽的部分内容,包括:
在所述第一文本和/或所述第二文本中随机选择任意文本片段;
以预设的掩码方式处理所述任意文本片段;
对处理后的任意文本片段中被遮蔽的部分内容进行预测。
根据本公开的实施例,所述预测对文本执行的操作包括:
在所述第一片段和所述第二片段组成的文本,和/或,所述第一片段和所述第三片段组成的文本,和/或,所述第三片段和所述第二片段组成的文本中,选择任意词进行特定操作;
对所述特定操作进行预测,所述特定操作包括删除、替换、无操作。
本公开还公开了一种电子设备,图11示出根据本公开的实施例的电子设备的结构框图。
如图11所示,所述电子设备1100包括存储器1101和处理器1102;其中,
所述存储器1101用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1102执行以实现根据本公开的实施例的方法。
图12示出适于用来实现根据本公开实施例的文本处理的计算机系统的结构示意图。
如图12所示,计算机系统1200包括处理单元1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行上述实施例中的各种处理。在RAM1203中,还存储有系统1200操作所需的各种程序和数据。处理单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。其中,所述处理单元1201可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.一种文本处理方法,其特征在于,包括:
获得具有关联关系的第一文本和第二文本;
获得第一文本的语义向量序列以及第二文本的语义向量序列;
对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算,包括:
将所述第一文本的语义向量序列和所述第二文本的语义向量序列进行拼接,得到拼接向量;
计算所述拼接向量的语义向量序列。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行信息聚合,包括:
根据所述拼接向量的语义向量序列得到聚合向量;
根据所述聚合向量得到与多个候选关联点相对应的概率分布;
根据所述多个候选关联点相对应的概率分布,得到所述第一文本和所述第二文本的关联点。
4.根据权利要求3所述的方法,其特征在于,所述根据所述聚合向量得到与多个候选关联点相对应的概率分布,包括:
将所述聚合向量输入系统模型的全连接层并经过激活函数作用,得到与多个候选关联点相对应的概率分布。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述系统模型进行预训练;
所述预训练包括以下任务的一项或多项:预测两个文本片段是否为连续文本、预测文本中被遮蔽的部分内容、预测对文本执行的操作。
6.根据权利要求5所述的方法,其特征在于,所述预测两个文本片段是否为连续文本包括:
从第三文本中获得连续的第一片段和第二片段;
从所述第三文本中随机选择第三片段;
使用所述第三片段替换所述第一片段或所述第二片段;
预测所述第三片段与所述第二片段,或者所述第一片段与所述第三片段是否为连续文本。
7.根据权利要求5所述的方法,其特征在于,所述预测文本中被遮蔽的部分内容,包括:
在所述第一文本和/或所述第二文本中随机选择任意文本片段;
以预设的掩码方式处理所述任意文本片段;
对处理后的任意文本片段中被遮蔽的部分内容进行预测。
8.根据权利要求6所述的方法,其特征在于,所述预测对文本执行的操作包括:
在所述第一片段和所述第二片段组成的文本,和/或,所述第一片段和所述第三片段组成的文本,和/或,所述第三片段和所述第二片段组成的文本中,选择任意词进行特定操作;
对所述特定操作进行预测,所述特定操作包括删除、替换、无操作。
9.一种文本处理装置,其特征在于,包括:
第五获取模块,被配置为获得具有关联关系的第一文本和第二文本;
第六获取模块,被配置为获得第一文本的语义向量序列以及第二文本的语义向量序列;
第七获取模块,被配置为对所述第一文本的语义向量序列和所述第二文本的语义向量序列进行交互计算和信息聚合,得到所述第一文本和所述第二文本的关联点。
10.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-8任一项所述的方法步骤。
11.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532018.1A CN113807101A (zh) | 2020-06-11 | 2020-06-11 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532018.1A CN113807101A (zh) | 2020-06-11 | 2020-06-11 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113807101A true CN113807101A (zh) | 2021-12-17 |
Family
ID=78943783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010532018.1A Pending CN113807101A (zh) | 2020-06-11 | 2020-06-11 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807101A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080208860A1 (en) * | 2005-09-20 | 2008-08-28 | France Telecom | Method for Sorting a Set of Electronic Documents |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及系统 |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN110968664A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种文书检索方法、装置、设备及介质 |
-
2020
- 2020-06-11 CN CN202010532018.1A patent/CN113807101A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080208860A1 (en) * | 2005-09-20 | 2008-08-28 | France Telecom | Method for Sorting a Set of Electronic Documents |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及系统 |
CN110968664A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种文书检索方法、装置、设备及介质 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
Non-Patent Citations (2)
Title |
---|
倪海清;刘丹;史梦雨;: "基于语义感知的中文短文本摘要生成模型", 计算机科学, no. 06, 30 March 2020 (2020-03-30), pages 74 - 78 * |
张超超;卢新明;: "基于FastText的新闻文本多分类研究", 软件导刊, no. 03, 15 March 2020 (2020-03-15), pages 44 - 47 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581966B (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN111783474A (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
Xie et al. | Revisiting the negative data of distantly supervised relation extraction | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
CN113128206B (zh) | 基于单词重要性加权的问题生成方法 | |
CN111898369A (zh) | 文章标题生成方法、模型的训练方法、装置和电子设备 | |
CN110362663A (zh) | 自适应多感知相似度检测和解析 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN114676332A (zh) | 一种面向开发者的网络api推荐方法 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN112597777A (zh) | 一种多轮对话改写方法和装置 | |
CN110377753A (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
Ermatita et al. | Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks. | |
CN116975578A (zh) | 逻辑规则网络模型训练方法、装置、设备、程序及介质 | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN116089644A (zh) | 一种融合多模态特征的事件检测方法 | |
CN113807101A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113919338B (zh) | 处理文本数据的方法及设备 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |