CN113642739B - 敏感词屏蔽质量评估模型的训练方法及相应的评估方法 - Google Patents

敏感词屏蔽质量评估模型的训练方法及相应的评估方法 Download PDF

Info

Publication number
CN113642739B
CN113642739B CN202110924568.2A CN202110924568A CN113642739B CN 113642739 B CN113642739 B CN 113642739B CN 202110924568 A CN202110924568 A CN 202110924568A CN 113642739 B CN113642739 B CN 113642739B
Authority
CN
China
Prior art keywords
sensitive
words
word
quality evaluation
shielding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110924568.2A
Other languages
English (en)
Other versions
CN113642739A (zh
Inventor
李东海
石崇德
侯晓焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huayu Yuandian Information Services Co ltd
Tsinghua University
Original Assignee
Beijing Huayu Yuandian Information Services Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huayu Yuandian Information Services Co ltd, Tsinghua University filed Critical Beijing Huayu Yuandian Information Services Co ltd
Priority to CN202110924568.2A priority Critical patent/CN113642739B/zh
Publication of CN113642739A publication Critical patent/CN113642739A/zh
Application granted granted Critical
Publication of CN113642739B publication Critical patent/CN113642739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备。该敏感词屏蔽质量评估模型的训练方法,包括:步骤1:基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;步骤2:使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;步骤3:屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;步骤4:随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,步骤5:迭代执行所述步骤2到步骤4直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。这样,提升了敏感词屏蔽质量的评估准确性。

Description

敏感词屏蔽质量评估模型的训练方法及相应的评估方法
技术领域
本申请涉及文本处理技术领域,更为具体地说,涉及一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备。
背景技术
在法律文书中会存在一些敏感词,比如部分疾病(如艾滋病、乙肝等)的信息。为了保护个人隐私,在法律文书的公开过程中需要对这些词进行屏蔽。
但是,法律文书在描述这些敏感词时,例如在描述病情时,往往并不是简单的提到疾病,而是有大量相关的诊断记录等,使得仅屏蔽疾病名称往往并不能限制读者获取疾病信息。因此,需要对法律文书中的敏感词的屏蔽质量进行评估,在不影响阅读的情况下屏蔽足够多的相关信息,更好地保护相关人员隐私信息。
因此,期望提供一种改进的敏感词屏蔽质量评估方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备,其能够在敏感词屏蔽质量评估模型恢复出的敏感词的基础上进一步提取与敏感词关联的支撑词,从而提升敏感词屏蔽质量的评估准确性。
根据本申请的一方面,提供了一种敏感词屏蔽质量评估模型的训练方法,包括:步骤1:基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;步骤2:使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;步骤3:屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;步骤4:随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,步骤5:迭代执行所述步骤2到步骤4直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。
在上述敏感词屏蔽质量评估模型的训练方法中,基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料包括:获取所述敏感词所属领域的文书;对所述文书进行中文分词;以及,随机屏蔽所述文书中的一部分词以获得所述敏感词屏蔽质量评估模型的预训练语料。
在上述敏感词屏蔽质量评估模型的训练方法中,屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词包括:确定所述敏感词屏蔽质量评估模型恢复出的第一敏感词与所述法律文书中屏蔽的第二敏感词是否相同;响应于所述第一敏感词与所述第二敏感词相同,计算所述第一敏感词中的每个恢复的字的注意力信息;以及,基于所述注意力信息确定所述第一敏感词的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词包括:基于所述注意力信息确定每个恢复的字的预定数目的信息源位置;确定所述第一敏感词中的各个恢复的字的信息源的交集或者并集;以及,基于所述信息源的交集或者并集中的每个信息源的信息源位置确定单个句子中的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词进一步包括:确定所述第一敏感词在不同句子中的支撑词;以及,基于所述不同句子中的支撑词的词频统计,确定词频大于预定阈值的支撑词为所述第一敏感词的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:确定同时具有敏感词和支撑词的句子;以及,屏蔽所述句子中的敏感词和支撑词之一以作为所述敏感词屏蔽质量评估模型的训练语料。
在上述敏感词屏蔽质量评估模型的训练方法中,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:确定具有敏感词且不具有支撑词,且在步骤3中准确恢复敏感词的句子;以及,将所述句子中的敏感词替换为相同长度的随机词并进行屏蔽以作为所述敏感词屏蔽质量评估模型的训练语料。
根据本申请的另一方面,提供了一种敏感词屏蔽质量评估方法,包括:获取如上所述的敏感词屏蔽质量评估模型的训练方法所训练的敏感词屏蔽质量评估模型;获取待评估的法律文书;将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及,基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
根据本申请的再一方面,提供了一种敏感词屏蔽质量评估模型的训练装置,包括:语料获取单元,用于基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;预训练单元,用于使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;词恢复单元,用于屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;屏蔽训练单元,用于随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,迭代训练单元,用于迭代执行所述预训练单元、所述词恢复单元和所述屏蔽训练单元的操作,直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。
根据本申请的又一方面,提供了一种敏感词屏蔽质量评估装置,包括:模型获取单元,用于获取如上所述的敏感词屏蔽质量评估模型的训练装置所训练的敏感词屏蔽质量评估模型;文书获取单元,用于获取待评估的法律文书;词恢复单元,用于将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及,质量评估单元,用于基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的敏感词屏蔽质量评估模型的训练方法和如上所述的敏感词屏蔽质量评估方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的敏感词屏蔽质量评估模型的训练方法和如上所述的敏感词屏蔽质量评估方法。
本申请实施例提供的敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备,能够在敏感词屏蔽质量评估模型恢复出的敏感词的基础上进一步提取与敏感词关联的支撑词,从而提升敏感词屏蔽质量的评估准确性。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练方法的流程图;
图2图示了作为根据本申请实施例的敏感词屏蔽质量评估模型的的掩码语言模型的示例;
图3图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练方法的示例的示意图;
图4图示了根据本申请实施例的敏感词屏蔽质量评估方法的流程图;
图5图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练装置的框图;
图6图示了根据本申请实施例的敏感词屏蔽质量评估装置的框图;
图7图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性方法
图1图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练方法的流程图。
如图1所示,根据本申请实施例的敏感词屏蔽质量评估模型的训练方法包括如下步骤。
步骤S110,基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料。这里,在本申请实施例中,所述敏感词可以是法律文书中需要屏蔽的各种敏感信息,例如如上所述的医疗信息,此外还可以包括未成年人的身份信息,例如姓名、地址等。也就是,在本申请实施例中,并不限定敏感词的特定类型,只要其是公开的法律文书中需要屏蔽的敏感信息即可。
以医疗信息为例,可以首先获取包含医疗信息的相关领域的文书,比如医疗纠纷等相关领域文书,对敏感词屏蔽质量评估模型进行训练。这里,在本申请实施例中,敏感词屏蔽质量评估模型可以是掩码语言模型(masked language model:MLM),例如基于BERT模型的敏感词屏蔽质量评估模型。也就是,根据本申请实施例的敏感词屏蔽质量评估的主要原理即在于评估屏蔽之后的内容是否能确保不泄露敏感信息,是否能通过其他信息反推被屏蔽的敏感信息,以及是否能通过技术手段对屏蔽信息进行恢复。
这里,掩码语言模型本身是基于屏蔽和恢复词汇来构建语言中词之间的相关性,但由于通用的掩码语言模型的屏蔽策略是采用随机屏蔽的方式,训练得到的模型构建的词与词之间的相关性并不完全是人认知中的语义相关性,在恢复屏蔽词过程中依赖的特征信息往往并不是语义上最相关的词。另外,本申请的申请人发现,部分情况下不相关的特征信息也能辅助模型进行恢复,这是因为模型的预训练过程输入了大量语料数据,即使不通过语义判断,模型也能从大量语料的概率上判断缺失的词是什么,这与人判断缺失内容的逻辑并不符合。
因此,在本申请实施例中,重新设计了掩码语言模型的屏蔽和恢复的训练流程,以更好地建立屏蔽词和支撑词之间的语义关系,这里,支撑词指的是与屏蔽词有较直接的语义关联的词,读者在阅读过程中可以根据这类词汇推断出屏蔽词内容的相关词汇。此外,在本申请实施例中,基于对抗学习的思路来进行屏蔽质量的评估。也就是,在本申请实施例中,支撑词的屏蔽和屏蔽词的恢复形成了一种对抗关系:模型能够找出支撑词并进行屏蔽,那么恢复屏蔽词的可能性就越小,屏蔽质量就越高;如果模型无法准确定位支撑词,就无法对支撑词进行屏蔽,那么读者就可以根据支撑词推断出屏蔽词的内容,屏蔽质量不理想。因此,通过更好地建立屏蔽词和支撑词之间的关系,就可以通过定位支撑词来判断屏蔽质量。
具体地,在获取所述敏感词所属领域的文书,比如医疗纠纷等相关领域文书之后,可以首先这些文书进行中文分词,并随机屏蔽部分词,以生成掩码语言模型的预训练语料。
也就是,在根据本申请实施例的敏感词屏蔽质量评估模型的训练方法中,基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料包括:获取所述敏感词所属领域的文书;对所述文书进行中文分词;以及,随机屏蔽所述文书中的一部分词以获得所述敏感词屏蔽质量评估模型的预训练语料。
步骤S120,使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练。如上所述,所述敏感词屏蔽质量评估模型可以采用BERT预训练模型中的掩码语言模型。具体地,掩码语言模型首先随机遮盖或替换一句话里面的任意字或词,然后让模型通过上下文预测被遮盖或替换的部分,如图2所示。这里,图2图示了作为根据本申请实施例的敏感词屏蔽质量评估模型的的掩码语言模型的示例。这样,通过预训练,可以使得所述敏感词屏蔽质量评估模型学习到更多的敏感词所属领域的语义信息。
值得注意的是,原始的BERT模型采用随机替换15%词的方式,但是在中文预训练中会导致中文词中的汉字被部分遮盖,因此在本申请实施例中采用全词覆盖模型,即首先对中文预训练语料进行分词,按分词的结果对词进行整体遮盖,这样可以在中文预训练模型中取得了较好的效果。
步骤S130,屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词。也就是,预先定义训练用法律文书中的需屏蔽的敏感词,使用相同长度的掩码来替代需屏蔽的敏感词,例如如上所述的疾病名称,再使用所述敏感词屏蔽质量评估模型对敏感词进行恢复,并基于注意力信息计算提供用于敏感词恢复的支撑信息的相关位置,以提取出支撑词。
具体地,在本申请实施例中,由于所述敏感词屏蔽质量评估模型可以根据上下文信息对屏蔽词进行恢复,基于所述敏感词屏蔽质量评估模型中的注意力信息,例如BERT模型中的注意力计算机制,就可以判断出恢复屏蔽词所用到的关键上下文信息。
首先,支撑词的提取包括单句支撑词识别,也就是,在确保恢复词正是被屏蔽词的前提下,计算每一个被恢复字所依赖的注意力信息,获取TopN个信息源位置,并取每个被恢复字的信息源的交集或并集,与分词情况做对应,获得单句屏蔽词的支撑词。具体来说,Bert模型具有多层、多头的注意力机制,屏蔽词恢复模型中使用了最后一层输出信息,因此仅需要考虑最后一层相关的注意力机制和屏蔽词之间的关联。一般来说,注意力表达了前一层网络信息到当前层网络传递信息量的权重,这个权重在模型中表达了句子中各个位置的字对于恢复屏蔽词的重要程度,根据注意力权重较大的位置可以找到恢复屏蔽词最重要的信息来源,也就是候选的支撑词。由于Bert模型是多头注意力机制机制,为了简化计算,可以采用多头注意力机制之和作为某个位置注意力机制的权重,然后通过查找权重TopN的注意力机制指向的文字位置来推断支撑词的位置。
但是,由于在掩码语言模型的训练过程中,可能会有敏感词被屏蔽,而句子中并没有语义上关联的支撑词的情况,比如“张某某于某年确诊艾滋病”,敏感词被屏蔽后句子中其他语义信息并不能提供足够的支撑信息进行恢复。而掩码语言模型在经过训练之后,可能将不相关信息作为支撑信息,仍然能进行屏蔽词恢复,因此单句支撑词识别可能存在一定的误差,需要在更大范围内对支撑词进行筛选。
因此,在本申请实施例中,进一步在语料库范围内进行支撑词识别,即对每个屏蔽词在不同句子的支撑词进行词频统计,保留高频支撑词以作为支撑词。
因此,在根据本申请实施例的敏感词屏蔽质量评估模型的训练方法中,屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词包括:确定所述敏感词屏蔽质量评估模型恢复出的第一敏感词与所述法律文书中屏蔽的第二敏感词是否相同;响应于所述第一敏感词与所述第二敏感词相同,计算所述第一敏感词中的每个恢复的字的注意力信息;以及,基于所述注意力信息确定所述第一敏感词的支撑词。
并且,在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词包括:基于所述注意力信息确定每个恢复的字的预定数目的信息源位置;确定所述第一敏感词中的各个恢复的字的信息源的交集或者并集;以及,基于所述信息源的交集或者并集中的每个信息源的信息源位置确定单个句子中的支撑词。
此外,在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词进一步包括:确定所述第一敏感词在不同句子中的支撑词;以及,基于所述不同句子中的支撑词的词频统计,确定词频大于预定阈值的支撑词为所述第一敏感词的支撑词。
步骤S140,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型。也就是,随机屏蔽敏感词和/或支撑词,并使用作为掩码语言模型的敏感词屏蔽质量评估模型进行训练,从而更好地建立支撑词和敏感词之间的相关性。
这里,为了建立支撑词与敏感词之间的语义关联,可以具体地包括两类的语料处理:(1)选择同时有支撑词和敏感词的句子,屏蔽其中一个,放入训练语料中;(2)选择有敏感词但没有支撑词,而之前的掩码语言模型能准确恢复敏感词的句子,将敏感词替换为相同长度的随机词汇进行屏蔽,加入训练语料,这部分语料的目的是破坏敏感词与无支撑语义的上下文之间的相关性。
因此,在根据本申请实施例的敏感词屏蔽质量评估模型的训练方法中,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:确定同时具有敏感词和支撑词的句子;以及,屏蔽所述句子中的敏感词和支撑词之一以作为所述敏感词屏蔽质量评估模型的训练语料。
或者,在根据本申请实施例的敏感词屏蔽质量评估模型的训练方法中,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:确定具有敏感词且不具有支撑词,且在步骤3中准确恢复敏感词的句子;以及,将所述句子中的敏感词替换为相同长度的随机词并进行屏蔽以作为所述敏感词屏蔽质量评估模型的训练语料。
步骤S150,迭代执行所述步骤120到步骤140直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。也就是,所述敏感词屏蔽质量评估模型经过多轮的迭代训练后,支撑词与敏感词之间的语义关联较为紧密,从而可用于进行屏蔽质量评估。
图3图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练方法的示例的示意图。如图3所示,当用于医疗信息的屏蔽质量评估时,该屏蔽质量评估模型训练方法包括:
(1)以医疗纠纷等相关领域文书进行掩码语言模型的预训练,即,对医疗纠纷相关领域文书进行中文分词,随机屏蔽部分词,生成掩码语言模型的预训练语料;
(2)在基于中文词的全词覆盖模型的基础上,进行掩码语言模型的训练,使之学习更多的医疗领域语义信息;
(3)预先定义需屏蔽的敏感词,使用相同长度的掩码([MASK])替代疾病名称,用掩码语言模型进行恢复,并基于注意力计算提供支撑信息的相关位置,提取支撑词;
(4)随机遮蔽敏感词或者支撑词,并替换不包含支撑词的敏感词语料,使用掩码语言模型进一步进行训练,从而更好地建立支撑词和疾病名词之间的相关性。
图4图示了根据本申请实施例的敏感词屏蔽质量评估方法的流程图。
如图4所示,根据本申请实施例的敏感词屏蔽质量评估方法包括:S210,获取如上所述的敏感词屏蔽质量评估模型的训练方法所训练的敏感词屏蔽质量评估模型;S220,获取待评估的法律文书;S230,将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及,S240,基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
也就是,因为如上所述的敏感词屏蔽质量评估模型从待评估的法律文书中恢复出的敏感词和提取出的支撑词之间的语义关联较为紧密,可用于进行待评估的法律文书的屏蔽质量评估。这一方面指的是在缺少支撑词的语境下,恢复敏感词的难度增大;另一方面,在有支撑词的语境下能够对敏感词进行恢复,则可以通过屏蔽支撑词进一步提升屏蔽质量,这与人通过语义判断进行推断的过程是相似的。
因此,通过根据本申请实施例的敏感词屏蔽质量评估方法,可以通过恢复出的敏感词和提取出的支撑词对于待评估的法律文书的屏蔽质量进行评估之外,例如,基于恢复出的敏感词的数目、提取出的支撑词的数目或者其两者来进行评估。此外,根据本申请实施例的敏感词屏蔽质量评估方法还可以进一步指示需要进一步屏蔽的支撑词,从而有利于继续完善法律文书的屏蔽质量。
示例性装置
图5图示了根据本申请实施例的敏感词屏蔽质量评估模型的训练装置的框图。
如图5所示,根据本申请实施例的敏感词屏蔽质量评估模型的训练装置300包括:语料获取单元310,用于基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;预训练单元320,用于使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;词恢复单元330,用于屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;屏蔽训练单元340,用于随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,迭代训练单元350,用于迭代执行所述预训练单元320、所述词恢复单元330和所述屏蔽训练单元340的操作,直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述语料获取单元310用于:获取所述敏感词所属领域的文书;对所述文书进行中文分词;以及,随机屏蔽所述文书中的一部分词以获得所述敏感词屏蔽质量评估模型的预训练语料。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述词恢复单元330用于:确定所述敏感词屏蔽质量评估模型恢复出的第一敏感词与所述法律文书中屏蔽的第二敏感词是否相同;响应于所述第一敏感词与所述第二敏感词相同,计算所述第一敏感词中的每个恢复的字的注意力信息;以及,基于所述注意力信息确定所述第一敏感词的支撑词。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述词恢复单元330基于所述注意力信息确定所述第一敏感词的支撑词包括:基于所述注意力信息确定每个恢复的字的预定数目的信息源位置;确定所述第一敏感词中的各个恢复的字的信息源的交集或者并集;以及,基于所述信息源的交集或者并集中的每个信息源的信息源位置确定单个句子中的支撑词。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述词恢复单元330基于所述注意力信息确定所述第一敏感词的支撑词进一步包括:确定所述第一敏感词在不同句子中的支撑词;以及,基于所述不同句子中的支撑词的词频统计,确定词频大于预定阈值的支撑词为所述第一敏感词的支撑词。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述屏蔽训练单元340用于:确定同时具有敏感词和支撑词的句子;以及,屏蔽所述句子中的敏感词和支撑词之一以作为所述敏感词屏蔽质量评估模型的训练语料。
在一个示例中,在上述敏感词屏蔽质量评估模型的训练装置300中,所述屏蔽训练单元340用于:确定具有敏感词且不具有支撑词,且在词恢复单元330中准确恢复敏感词的句子;以及,将所述句子中的敏感词替换为相同长度的随机词并进行屏蔽以作为所述敏感词屏蔽质量评估模型的训练语料。
图6图示了根据本申请实施例的敏感词屏蔽质量评估装置的框图。
如图6所示,根据本申请实施例的敏感词屏蔽质量评估装置400包括:模型获取单元410,用于获取如上所述的敏感词屏蔽质量评估模型的训练装置300所训练的敏感词屏蔽质量评估模型;文书获取单元420,用于获取待评估的法律文书;词恢复单元430,用于将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及,质量评估单元440,用于基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
这里,本领域技术人员可以理解,上述敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图4描述的敏感词屏蔽质量评估模型的训练方法和敏感词屏蔽质量评估方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400可以实现在各种终端设备中,例如用于处理法律裁判文书的服务器中。在一个示例中,根据本申请实施例的敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400与该终端设备也可以是分立的设备,并且该敏感词屏蔽质量评估模型的训练装置300和敏感词屏蔽质量评估装置400可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的敏感词屏蔽质量评估模型的训练方法和敏感词屏蔽质量评估方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如法律裁判文书、敏感词、支撑词等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,例如屏蔽质量评估结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的敏感词屏蔽质量评估模型的训练方法和敏感词屏蔽质量评估方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的敏感词屏蔽质量评估模型的训练方法和敏感词屏蔽质量评估方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种敏感词屏蔽质量评估模型的训练方法,其特征在于,包括:
步骤1:基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;
步骤2:使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;
步骤3:屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;
步骤4:随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;
步骤5:迭代执行所述步骤2到步骤4直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定;
其中,所述支撑词是指与屏蔽词有语意关联的词。
2.如权利要求1所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料包括:
获取所述敏感词所属领域的文书;
对所述文书进行中文分词;以及
随机屏蔽所述文书中的一部分词以获得所述敏感词屏蔽质量评估模型的预训练语料。
3.如权利要求2所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词包括:
确定所述敏感词屏蔽质量评估模型恢复出的第一敏感词与所述法律文书中屏蔽的第二敏感词是否相同;
响应于所述第一敏感词与所述第二敏感词相同,计算所述第一敏感词中的每个恢复的字的注意力信息;以及
基于所述注意力信息确定所述第一敏感词的支撑词。
4.如权利要求3所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,基于所述注意力信息确定所述第一敏感词的支撑词包括:
基于所述注意力信息确定每个恢复的字的预定数目的信息源位置;
确定所述第一敏感词中的各个恢复的字的信息源的交集或者并集;以及
基于所述信息源的交集或者并集中的每个信息源的信息源位置确定单个句子中的支撑词。
5.如权利要求4所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,基于所述注意力信息确定所述第一敏感词的支撑词进一步包括:
确定所述第一敏感词在不同句子中的支撑词;以及
基于所述不同句子中的支撑词的词频统计,确定词频大于预定阈值的支撑词为所述第一敏感词的支撑词。
6.如权利要求1所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:
确定同时具有敏感词和支撑词的句子;以及
屏蔽所述句子中的敏感词和支撑词之一以作为所述敏感词屏蔽质量评估模型的训练语料。
7.如权利要求1所述的敏感词屏蔽质量评估模型的训练方法,其特征在于,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:
确定具有敏感词且不具有支撑词,且在步骤3中准确恢复敏感词的句子;以及
将所述句子中的敏感词替换为相同长度的随机词并进行屏蔽以作为所述敏感词屏蔽质量评估模型的训练语料。
8.一种敏感词屏蔽质量评估方法,其特征在于,包括:
获取如权利要求1到7中任意一项所述的敏感词屏蔽质量评估模型的训练方法所训练的敏感词屏蔽质量评估模型;
获取待评估的法律文书;
将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及
基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
9.一种敏感词屏蔽质量评估模型的训练装置,其特征在于,包括:
语料获取单元,用于基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;
预训练单元,用于使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;
词恢复单元,用于屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;
屏蔽训练单元,用于随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及
迭代训练单元,用于迭代执行所述预训练单元、所述词恢复单元和所述屏蔽训练单元的操作,直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。
10.一种敏感词屏蔽质量评估装置,其特征在于,包括:
模型获取单元,用于获取如权利要求9所述的敏感词屏蔽质量评估模型的训练装置所训练的敏感词屏蔽质量评估模型;
文书获取单元,用于获取待评估的法律文书;
词恢复单元,用于将所述待评估的法律文书输入所述敏感词屏蔽质量评估模型以获得所述敏感词屏蔽质量评估模型恢复出的敏感词和计算出的支撑词;以及
质量评估单元,用于基于所述恢复出的敏感词和计算出的支撑词中的至少一个确定所述待评估的法律文书的敏感词屏蔽质量。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1到7中任意一项所述的敏感词屏蔽质量评估模型的训练方法和如权利要求8所述的敏感词屏蔽质量评估方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1到7中任意一项所述的敏感词屏蔽质量评估模型的训练方法和如权利要求8所述的敏感词屏蔽质量评估方法。
CN202110924568.2A 2021-08-12 2021-08-12 敏感词屏蔽质量评估模型的训练方法及相应的评估方法 Active CN113642739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110924568.2A CN113642739B (zh) 2021-08-12 2021-08-12 敏感词屏蔽质量评估模型的训练方法及相应的评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110924568.2A CN113642739B (zh) 2021-08-12 2021-08-12 敏感词屏蔽质量评估模型的训练方法及相应的评估方法

Publications (2)

Publication Number Publication Date
CN113642739A CN113642739A (zh) 2021-11-12
CN113642739B true CN113642739B (zh) 2022-04-12

Family

ID=78421083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110924568.2A Active CN113642739B (zh) 2021-08-12 2021-08-12 敏感词屏蔽质量评估模型的训练方法及相应的评估方法

Country Status (1)

Country Link
CN (1) CN113642739B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776862A (zh) * 2023-08-25 2023-09-19 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的敏感词屏蔽方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360391A (zh) * 2017-08-14 2017-11-17 苏州马尔萨斯文化传媒有限公司 一种基于视频会议的智能屏蔽方法及其系统
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
CN111859032A (zh) * 2020-07-20 2020-10-30 北京北斗天巡科技有限公司 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN112001170A (zh) * 2020-05-29 2020-11-27 中国人民大学 一种识别经过变形的敏感词的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360391A (zh) * 2017-08-14 2017-11-17 苏州马尔萨斯文化传媒有限公司 一种基于视频会议的智能屏蔽方法及其系统
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
CN112001170A (zh) * 2020-05-29 2020-11-27 中国人民大学 一种识别经过变形的敏感词的方法和系统
CN111859032A (zh) * 2020-07-20 2020-10-30 北京北斗天巡科技有限公司 一种短信拆字敏感词的检测方法、装置及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Masked Sentence Model Based on BERT for Move Recognition in Medical Scientific Abstracts;Gaihong Yu et al;《Journal of Data and Information Science》;20191231;全文 *

Also Published As

Publication number Publication date
CN113642739A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
US20200334492A1 (en) Ablation on observable data for determining influence on machine learning systems
Jiang et al. An unsupervised approach for discovering relevant tutorial fragments for APIs
US9275115B2 (en) Correlating corpus/corpora value from answered questions
US9336485B2 (en) Determining answers in a question/answer system when answer is not contained in corpus
US9460085B2 (en) Testing and training a question-answering system
US10140272B2 (en) Dynamic context aware abbreviation detection and annotation
US20150127323A1 (en) Refining inference rules with temporal event clustering
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
US8321418B2 (en) Information processor, method of processing information, and program
US20170024887A1 (en) Identifying errors in medical data
AU2021201071A1 (en) Method and system for automated text anonymisation
EP3136262A1 (en) Method and system for entity relationship model generation
US11170169B2 (en) System and method for language-independent contextual embedding
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
US9244910B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN117251699A (zh) 基于人工智能的医疗大数据分析方法及系统
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
JP5314195B2 (ja) 自然言語処理装置、方法、及びプログラム
CN113642739B (zh) 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN110555212A (zh) 基于自然语言处理的文档校验方法、装置和电子设备
CN113268740B (zh) 一种网站系统的输入约束完备性检测方法
Khan et al. A framework for plagiarism detection in Arabic documents
KR102518895B1 (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
US11423228B2 (en) Weakly supervised semantic entity recognition using general and target domain knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant