CN113591475A - 无监督可解释分词的方法、装置和电子设备 - Google Patents

无监督可解释分词的方法、装置和电子设备 Download PDF

Info

Publication number
CN113591475A
CN113591475A CN202110887556.7A CN202110887556A CN113591475A CN 113591475 A CN113591475 A CN 113591475A CN 202110887556 A CN202110887556 A CN 202110887556A CN 113591475 A CN113591475 A CN 113591475A
Authority
CN
China
Prior art keywords
mask
word
undirected
characters
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110887556.7A
Other languages
English (en)
Other versions
CN113591475B (zh
Inventor
陆中秋
王椗
刘金艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Original Assignee
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Midea Group Shanghai Co Ltd filed Critical Midea Group Co Ltd
Priority to CN202110887556.7A priority Critical patent/CN113591475B/zh
Publication of CN113591475A publication Critical patent/CN113591475A/zh
Application granted granted Critical
Publication of CN113591475B publication Critical patent/CN113591475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种无监督可解释分词的方法、装置和电子设备,该方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题。

Description

无监督可解释分词的方法、装置和电子设备
技术领域
本发明涉及自然语言处理的技术领域,尤其是涉及一种无监督可解释分词的方法、装置和电子设备。
背景技术
分词是自然语言处理的基础任务,将句子、段落分解成为字词,方便后续的处理和分析。文本是非结构化数据,需要先将这些数据转换为结构化数据,进而结构化数据就可以转换为数学问题,其中,分词就是转换的第一步。
词是表达完整含义的最小单位。字的粒度太小,无法表达完整的含义,比如“鼠”可以是“老鼠”,也可以是“鼠标”。而句子的粒度太大,承载了太多的信息,很难复用。同时,各种语言的分词方式不同,英文有天然的空格作为分隔符,而中文没有,所以如何切分成为一个难点,加之中文中一词多义的情况很多,很容易出现歧义。
一个好的分词模型需要大量的标记数据,而标记数据需要大量的标记成本,有限的标记数据成为制约分词发展的一个瓶颈。而现实中,我们拥有大量的未标记数据,如何利用未标记数据进行分词也成为分词技术发展的一个方向。
现有的分词方式分为三大类,一类是基于词典的分词方式,该种分词方式适应性不强,不同领域分词效果差距大,并且词典也难以获取;另一类是基于统计的分词方式,该种分词方式适应能力强,但是成本较高,速度慢,无法解决一词多义的问题;还有一类是基于深度学习的分词方式,该种分词方式需要大量的标记样本,而标记样本数量限制了该种分词方式的发展。目前,常见的分词器都是使用机器学习算法和词典相结合的方式,一方面为了提高分词准确率,另一方面为了改善领域适应性,但是,该种分词器的标注成本高,领域适应性依然不强,同时,无法解决一词多义的问题。
综上,现有的分词方法存在标注成本高、领域适应性差,且无法解决一词多义的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种无监督可解释分词的方法、装置和电子设备,以缓解现有的分词方法标注成本高、领域适应性差,且无法解决一词多义的技术问题。
第一方面,本发明实施例提供了一种无监督可解释分词的方法,包括:
获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,所述掩码语言模型分类器为采用专业领域文本训练得到的;
将所述字级别掩码序列输入至所述掩码语言模型分类器,输出得到与所述字级别掩码序列对应的掩码字符概率,并将与所述字级别掩码序列对应的局部扰动掩码序列输入至所述掩码语言模型分类器,输出得到与所述局部扰动掩码序列对应的掩码字符概率,其中,所述掩码字符概率表示掩码位置为所述掩码语言模型分类器的所有词表中每一个字词的概率;
采用所述字级别掩码序列、与所述字级别掩码序列对应的掩码字符概率、所述局部扰动掩码序列、与所述局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到所述局部可解释模型的可解释性权重,并将所述可解释性权重作为掩码字符的上下文因果相关度向量,进而得到所述待分词文本的字符之间的有向因果相关度矩阵;
根据所述有向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
进一步的,根据所述有向因果相关度矩阵对所述待分词文本进行分词,包括:
将所述有向因果相关度矩阵转换为无向因果相关度矩阵;
根据所述无向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
进一步的,将所述有向因果相关度矩阵转换为无向因果相关度矩阵,包括:
取所述有向因果相关度矩阵中对称位置元素的较大值,并将所述对称位置元素设置为所述较大值,得到所述无向因果相关度矩阵。
进一步的,根据所述无向因果相关度矩阵对所述待分词文本进行分词,包括:
循环遍历所述无向因果相关度矩阵中的所有行的字符,执行以下操作:
若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将所述两个字符进行合并;若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留所述当前行所对应的字符,其中,所述相邻是指相对于待分词文本中的字符相邻;
基于合并的字符对所述无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵;
将所述更新后的无向因果相关度矩阵作为所述无向因果相关度矩阵,返回执行若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将所述两个字符进行合并;若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留所述当前行所对应的字符的步骤,直至合并得到所述待分词文本为止;
将每次得到的合并的字符和保留的当前行所对应的字符作为所述待分词文本的分词结果。
进一步的,基于合并的字符对所述无向因果相关度矩阵进行更新,包括:
根据所述合并的字符对应的所述无向因果相关度矩阵中的行和列,对所述无向因果相关度矩阵进行更新,得到所述更新后的无向因果相关度矩阵。
进一步的,根据所述合并的字符对应的所述无向因果相关度矩阵中的行和列,对所述无向因果相关度矩阵进行更新,包括:
将所述合并的字符对应的所述无向因果相关度矩阵中的两行的元素对应取平均值,并将所述合并的字符对应的所述无向因果相关度矩阵中的两列的元素对应取平均值,得到所述更新后的无向因果相关度矩阵。
进一步的,所述预训练语言模型包括以下任一种:Bert、Robert、XlNet、Roberta、Albert;所述局部可解释模型包括以下任一种:线性回归模型、决策树模型。
第二方面,本发明实施例还提供了一种无监督可解释分词的装置,包括:
获取单元,用于获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,所述掩码语言模型分类器为采用专业领域文本训练得到的;
分类单元,用于将所述字级别掩码序列输入至所述掩码语言模型分类器,输出得到与所述字级别掩码序列对应的掩码字符概率,并将与所述字级别掩码序列对应的局部扰动掩码序列输入至所述掩码语言模型分类器,输出得到与所述局部扰动掩码序列对应的掩码字符概率,其中,所述掩码字符概率表示掩码位置为所述掩码语言模型分类器的所有词表中每一个字词的概率;
训练单元,用于采用所述字级别掩码序列、与所述字级别掩码序列对应的掩码字符概率、所述局部扰动掩码序列、与所述局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到所述局部可解释模型的可解释性权重,并将所述可解释性权重作为掩码字符的上下文因果相关度向量,进而得到所述待分词文本的字符之间的有向因果相关度矩阵;
分词单元,用于根据所述有向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述机器可运行指令在被处理器调用和运行时,所述机器可运行指令促使所述处理器运行上述第一方面任一项所述的方法。
在本发明实施例中,提供了一种无监督可解释分词的方法,包括:先获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列;然后,将字级别掩码序列输入至掩码语言模型分类器,输出得到与字节别掩码序列对应的掩码字符概率,并将与字级别掩码序列对应的局部扰动掩码序列输入至掩码语言模型分类器,输出得到与局部扰动掩码序列对应的掩码字符概率;进而,采用字级别掩码序列、与字级别掩码序列对应的掩码字符概率、局部扰动掩码序列、与局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到局部可解释模型的可解释性权重,并将可解释性权重作为掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵;最后,根据有向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。通过上述描述可知,本发明无监督可解释分词的方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而多个掩码字符的上下文因果相关度向量便组成了待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题,缓解了现有的分词方法标注成本高、领域适应性差,且无法解决一词多义的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种无监督可解释分词的方法的流程图;
图2为本发明实施例提供的Lime方法的局部解释示意图;
图3为本发明实施例提供的循环遍历无向因果相关度矩阵中的所有行的字符对待分词文本进行分词的流程图;
图4为本发明实施例提供的了无向因果相关度矩阵Wij的图形化表示的示意图;
图5为本发明实施例提供的待分词文本“江阴市长江大桥”的分词结果示意图;
图6为本发明实施例提供的一种无监督可解释性分词的装置的示意图;
图7为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,常见的分词器都是使用机器学习算法和词典相结合的方式,该种分词器的标注成本高,领域适应性依然不强,同时,无法解决一词多义的问题。
基于此,本实施例提供了一种无监督可解释分词的方法,该方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而多个掩码字符的上下文因果相关度向量便组成了待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种无监督可解释分词的方法进行详细介绍。
实施例一:
根据本发明实施例,提供了一种无监督可解释分词的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种无监督可解释分词的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,掩码语言模型分类器为采用专业领域文本训练得到的;
在本发明实施例中,上述预训练语言模型可以包括以下任一种:Bert、Robert、XlNet、Roberta、Albert,即预训练语言模型可以为掩码语言模型系列中的任意模型,在本实施例中,可以为Bert,本发明实施例对该预训练语言模型不进行具体限制。
上述预训练语言模型包含两种能力,一种能力是判断两个句子是否为相邻的两句话(即是否为上下两句话),另一种能力是掩码语言模型分类器的功能,本发明实施例用到的是其掩码语言模型分类器的功能,所以说为基于预训练语言模型的掩码语言模型分类器(该掩码语言模型分类器为开源的模型,该掩码语言模型分类器天然蕴含了分词能力,本发明结合Lime方法尝试挖掘并落地了其分词能力)。
上述掩码语言模型分类器为采用专业领域文本训练得到的,具体的,使用大量的未标记数据(如,wiki data等数据),即将大量的未标记原始文本随机遮盖(掩码)几个字输入掩码语言模型分类器,然后,掩码语言模型分类器分类出这几个字。例如,未标记原始文本为:江阴市长江大桥,将“江阴市[MASK]江大桥”(即未标记原始文本随机遮盖“长”字)输入掩码语言模型分类器,掩码语言模型分类器输出“长”字的概率为0.9,其它某个字的概率为0.01,即分类得到掩码位置为“长”字的概率为0.9,掩码位置为其它某个字的概率为0.01。
需要说明的是,若采用医药领域文本训练掩码语言模型分类器,那么,其对医药领域的适应性好,后续的分词对医药领域的适应性也好;若采用建筑领域文本训练掩码语言模型分类器,那么,其对建筑领域的适应性好,后续的分词对建筑领域的适应性也好,也就是,该方法可以融入专业领域知识,可以更好的促进分词,分词的领域适应性强,分词的效果会随着掩码语言模型分类器的优化而优化,且会随着掩码语言模型分类器的领域化,效果更佳。
另外,本发明实施例中的所有数值为虚构的数字,不构成对本发明保护范围的限定。
为了对本发明实施例更好的理解,下面以一个具体的举例对本发明的方法进行介绍:
当待分词文本为:“江阴市长江大桥”时,先将待分词文本进行字级别分词,得到待分词文本的字级别序列为:江,阴,市,长,江,大,桥,进一步对其中的字符进行掩码遮盖,得到的字级别掩码序列X=[X\X1,X\X2,X\X3,X\X4,X\X5,X\X6,X\X7],其中,X\Xi表示将第i个字替换为[MASK]后的序列,如上述“江阴市长江大桥”的举例,X\X1=[MASK],阴,市,长,江,大,桥;X\X2=江,[MASK],市,长,江,大,桥;后续以此类推。
步骤S104,将字级别掩码序列输入至掩码语言模型分类器,输出得到与字级别掩码序列对应的掩码字符概率,并将与字级别掩码序列对应的局部扰动掩码序列输入至掩码语言模型分类器,输出得到与局部扰动掩码序列对应的掩码字符概率,其中,掩码字符概率表示掩码位置为掩码语言模型分类器的所有词表中每一个字词的概率;
继续以步骤S102中的一个字级别掩码序列X\X4=江,阴,市,[MASK],江,大,桥;为例进行说明,将字级别掩码序列江,阴,市,[MASK],江,大,桥输入至掩码语言模型分类器,输出得到的掩码位置为掩码语言模型分类器的所有词表中“长”字的概率P{X\X4}为0.9;
局部扰动(局部扰动的方式可以为去除几个字,本发明实施例对其方式不进行具体限制)上述字级别掩码序列X\X4=江,阴,市,[MASK],江,大,桥;可以得到对应的局部扰动掩码序列为:{X\X4}’=阴,市,[MASK],江,大,桥(即去掉了第一个“江”字);{X\X4}”=江,阴,市,[MASK],大,桥(即去掉了第二个“江”字);将局部扰动掩码序列{X\X4}’和{X\X4}”输入至掩码语言模型分类器输出得到的对应的掩码字符概率分别为0.89和0.91;其中的各概率值表示掩码位置为“长”字的概率;
如此,便能得到字级别掩码序列、与字级别掩码序列对应的掩码字符概率、多组局部扰动掩码序列、与每组局部扰动掩码序列对应的掩码字符概率。
步骤S106,采用字级别掩码序列、与字级别掩码序列对应的掩码字符概率、局部扰动掩码序列、与局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到局部可解释模型的可解释性权重,并将可解释性权重作为掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵;
具体的,将步骤S104中得到的字级别掩码序列、与字级别掩码序列对应的掩码字符概率、多组局部扰动掩码序列、与每组局部扰动掩码序列对应的掩码字符概率作为训练数据对局部可解释模型进行训练,使得训练得到的局部可解释模型也具备了掩码语言模型分类器的效果,训练完成后,便得到了局部可解释模型的可解释性权重,即掩码字符“长”字的上下文因果相关度向量。例如,训练得到的局部可解释模型为y=0.01*江+0.02*阴+0.03*市+None*MASK+0.9*江+0.01*大+0.01*桥,其中的可解释性权重为[0.01,0.02,0.03,None,0.9,0.01,0.01],即掩码字符“长”字的上下文因果相关度向量为[0.01,0.02,0.03,None,0.9,0.01,0.01],其中的None表示“长”字与自身的因果相关度,无需计算。掩码字符“长”字的上下文因果相关度向量[0.01,0.02,0.03,None,0.9,0.01,0.01]中,“长”字是“果”,尝试去寻找“因”,即哪几个字导致这里应该是“长”这个字,这就是可解释的范畴,解释为何这个位置是“长”,即每个其他字对于“长”这个字的因果贡献程度。
按照该方法可以得到待分词文本“江阴市长江大桥”中每个掩码字符的上下文因果相关度向量,进而根据每个掩码字符的上下文因果相关度向量可以得到待分词文本“江阴市长江大桥”的字符之间的有向因果相关度矩阵Wij,具体可以为:
Figure BDA0003194753710000111
上述有向因果相关度矩阵Wij中的各元素表示j位置的字符对i位置字符的因果贡献程度(即影响力),其中,i表示MASK的位置,j=0,1,2,3,4,5,6,其大小等于待分词文本的字符长度;如MASK的位置为“长”字,即对应上述矩阵中的第3行(从第0行开始),其中的0.072(即W30)表示“江”字对“长”字的因果贡献程度为0.072,-0.009表示(即W31)表示“阴”字对“长”字的因果贡献程度为-0.009,0.08表示(即W32)表示“市”字对“长”字的因果贡献程度为0.08,-0.011表示(即W33)表示“长”字对“长”字的因果贡献程度为-0.011,0.374表示(即W34)表示“江”字对“长”字的因果贡献程度为0.374,0.238表示(即W35)表示“大”字对“长”字的因果贡献程度为0.238,0.148表示(即W36)表示“桥”字对“长”字的因果贡献程度为0.148。若相邻字符之间的因果相关度较弱,则应该被切开,相反,若相邻字符之间的因果相关度较强,则应该被合并,所以,根据有向因果相关度矩阵中各元素的大小便能达到分词的目的。
上述步骤S106的过程实际上是采用了Lime(LocalInterpretable Model-Agnostic Explanations)方法,其是一种分类模型可解释方法,是利用局部代理模型来对单个样本进行解释。在局部一个输入上,进行一定的扰动,然后用一个可解释的模型(例如线性回归)去拟合分类结果,从而用该模型解释当前输入。
例如:训练了掩码语言模型分类器,其是不可解释的,并准备了局部可解释模型,其是可解释的,然后,对字级别掩码序列(即样本)进行一定的扰动,比如得到10个局部扰动掩码序列(即字级别掩码序列相近),将字级别掩码序列和局部扰动掩码序列输入至掩码语言模型分类器,输出得到11个对应的掩码字符概率(每个掩码字符概率与一个字级别掩码序列或局部扰动掩码序列对应),将字级别掩码序列,与字级别掩码序列对应的掩码字符概率,10个局部扰动掩码序列,与10个局部扰动掩码序列对应的掩码字符概率序为训练样本,这样,就得到了11组训练样本,用这11组训练样本对局部可解释模型进行训练,这样,局部可解释模型便具备了与掩码语言模型分类器一样的效果,所以,在字级别掩码序列的附近(这就是所谓的局部)可以用局部可解释模型代替掩码语言模型分类器,而局部可解释模型是可解释的,所以得到了局部可解释模型的可解释性权重,就用来表征掩码字符的上下文因果相关度。
Lime的核心是在某一个数据点上,用一个可解释的模型B(在本发明实施例中,上述局部可解释模型可以为线性回归模型,还可以为决策树模型,本发明实施例中采用的是线性回归模型)去解释一个不可解释的模型A(如,掩码语言模型分类器,或者其它神经网络模型)。
图2中示出了Lime方法的局部解释,图2中包含2个模型,一个以背景表示的模型A(不可解释模型),虚线表示模型B(可解释模型),图中的十字和圆点都是对应的数据点,虚线上的十字为某一个关注的点(比如“江阴市长江大桥”),其周边的十字和圆点表示关注的点经过扰动后的点。十字的颜色和圆形的颜色表示这些数据经过模型A得到的分类结果(模型A就是用来区分是十字的颜色还是圆形的颜色的分类器),这样模型A产生了数据对,用模型A产生的数据对去训练模型B,使得模型B在虚线上的十字的分类效果与A相同,最终用B的参数解释A。
步骤S108,根据有向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。
下文中再对该过程进行详细描述,在此不再赘述。
在本发明实施例中,提供了一种无监督可解释分词的方法,包括:先获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列;然后,将字级别掩码序列输入至掩码语言模型分类器,输出得到与字节别掩码序列对应的掩码字符概率,并将与字级别掩码序列对应的局部扰动掩码序列输入至掩码语言模型分类器,输出得到与局部扰动掩码序列对应的掩码字符概率;进而,采用字级别掩码序列、与字级别掩码序列对应的掩码字符概率、局部扰动掩码序列、与局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到局部可解释模型的可解释性权重,并将可解释性权重作为掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵;最后,根据有向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。通过上述描述可知,本发明无监督可解释分词的方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而多个掩码字符的上下文因果相关度向量便组成了待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题,缓解了现有的分词方法标注成本高、领域适应性差,且无法解决一词多义的技术问题。
上述内容对本发明的无监督分词的方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本发明的一个可选实施例中,上述步骤S108,根据有向因果相关度矩阵对待分词文本进行分词,具体包括如下(1)-(2)步骤:
(1)将有向因果相关度矩阵转换为无向因果相关度矩阵;
具体的,取有向因果相关度矩阵中对称位置元素的较大值,并将对称位置元素设置为较大值,得到无向因果相关度矩阵。
通过有向因果相关度矩阵Wij可知,Wij是有方向的,比如,W01和W10是不同的,通俗的讲,“阴”字对“江”字的因果贡献程度和阴”字对“江”字的因果贡献程度不同,比如,W01=0.1,W10=0.2,二者为对称位置元素,则取其中的较大值0.2,即MAX(W01,W10)=0.2,并将对称位置元素W01和W10设置为较大值0.2,其表示的含义为:两个字符之间的因果相关度不管方向,取最大的即可。
(2)根据无向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。
参考图3,具体包括如下步骤:
循环遍历无向因果相关度矩阵中的所有行的字符,执行以下操作:
步骤S301,若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将两个字符进行合并;若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留当前行所对应的字符,其中,相邻是指相对于待分词文本中的字符相邻;
下面以无向因果相关度矩阵为Wij(图4中示出了无向因果相关度矩阵Wij的图形化表示,颜色越深表示当前行的因果相关度越大)为例进行说明,Wij为:
Figure BDA0003194753710000151
以无向因果相关度矩阵中的第0行为例进行说明,即当前行为第0行,其中的最大因果相关度为0.494,对应的两个字符为“江”和“阴”,相对于“江阴市长江大桥”中的字符来说相邻,所以,将“江”和“阴”合并。
再以无向因果相关度矩阵中的第2行为例进行说明,即当前行为第2行时,其中的最大因果相关度为0.275,对应的两个字符为“市”和“江”,相对于“江阴市长江大桥”中的字符来说不相邻,所以,“市”和“江”不合并,并保留第2行所对应的字符“市”。
总体来说,第一次遍历无向因果相关度矩阵中的所有行的字符的过程为:
i=0,第0行中,W01=0.494最大,对应的字符“江”和“阴”,合并得到“江阴”;
i=1,第1行中,W10=0.494最大,对应的字符“阴”和“江”相邻,合并得到“江阴”;
i=2,第2行中,W20=0.275最大,对应的字符“市”和“江”不相邻,则不合并,并保留第2行所对应的字符,得到“市”;
i=3,第3行中,W34=0.374最大,对应的字符“长”和“江”相邻,合并得到“长江”;
i=4,第4行中,W43=0.374最大,对应的字符“江”和“长”相邻,合并得到“长江”;
i=5,第5行中,W56=0.63最大,对应的字符“大”和“桥”相邻,合并得到“大桥“;
i=6,第6行中,W65=0.63最大,对应的字符“桥”和“大”相邻,合并得到“大桥“。
第一次遍历无向因果相关度矩阵中的所有行的字符后,得到的合并的字符和保留的当前行所对应的字符为:“江阴”,“市”,“长江”,“大桥”。
步骤S302,基于合并的字符对无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵;
具体的,根据合并的字符对应的无向因果相关度矩阵中的行和列,对无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵。
在一种可选的实施方式中,将合并的字符对应的无向因果相关度矩阵中的两行的元素对应取平均值,并将合并的字符对应的无向因果相关度矩阵中的两列的元素对应取平均值,得到更新后的无向因果相关度矩阵。
如上述步骤S301中的举例,将合并的字符“江”和“阴”对应的无向因果相关度矩阵中的两行的元素对应取平均值,即将第0行和第1行的元素对应取平均值,同时,将合并的字符“江”和“阴”对应的无向因果相关度矩阵中的两列的元素对应取平均值,即将第0列和第1列的元素对应取平均值,便得到更新后的无向因果相关度矩阵。
如此以一次遍历无向因果相关度矩阵中的所有行的字符后,根据其中所有合并的字符对应的无向因果相关度矩阵中的行和列,对无向因果相关度矩阵进行更新后,得到的更新后的无向因果相关度矩阵为:
Figure BDA0003194753710000161
Figure BDA0003194753710000171
步骤S303,将更新后的无向因果相关度矩阵作为无向因果相关度矩阵,返回执行若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将两个字符进行合并;若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留当前行所对应的字符的步骤,直至合并得到待分词文本为止;
第二次遍历无向因果相关度矩阵中的所有行的字符后,得到的合并的字符和保留的当前行所对应的字符为:“江阴市”,“长江大桥”;
更新后的无向因果相关度矩阵为:
江阴市 长江大桥
江阴市 [0.275, 0.494]
长江大桥[0.494, -0.0]
第三次遍历无向因果相关度矩阵中的所有行的字符后,得到的合并的字符和保留的当前行所对应的字符为:“江阴市长江大桥”,合并得到待分词文本,停止。
步骤S304,将每次得到的合并的字符和保留的当前行所对应的字符作为待分词文本的分词结果。
参考图5,待分词文本“江阴市长江大桥”的分词结果为:“江阴”,“市”,“长江”,“大桥”,“江阴市”,“长江大桥”,“江阴市长江大桥”。
本发明的无监督可解释分词的方法充分利用了预训练语言模型,获取字符内在的分词逻辑,不需要标注数据,降低了分词的领域难度和标记成本,挖掘了预训练语言模型的能力。
实施例二:
本发明实施例还提供了一种无监督可解释分词的装置,该无监督可解释分词的装置主要用于执行本发明实施例一中所提供的无监督可解释分词的方法,以下对本发明实施例提供的无监督可解释分词的装置做具体介绍。
图6是根据本发明实施例的一种无监督可解释分词的装置的示意图,如图6所示,该装置主要包括:获取单元10、分类单元20、训练单元30和分词单元40,其中:
获取单元,用于获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,掩码语言模型分类器为采用专业领域文本训练得到的;
分类单元,用于将字级别掩码序列输入至掩码语言模型分类器,输出得到与字级别掩码序列对应的掩码字符概率,并将与字级别掩码序列对应的局部扰动掩码序列输入至掩码语言模型分类器,输出得到与局部扰动掩码序列对应的掩码字符概率,其中,掩码字符概率表示掩码位置为掩码语言模型分类器的所有词表中每一个字词的概率;
训练单元,用于采用字级别掩码序列、与字级别掩码序列对应的掩码字符概率、局部扰动掩码序列、与局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到局部可解释模型的可解释性权重,并将可解释性权重作为掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵;
分词单元,用于根据有向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。
在本发明实施例中,提供了一种无监督可解释分词的装置,包括:先获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列;然后,将字级别掩码序列输入至掩码语言模型分类器,输出得到与字节别掩码序列对应的掩码字符概率,并将与字级别掩码序列对应的局部扰动掩码序列输入至掩码语言模型分类器,输出得到与局部扰动掩码序列对应的掩码字符概率;进而,采用字级别掩码序列、与字级别掩码序列对应的掩码字符概率、局部扰动掩码序列、与局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到局部可解释模型的可解释性权重,并将可解释性权重作为掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵;最后,根据有向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。通过上述描述可知,本发明无监督可解释分词的装置利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而多个掩码字符的上下文因果相关度向量便组成了待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题,缓解了现有的分词方法标注成本高、领域适应性差,且无法解决一词多义的技术问题。
可选地,分词单元还用于:将有向因果相关度矩阵转换为无向因果相关度矩阵;根据无向因果相关度矩阵对待分词文本进行分词,得到待分词文本的分词结果。
可选地,分词单元还用于:取有向因果相关度矩阵中对称位置元素的较大值,并将对称位置元素设置为较大值,得到无向因果相关度矩阵。
可选地,分词单元还用于:循环遍历无向因果相关度矩阵中的所有行的字符,执行以下操作:若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将两个字符进行合并;若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留当前行所对应的字符,其中,相邻是指相对于待分词文本中的字符相邻;基于合并的字符对无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵;将更新后的无向因果相关度矩阵作为无向因果相关度矩阵,返回执行若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将两个字符进行合并;若无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留当前行所对应的字符的步骤,直至合并得到待分词文本为止;将每次得到的合并的字符和保留的当前行所对应的字符作为待分词文本的分词结果。
可选地,分词单元还用于:根据合并的字符对应的无向因果相关度矩阵中的行和列,对无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵。
可选地,分词单元还用于:将合并的字符对应的无向因果相关度矩阵中的两行的元素对应取平均值,并将合并的字符对应的无向因果相关度矩阵中的两列的元素对应取平均值,得到更新后的无向因果相关度矩阵。
可选地,预训练语言模型包括以下任一种:Bert、Robert、XlNet、Roberta、Albert;局部可解释模型包括以下任一种:线性回归模型、决策树模型。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图7所示,本申请实施例提供的一种电子设备600,包括:处理器601、存储器602和总线,所述存储器602存储有所述处理器601可执行的机器可读指令,当电子设备运行时,所述处理器601与所述存储器602之间通过总线通信,所述处理器601执行所述机器可读指令,以执行如上述无监督可解释分词的方法的步骤。
具体地,上述存储器602和处理器601能够为通用的存储器和处理器,这里不做具体限定,当处理器601运行存储器602存储的计算机程序时,能够执行上述无监督可解释分词的方法。
处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
对应于上述无监督可解释分词的方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述无监督可解释分词的方法的步骤。
本申请实施例所提供的无监督可解释分词的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述车辆标记方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种无监督可解释分词的方法,其特征在于,包括:
获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,所述掩码语言模型分类器为采用专业领域文本训练得到的;
将所述字级别掩码序列输入至所述掩码语言模型分类器,输出得到与所述字级别掩码序列对应的掩码字符概率,并将与所述字级别掩码序列对应的局部扰动掩码序列输入至所述掩码语言模型分类器,输出得到与所述局部扰动掩码序列对应的掩码字符概率,其中,所述掩码字符概率表示掩码位置为所述掩码语言模型分类器的所有词表中每一个字词的概率;
采用所述字级别掩码序列、与所述字级别掩码序列对应的掩码字符概率、所述局部扰动掩码序列、与所述局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到所述局部可解释模型的可解释性权重,并将所述可解释性权重作为掩码字符的上下文因果相关度向量,进而得到所述待分词文本的字符之间的有向因果相关度矩阵;
根据所述有向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
2.根据权利要求1所述的方法,其特征在于,根据所述有向因果相关度矩阵对所述待分词文本进行分词,包括:
将所述有向因果相关度矩阵转换为无向因果相关度矩阵;
根据所述无向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
3.根据权利要求2所述的方法,其特征在于,将所述有向因果相关度矩阵转换为无向因果相关度矩阵,包括:
取所述有向因果相关度矩阵中对称位置元素的较大值,并将所述对称位置元素设置为所述较大值,得到所述无向因果相关度矩阵。
4.根据权利要求2所述的方法,其特征在于,根据所述无向因果相关度矩阵对所述待分词文本进行分词,包括:
循环遍历所述无向因果相关度矩阵中的所有行的字符,执行以下操作:
若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将所述两个字符进行合并;若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留所述当前行所对应的字符,其中,所述相邻是指相对于待分词文本中的字符相邻;
基于合并的字符对所述无向因果相关度矩阵进行更新,得到更新后的无向因果相关度矩阵;
将所述更新后的无向因果相关度矩阵作为所述无向因果相关度矩阵,返回执行若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符相邻,则将所述两个字符进行合并;若所述无向因果相关度矩阵中,当前行中的最大因果相关度对应的两个字符不相邻,则不合并,并保留所述当前行所对应的字符的步骤,直至合并得到所述待分词文本为止;
将每次得到的合并的字符和保留的当前行所对应的字符作为所述待分词文本的分词结果。
5.根据权利要求4所述的方法,其特征在于,基于合并的字符对所述无向因果相关度矩阵进行更新,包括:
根据所述合并的字符对应的所述无向因果相关度矩阵中的行和列,对所述无向因果相关度矩阵进行更新,得到所述更新后的无向因果相关度矩阵。
6.根据权利要求5所述的方法,其特征在于,根据所述合并的字符对应的所述无向因果相关度矩阵中的行和列,对所述无向因果相关度矩阵进行更新,包括:
将所述合并的字符对应的所述无向因果相关度矩阵中的两行的元素对应取平均值,并将所述合并的字符对应的所述无向因果相关度矩阵中的两列的元素对应取平均值,得到所述更新后的无向因果相关度矩阵。
7.根据权利要求1所述的方法,其特征在于,所述预训练语言模型包括以下任一种:Bert、Robert、XlNet、Roberta、Albert;所述局部可解释模型包括以下任一种:线性回归模型、决策树模型。
8.一种无监督可解释分词的装置,其特征在于,包括:
获取单元,用于获取基于预训练语言模型的掩码语言模型分类器,并获取待分词文本的字级别掩码序列,其中,所述掩码语言模型分类器为采用专业领域文本训练得到的;
分类单元,用于将所述字级别掩码序列输入至所述掩码语言模型分类器,输出得到与所述字级别掩码序列对应的掩码字符概率,并将与所述字级别掩码序列对应的局部扰动掩码序列输入至所述掩码语言模型分类器,输出得到与所述局部扰动掩码序列对应的掩码字符概率,其中,所述掩码字符概率表示掩码位置为所述掩码语言模型分类器的所有词表中每一个字词的概率;
训练单元,用于采用所述字级别掩码序列、与所述字级别掩码序列对应的掩码字符概率、所述局部扰动掩码序列、与所述局部扰动掩码序列对应的掩码字符概率对局部可解释模型进行训练,得到所述局部可解释模型的可解释性权重,并将所述可解释性权重作为掩码字符的上下文因果相关度向量,进而得到所述待分词文本的字符之间的有向因果相关度矩阵;
分词单元,用于根据所述有向因果相关度矩阵对所述待分词文本进行分词,得到所述待分词文本的分词结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述机器可运行指令在被处理器调用和运行时,所述机器可运行指令促使所述处理器运行上述权利要求1至7中任一项所述的方法。
CN202110887556.7A 2021-08-03 2021-08-03 无监督可解释分词的方法、装置和电子设备 Active CN113591475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887556.7A CN113591475B (zh) 2021-08-03 2021-08-03 无监督可解释分词的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887556.7A CN113591475B (zh) 2021-08-03 2021-08-03 无监督可解释分词的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113591475A true CN113591475A (zh) 2021-11-02
CN113591475B CN113591475B (zh) 2023-07-21

Family

ID=78254506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887556.7A Active CN113591475B (zh) 2021-08-03 2021-08-03 无监督可解释分词的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113591475B (zh)

Citations (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562878A (zh) * 2017-08-31 2018-01-09 广东美的制冷设备有限公司 家电控制方法、电子设备和计算机可读存储介质
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110321555A (zh) * 2019-06-11 2019-10-11 国网江苏省电力有限公司南京供电分公司 一种基于循环神经网络模型的电网信号分类方法
CN110399606A (zh) * 2018-12-06 2019-11-01 国网信息通信产业集团有限公司 一种无监督电力文档主题生成方法及系统
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110705291A (zh) * 2019-10-10 2020-01-17 青岛科技大学 基于无监督学习的思想政治教育领域文献分词方法及系统
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN110717324A (zh) * 2019-09-06 2020-01-21 暨南大学 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN110851604A (zh) * 2019-11-12 2020-02-28 中科鼎富(北京)科技发展有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110941698A (zh) * 2019-11-18 2020-03-31 陕西师范大学 一种基于bert下卷积神经网络的服务发现方法
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111125491A (zh) * 2019-11-29 2020-05-08 腾讯科技(深圳)有限公司 商品信息的搜索方法和装置、存储介质及电子装置
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111382568A (zh) * 2020-05-29 2020-07-07 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111460820A (zh) * 2020-03-06 2020-07-28 中国科学院信息工程研究所 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111489746A (zh) * 2020-03-05 2020-08-04 国网浙江省电力有限公司 一种基于bert的电网调度语音识别语言模型构建方法
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111581383A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于ERNIE-BiGRU的中文文本分类方法
CN111625649A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN111680169A (zh) * 2020-06-03 2020-09-18 国网内蒙古东部电力有限公司 一种基于bert模型技术的电力科技成果数据抽取方法
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置
CN111966831A (zh) * 2020-08-18 2020-11-20 创新奇智(上海)科技有限公司 一种模型训练方法、文本分类方法、装置及网络模型
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN112149421A (zh) * 2020-09-23 2020-12-29 云南师范大学 一种基于bert嵌入的软件编程领域实体识别方法
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112270187A (zh) * 2020-11-05 2021-01-26 中山大学 一种基于bert-lstm的谣言检测模型
CN112329392A (zh) * 2020-11-05 2021-02-05 上海明略人工智能(集团)有限公司 双向编码的目标编码器构建方法及装置
CN112417864A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 基于门控拷贝和掩码的多轮对话省略恢复方法
CN112528634A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本纠错模型训练、识别方法、装置、设备及存储介质
CN112559556A (zh) * 2021-02-25 2021-03-26 杭州一知智能科技有限公司 表格模式解析和序列掩码的语言模型预训练方法及系统
CN112668313A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN112784051A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利术语抽取方法
CN112906384A (zh) * 2021-03-10 2021-06-04 平安科技(深圳)有限公司 基于bert模型的数据处理方法、装置、设备及可读存储介质
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统

Patent Citations (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562878A (zh) * 2017-08-31 2018-01-09 广东美的制冷设备有限公司 家电控制方法、电子设备和计算机可读存储介质
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN110399606A (zh) * 2018-12-06 2019-11-01 国网信息通信产业集团有限公司 一种无监督电力文档主题生成方法及系统
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110321555A (zh) * 2019-06-11 2019-10-11 国网江苏省电力有限公司南京供电分公司 一种基于循环神经网络模型的电网信号分类方法
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110717324A (zh) * 2019-09-06 2020-01-21 暨南大学 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN110705291A (zh) * 2019-10-10 2020-01-17 青岛科技大学 基于无监督学习的思想政治教育领域文献分词方法及系统
CN110851604A (zh) * 2019-11-12 2020-02-28 中科鼎富(北京)科技发展有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110941698A (zh) * 2019-11-18 2020-03-31 陕西师范大学 一种基于bert下卷积神经网络的服务发现方法
CN111125491A (zh) * 2019-11-29 2020-05-08 腾讯科技(深圳)有限公司 商品信息的搜索方法和装置、存储介质及电子装置
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111489746A (zh) * 2020-03-05 2020-08-04 国网浙江省电力有限公司 一种基于bert的电网调度语音识别语言模型构建方法
CN111460820A (zh) * 2020-03-06 2020-07-28 中国科学院信息工程研究所 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111581383A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于ERNIE-BiGRU的中文文本分类方法
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN111625649A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111382568A (zh) * 2020-05-29 2020-07-07 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111680169A (zh) * 2020-06-03 2020-09-18 国网内蒙古东部电力有限公司 一种基于bert模型技术的电力科技成果数据抽取方法
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN111966831A (zh) * 2020-08-18 2020-11-20 创新奇智(上海)科技有限公司 一种模型训练方法、文本分类方法、装置及网络模型
CN112149421A (zh) * 2020-09-23 2020-12-29 云南师范大学 一种基于bert嵌入的软件编程领域实体识别方法
CN112270187A (zh) * 2020-11-05 2021-01-26 中山大学 一种基于bert-lstm的谣言检测模型
CN112329392A (zh) * 2020-11-05 2021-02-05 上海明略人工智能(集团)有限公司 双向编码的目标编码器构建方法及装置
CN112417864A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 基于门控拷贝和掩码的多轮对话省略恢复方法
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112528634A (zh) * 2020-12-11 2021-03-19 平安科技(深圳)有限公司 文本纠错模型训练、识别方法、装置、设备及存储介质
CN112668313A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN112784051A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利术语抽取方法
CN112559556A (zh) * 2021-02-25 2021-03-26 杭州一知智能科技有限公司 表格模式解析和序列掩码的语言模型预训练方法及系统
CN112906384A (zh) * 2021-03-10 2021-06-04 平安科技(深圳)有限公司 基于bert模型的数据处理方法、装置、设备及可读存储介质
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Integrating unsupervised and supervised word segmentation: The role of goodness measures", 《INFORMATION SCIENCES》, vol. 181, no. 1, pages 163 - 183 *
ZHENG YUAN, YUANHAO LIU, QIUYANG YIN, BOYAO LI: "Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition", 《JOURNAL OF BIOMEDICAL INFORMATICS》, vol. 110, pages 103542 *
刘铭;郑子豪;秦兵;刘一仝;李阳;: "基于篇章级事件表示的文本相关度计算方法", 中国科学:信息科学, no. 07 *
周明;段楠;刘树杰;沈向洋;: "神经自然语言处理最新进展――模型、训练和推理", ENGINEERING, no. 03 *

Also Published As

Publication number Publication date
CN113591475B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Nguyen et al. Relation extraction: Perspective from convolutional neural networks
Wang et al. Prioritizing test inputs for deep neural networks via mutation analysis
CN104517106B (zh) 一种列表识别方法与系统
Cuong et al. Conditional random field with high-order dependencies for sequence labeling and segmentation
US20180365594A1 (en) Systems and methods for generative learning
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN114490953B (zh) 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN116257406A (zh) 用于智慧城市的网关数据管理方法及其系统
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
Chattopadhyay et al. Abductive learning of quantized stochastic processes with probabilistic finite automata
CN115563627B (zh) 一种基于人机协同的二进制程序漏洞静态分析方法
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
Yuan et al. From local to global semantic clone detection
CN113312899B (zh) 文本分类方法、装置和电子设备
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN112364166B (zh) 关系抽取模型的建立方法以及关系抽取方法
CN116521899B (zh) 一种基于改进的图神经网络的文档级关系抽取方法及系统
CN113821637A (zh) 一种长文本分类方法、装置、计算机设备和可读存储介质
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN114385793B (zh) 一种事件抽取方法及相关装置
CN113591475A (zh) 无监督可解释分词的方法、装置和电子设备
Vu-Manh et al. Improving Vietnamese dependency parsing using distributed word representations
CN113868417A (zh) 一种敏感评论识别方法、装置、终端设备和存储介质
CN117349186B (zh) 一种基于语义流图的程序语言缺陷定位方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant