CN111814477A

CN111814477A - 一种基于争议焦点实体的争议焦点发现方法、装置及终端

Info

Publication number: CN111814477A
Application number: CN202010639397.4A
Authority: CN
Inventors: 王国胤; 王晓浪; 林智敏; 胡峰; 邓蔚; 李子扬; 黄媛; 黄子恒
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-23
Anticipated expiration: 2040-07-06
Also published as: CN111814477B

Abstract

本发明涉及自然语言技术处理领域，具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端，包括：获取文档数据，对文档数据进行预处理，得到实体集；从实体集中删除冗余实体，得到候选实体集；将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征；将输入特征输入BERT模型中训练，训练完毕后，输出争议焦点实体；根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’‑’+标题+’‑’+文档内容”作为输入特征，使得候选实体的关注度越高；二分类任务简化了常规实体识别的任务步骤，每个实体与文档都可以形成一个样本，增加了训练样本量，同时也大大提高了争议焦点实体的精度，效果更佳。

Description

一种基于争议焦点实体的争议焦点发现方法、装置及终端

技术领域

本发明涉及自然语言技术处理领域，具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端。

背景技术

随着互联网的进步和司法程序的发展，司法信息呈现爆炸式增长。而如何从海量的司法文本中快速准确地挖掘出关键信息，成为了司法领域的关键问题之一。在司法文档数据中，司法领域特有的争议焦点实体与通用领域不同，采用通用的实体识别技术提取效果不理想。

目前广泛应用于互联网产品中的是中文命名实体识别技术(Named EntityRecognition，简称NER),主要是识别文档中具有特定意义的实体，例如人名、地名、机构名、专有名词等。命名实体识别这个术语是在MUC-6会议中提出的，目的是解决信息抽取。目前命名实体识别方法主要分为三大类：

1、基于规则的方法

由专业人士编写规则，将文档与规则匹配，进而识别出命名实体。例如，“大学”、“医院”等词语可以作为组织机构名的结尾，再加入一些词性和依存句法分析信息。但基于规则的命名实体识别需要大量的专业人士，耗费人力、物力，且规则之间容易冲突，针对不同的领域都需要重新编写规则，可以执行不好。

2、基于特征模板的方法

在统计机器学习中，NER被视为序列标注任务，从大规模的语料中学习出标注模型，再对句子的各个位置进行标注。常用模型包括生成模型HMM、判别式模型CRF、最大熵模型、支持向量机、决策树和条件随机场等。其中较为流行的方法是特征模板+CRF：特征模板是由人工定义的一些二值特征函数，可挖掘出命名实体内部以及上下文的构成特点。对于句子的每个位置，提取特征的位置就是一个窗口，即上下文位置。同时，不同模板进行组合还可以形成一个新的模板。而CRF的优点在于可为每一个位置进行标注的过程中利用到此前已标注的信息，然后利用Viterbi解码得到最优序列。但基于特征模板的方法需基于大量预料训练，对数据量要求比较高；且基于统计机器学习，无法识别新的未出现过的命名实体；更易于识别普遍的实体，对于专有领域和目的的识别效果并不理想。

3、基于深度学习的方法

最近几年，随着计算机硬件能力的发展，以及词的分布式表示(Word Embedding)的出现，神经网络可以解决大多数的自然语言处理任务。与序列标注任务中分词和词性标注处理方法类似，将Token从离散的One-hot表示映射到低维空间中，转换为稠密的Embedding，再将居中的Embedding序列输入到循环神经网络(RNN)中，神经网络可自动提取特征，再使用Softmax来预测每个Token的标签。使用神经网络模型训练是一个端到端的整体训练过程，并非传统的Pipeline。目前最流行的模型是LSTM-CRF，再LSTM层后接入CRF来做句子级别的标签预测，这样就不再是对每个Token独立分类。但普通的深度学习方法需要大量的数据，且移植性不好。

司法领域争议焦点实体识别任务是指：给定一条法律文档，1)首先判定该文档是否包含司法信息，如果文档不包含司法信息，或者包含司法信息但实体信息未涉及争议焦点实体，则判定该法律文档中没有争议焦点实体；2)争议焦点主体判定：如果文档中包含司法领域的争议焦点实体，则继续判断争议焦点信息的主体对象是候选实体中的哪些实体。

但简单的将争议焦点实体识别分为司法信息二分类和争议焦点实体识别两个任务会引起误差传递问题。

发明内容

为了解决上述问题，本发明提供一种基于争议焦点实体的争议焦点发现方法、装置及终端，该方法首先将争议焦点实体识别直接看作争议焦点实体二分类任务进行简化，每个文档包含有多个实体，对于每个实体都可以作为一个二分类任务，可以增加训练样本量，提高模型训练的准确率。对于模型训练的输入，将”候选实体+’-’+标题+’-’+文档内容”作为输入特征，此种输入特征越靠近前面的向量重要性越高，所以这种输入特征可以有效的对一个文档中的多个实体进行区分，实现统一文档争议焦点二分类。

一种基于争议焦点实体的争议焦点发现方法，包括以下步骤：

获取文档数据，对文档数据进行预处理，得到实体集，所述文档数据中包含标题和文档内容；

从实体集中删除冗余实体，得到候选实体集；

将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征；

将上述输入特征输入BERT模型中进行训练，训练完毕后，BERT模型输出争议焦点实体，并将输出的争议焦点实体存储到存储单元中；

根据BERT模型输出的争议焦点实体进行争议焦点判断，具体包括：

首先，将实时数据输入至BERT模型中，根据命名实体提取模块识别出所有实体，再通过特征提取模块提取候选实体，将实时数据中提取的候选实体与存储单元中存储的争议焦点实体进行匹配，判断实时数据中是否包含争议焦点实体，不包含争议焦点实体则判断实时数据中不存在争议焦点，输出结果；若实时数据中包含争议焦点实体，则利用依存句法分析技术找出实时数据中争议焦点实体的主语、谓语、宾语以及语气词；根据争议焦点实体以及争议焦点实体的主谓宾判断是否出现同一争议焦点事件；若为同一争议焦点事件判断语气词是否一致，语气词不一致时生成争议焦点，输出争议焦点。

进一步的，所述预处理包括：输入文档数据，对文档数据中的文档进行分割处理，得到短字符串；再载入通用分词词典，对短字符串进行分词处理，得到分词结果；最后对分词结果进行词性标注，得到实体集。

进一步的，从实体集中删除冗余实体具体包括：

S21、计算实体集中实体a和实体b的词频差DF(a,b)，逆文档频率log₂(m/g(a))；

S22、根据上述词频差和逆文档频率计算实体a伴随实体b出现的概率GF，

S23、将计算出的GF值与设定的阈值做比较，若GF值大于设定的阈值，则代表实体a伴随实体b出现，说明实体a与实体b的关联度高，删掉实体a，保留实体b作为候选实体；若GF值小于设定的阈值，则代表实体a有与实体b不同的语义信息，不伴随出现，说明实体a与实体b的关联度不高，因此，将实体a和实体b都作为候选实体。

进一步的，实体a和实体b的词频差DF(a,b)计算方式包括：

其中，DF(a,b)表示实体a和实体b的词频差，TF(a,i)表示实体a在文档i中出现的词频，TF((a,b),i)指的是实体a和实体b一起在文档b中出现的词频，m是文档总数。

进一步的，实体a伴随实体b出现的概率GF的计算方式包括：

其中，GF表示实体a伴随实体b出现的概率，g(a)表示出现该实体的文档数，即文档频率，m是文档总数。

进一步的，所述输入特征包括：将候选实体集中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体、标题和文档内容依次拼接作为输入特征，其中’-’是分隔符，对实体、标题、文档内容作区分。

进一步的，，将输入特征输入BERT模型中进行训练，训练完毕后，BERT模型输出争议焦点实体，具体包括：

将候选实体、标题和文档内容转换为词向量，候选实体、标题和文档内容的词向量分别为：

其中N_e、N_t、N_w分别为候选实体、标题、文档的字向量最大长度，E₁表示候选实体词向量，T₁表示标题词向量，W₁表示文档内容词向量；

将候选实体、标题、文档内容的词向量依次拼接，再拼接在CLS向量后作为BERT模型的字向量输入，字向量输入格式为：

其中CLS向量是BERT模型中用于分类的向量，E_CLS表示CLS向量的词向量；

BERT无法直接获取字向量的序列位置信息，依次将位置向量E_p和段向量E_A拼接在字向量后作为BERT模型的最终输入向量

BERT模型通过编码层对最终输入向量进行编码，再进行残差连接和层归一化，输入到前馈神经网，再进行一次残差连接和层归一化，得到隐藏向量；将得到的隐藏向量输入到解码层进行解码，得到解码层隐向量；将解码层隐向量输入线性层，经softmax激活函数变换得到每个向量的分类概率值；判断CLS向量对应的二分类概率值T_CLS，若T_CLS的二分类概率值为1，则代表输入层实体是争议焦点实体，输出争议焦点实体；若T_CLS的二分类概率值为0，则代表输入层实体不是争议焦点实体。

一种基于争议焦点实体的争议焦点发现装置，包括命名实体提取模块、特征提取模块和命名实体二分类模块，命名实体提取模块用于登录裁判文书网爬取司法数据，读取司法领域数据集，对文档数据集做分词和词性标注处理，进一步做命名实体识别，识别出所有的命名实体；特征提取模块用于删选实体集，去掉包含实体以及与司法不相关的命名实体，最后生成候选实体集，利用候选实体集中的候选实体、标题和文档内容生成输入特征；命名实体二分类模块用于执行BERT模型，经过训练即可得到文档中的争议焦点实体二分类结果。

一种基于争议焦点实体的争议焦点发现终端，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种基于争议焦点实体的争议焦点发现方法。

本发明的有益效果：

本发明将司法领域争议焦点实体识别改为争议焦点实体二分类判断任务，提出将”候选实体+’-’+标题+’-’+文档内容”作为输入特征，此种输入特征越靠近前面的向量重要性越高，将候选实体放在文档标题和文档内容头部，能更有效的挖掘实体与句子的内在联系，同时更加突出实体信息的重要性，此外，对于文档中包含多个实体的情况，句中的实体之间有区分度。二分类任务简化了常规实体识别的任务步骤，每个实体与文档都可以形成一个样本，增加了训练样本量，同时也大大提高了争议焦点实体的精度，效果更佳。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的司法领域争议焦点实体发现方法的流程框图；

图2为本发明实施例中冗余实体发现的流程框图；

图3为本发明实施例中的神经网络模型结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于争议焦点实体的争议焦点发现方法，包括但不限于如下步骤：

获取文档数据，对文档数据进行预处理，得到实体集。所述文档数据中包含标题和文档内容。

首先登录司法网站(如裁判文书网)，利用爬虫技术爬取网页数据，提取网页中答辩状文档的标题和内容以及争议焦点，建立司法文档数据。基于自然语言处理技术(Natural Language Processing，NLP)工具pyltp对司法文档数据进行预处理，包括分词、词性标注和命名实体识别，并基于以上信息找出所有的命名实体，得到实体集。

进一步的，在一个实施例中，基于自然语言处理技术(Natural LanguageProcessing，NLP)工具pyltp对司法文档数据进行预处理包括：输入文档数据，同时载入中英文常用的分隔符(中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见的停用词)，对输入的文档和分隔符进行正向匹配，文档数据中与分隔符匹配成功的文本位置用空格替换字符串，使得最初的文档数据被分割成由空格隔开的一系列的短字符串。

将短字符串输入到pyltp工具中，同时载入通用分词词典，通用分词词典可以选择当前覆盖率较全的百度通用分词词典，或者搜狗通用分词词典，对短字符串进行分词处理，得到分词结果。由于添加了专业词典，分词结果会和普通的分词结果有区别，同时也便于后续得到相关领域的命名实体。

对分词结果进行词性标注，由于命名实体一般都是人名、机构名、地名以及其他所有以名称为标识的实体，本说明书所指的研究内容不包括时间和数字，因此，词性标注完成后，从词性标注结果中去掉时间和数字，保留其他词性数据作为实体。对文档数据中的所有文档数据完成命名实体识别后，得到所有实体，生成实体集。

筛选实体集：从实体集中删除冗余实体，得到候选实体集。

如图2所示，计算实体集中实体a和实体b的词频差DF(a,b)，逆文档频率log₂(m/g(a))两个特征，其中文档频率表示出现该实体的文档数，逆文档频率表示文档频率的倒数。根据上述两个特征去掉实体集合中的冗余实体，所述冗余实体指关联度高的实体，若实体a伴随实体b出现，则说明实体a和实体b有相似的语义信息，即实体a和实体b关联度高，只需要保存实体a和实体b中的任意一个实体即可。冗余实体删除后，将剩下的实体作为候选实体。

在一个实施例中，实体a和实体b之间的关联度由词频差DF(a,b)决定，词频差DF(a,b)的计算公式如下：

进一步的，根据词频差DF(a,b)计算实体a伴随实体b出现的概率GF。其中，实体a伴随实体b出现的概率GF计算公式为：

进一步的，将计算出的GF值与设定的阈值做比较，若GF值大于设定的阈值，则代表实体a伴随实体b出现，即实体a与实体b的关联度高，实体b包含实体a的语义信息，删掉实体a，保留实体b作为候选实体；若GF值小于设定的阈值，则代表实体a有与实体b不同的语义信息，不常伴随出现，说明实体a与实体b的关联度不高，因此，将实体a和实体b都作为候选实体。

根据候选实体集，将每个文档数据中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将文档候选实体、标题和文档内容依次拼接，并将拼接的结果作为BERT模型的输入特征，其中’-’是分隔符，对实体、标题、文档内容作区分。

具体地，遍历整个文档，找出文档中的候选实体子集，从一个候选实体s1开始，将每个候选实体拼接在文档内容与标题前面，以”候选实体+’-’+标题+’-’+文档内容”作为输入特征，越靠近前面的向量重要性越高，所以这种输入特征可与其他数据相区分，实现统一文档争议焦点二分类。

传统的方法中，输入特征包括“文档内容”或者“标题+’-’+文档内容”，但是对于同一个文档中的不同候选实体而言，他们的标题和内容都是一样的，不同候选实体无法进行区分。为了解决这个问题，本方法借鉴BERT分类任务中将[CLS]放在文档前面的思想，将文档数据中的候选实体从文档内容中筛选出来，将文档数据中的候选实体、标题和文档内容依次拼接，并在候选实体、标题、文档内容之间用分隔符号’-’标注出来，作为模型的一种输入特征。将文档数据中的候选实体拼接在文档标题与文档内容之前，并用分隔符号’-’进行区分，使得越靠近前面的向量重要性越高，这样文档数据中的候选实体就能得到更多的关注，同时又能够区别同一文档中的不同候选实体。这种新的输入特征在二分类任务中强调了候选实体的重要性，提高了对实体的关注度，且每个实体都能生成一条数据，又与原数据有所区别，实现了数据增强。

在一个具体的司法争议焦点实体发现应用场景中，如表1所示，其中“Title”表示标题，“Text”表示文档内容，“all_entity”表示实体集，“dispute”表示是否为离婚事件，“key_entity”表示候选实体集，

表1司法领域争议焦点实体集案例表

表1中，某条文档内容为“原告赵某1向本院提出诉讼请求：1.判令原、被告离婚；2.婚生女赵某2由原告抚养；3.依法分割夫妻共同财产；4.被告承担本案诉讼费用。”从第一个实体‘赵某1’开始遍历文档内容，找到文档内容中的实体集，得到文档内容中的实体集为：‘赵某1’、‘婚生女赵某2’、‘原告’、‘共同参财产’、‘诉讼费’。计算文档内容中所有实体的GF值，将计算出的GF值与设定的阈值作比较，删除冗余的候选实体，得到候选实体集key_entity，候选实体集包括：‘婚生女赵某2’、‘共同参财产’和‘诉讼费’三个候选实体。

对每个候选实体，以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体拼接、标题和文档内容依次拼接作为输入特征。具体地，对争议焦点实体‘婚生女赵某2’构建(entity+all_entity+title+text)形式的输入特征：“婚生女赵某2+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求：1.判令原、被告离婚；2.婚生女赵某2由原告抚养；3.依法分割夫妻共同财产；4.被告承担本案诉讼费用”。对争议焦点实体“共同财产”以”候选实体+’-’+标题+’-’+文档内容”的形式构建输入特征：“共同财产+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求：1.判令原、被告离婚；2.婚生女赵某2由原告抚养；3.依法分割夫妻共同财产；4.被告承担本案诉讼费用”。对争议焦点实体“诉讼费”以”候选实体+’-’+标题+’-’+文档内容”的形式构建输入特征：“共同财产+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求：1.判令原、被告离婚；2.婚生女赵某2由原告抚养；3.依法分割夫妻共同财产；4.被告承担本案诉讼费用”。

将上述输入特征输入BERT模型中进行训练，训练完毕后，BERT模型输出争议焦点实体。

进一步的，在一个实施例中，将输入特征输入BERT模型当中进行训练的过程包括：

将候选实体、标题、文档内容都转换为词向量，候选实体、标题、文档内容的词向量分别为：

其中N_e、N_t、N_w分别为候选实体、标题、文档的字向量最大长度，小于最大长度的在向量最前面添零补齐，大于最大长度的在最大长度处截断。

其中CLS向量是BERT模型中用于分类的向量，E_CLS表示CLS向量的词向量，BERT模型会将输入向量中的候选实体、标题、文档内容向量经过12层transform编码解码，提取语义、语法特征并编码到CLS向量中，并用于文档分类。

BERT模型的输入除了字向量以外，还包含另外两部分：位置向量和段向量。由于出现在文档不同位置的字/词所携带的语义信息存在差异，且BERT模型中使用多层Transformer模型，该模型记不住输入向量的时序，因此BERT模型无法直接获取字向量的序列位置信息，基于此，BERT模型对不同位置的字/词分别附加一个位置向量[E_p,E_p…E_p]以作区分。段向量的取值在模型训练过程中自动学习，用于刻画文档的全局语义信息，并与单字/词的语义信息相融合。由于BERT(BidirectionalEncoderRepresentationsfromTransformer)模型中有下一句预测任务，所以会有两个句子拼接上句段向量E_A与下句段向量E_B，但下一句预测任务与实体识别无关，故本说明书只是用候选实体所在的句子[E_A,E_A…E_A]，不需要拼接实体下句段向量E_B。依次将位置向量E_p和段向量E_A拼接在字向量后作为BERT模型的最终输入向量

所述BERT模型使用Transformers架构，包括12层Transformer框架，其中6层作为编码层，6层作为解码层，可以更好的表征语义信息。Transformer中通过Attention机制将任意两个单词的距离转换为1，有效解决NLP中棘手的长期依赖问题。每个Transformer中都包含多头注意力机制，每个多头注意力都包含12个自注意力机制。在BERT后面增加一层全连接层和Sigmod激活函数用于实现二分类任务。

在一个可选的实施例中，由于神经网络中重新预训练权重工作量比较大，故使用预训练好的BERT模型参数进行微调即可，BERT模型参数基于大量无标注的训练数据得到。

将上述最终输入向量输入到BERT模型中，BERT模型采用Encoder-Decoder结构，最终输入向量在Encoder编码层被编码后，再进行残差连接和层归一化，输入到前馈神经网，再进行一次残差连接和层归一化，得到隐藏向量。经过6层上述编码过程后，将得到的隐藏向量输入到Decoder解码层，经过6层解码层后，得到解码层隐向量。将解码层隐向量输入到一个线性层，经softmax激活函数变换得到每个向量的分类概率，而二分类任务只需要判断CLS向量对应的二分类概率值T_CLS，便可得到最终的预测结果，CLS向量对应的二分类概率值T_CLS的为1或0，若T_CLS的二分类概率值为1，则代表输入层实体是争议焦点实体，输出争议焦点实体；若T_CLS的二分类概率值为0，则代表输入层实体不是争议焦点实体。BERT模型的具体网络结构见说明书附图3，图中输入层CLS表示CLS向量，T_ok1、……T_okn表示文档内容的字向量；输出层的T分别代表输入向量对应的二分类概率值，经softmax转换为1或0，其中T_CLS表示CLS向量对应的二分类概率值，T₂表示候选实体字向量所对应的二分类概率值，T₃表示标题字向量所对应的二分类概率值，T₄、……T_n+2分别表示文档内容的字向量T_ok1、……T_okn所对应的二分类概率值。

经上述BERT模型训练得出争议焦点实体，将得出的争议焦点实体存储到存储单元中，针对具体的争议焦点，争议焦点实体有限，故BERT模型输出的争议焦点实体可直接应用于争议焦点判断中，具体包括：首先，将实时数据输入至BERT模型中，根据命名实体提取模块识别出所有实体，再通过特征提取模块提取候选实体，将实时数据中提取的候选实体与存储单元中存储的争议焦点实体进行字符串匹配，判断实时数据中是否包含争议焦点实体，若不包含争议焦点实体则判断实时数据中不存在争议焦点，输出结果；若实时数据中包含争议焦点实体，则利用依存句法分析技术找出实时数据中争议焦点实体的主语、谓语、宾语以及语气词；原被告根据争议焦点实体以及争议焦点实体的主谓宾的词细粒度判断是否出现同一争议焦点事件；若为同一争议焦点事件，则判断原被告语气词是否一致，语气词不一致时生成争议焦点，输出争议焦点。

一种司法领域争议焦点实体发现方法装置，包括：

命名实体提取模块：用于读取原始司法信息文本数据，使用哈工大pyltp对文档数据进行分词处理、词性标注处理、命名实体识别，识别出所有的命名实体，得到实体集。

特征提取模块：用于删选实体集，去掉关联度高的命名实体，生成候选实体集，利用候选实体集中的候选实体、标题和文档内容生成输入特征。

在一个优选实施例中，所述特征提取模块包括运算器，用于计算两个实体伴随出现的概率。

在一个可选的实施例中，所述运算器包括：第一计算单元、第二计算单元、第三计算单元和第四计算单元。所述第一计算单元用于计算两个实体在文档内容中伴随出现的次数，以及各自单独出现在文档内容中的文档个数；第二计算单元，用于根据所述两个实体在文档内容中伴随出现的次数，以及各自单独出现在文档内容中的文档个数，计算两个词在文档中的词频差；第三计算单元用于根据出现该实体的文档数计算文档频率的倒数；第四计算单元用于根据所述两个词在文档中的词频差，以及文档频率的倒数计算两个实体伴随出现的概率值。

在一个优选实施例中，所述特征提取模块包括筛选单元，用于若两个实体伴随出现的概率值大于第一预设条件，则将该两个实体存入候选实体存储区中，筛选出候选实体集；若两个实体伴随出现的概率值小于第一预设条件，则删掉两个实体中的任意一个实体，保留另外一个实体作为候选实体存入候选实体存储区中。

在一个优选实施例中，所述特征提取模块包括构建单元，用于根据所述候选实体集中的候选实体、标题和文档内容构建输入特征。

在一个优选实施例中，所述特征提取模块包括存储单元，用于存储候选实体集。

命名实体二分类模块：用于执行BERT模型微调，BERT模型的输入句子长度最多为512维，Batchsize设置为32，学习率大小设置为2e-5，迭代epochs为4，输入向量

在编码层经过6层transformer编码得到隐层向量，再经过6层transformer解码得到解码层隐向量，相较于编码层，解码层transformer每层增加一个multi-headself-attention机制，二分类任务只用解码层向量T_CLS，将该向量输入到softmax层得到输出值，判断为1还是0，得到输入实体是否是争议焦点实体，相同文档争议焦点实体合并到一个列表，得到文档中的争议焦点实体。

一种司法领域争议焦点实体发现方法终端，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种基于争议焦点实体的争议焦点发现方法中所述的方法。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于争议焦点实体的争议焦点发现方法，其特征在于，包括以下步骤：

从实体集中删除冗余实体，得到候选实体集；

2.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，所述预处理包括：

首先输入文档数据，对文档数据中的文档进行分割处理，得到短字符串；

再载入通用分词词典，对短字符串进行分词处理，得到分词结果；

最后对分词结果进行词性标注，得到实体集。

3.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，从实体集中删除冗余实体具体包括：

计算实体集中实体a和实体b的词频差DF(a,b)，逆文档频率log₂(m/g(a))；

根据上述词频差和逆文档频率计算实体a伴随实体b出现的概率GF，

将计算出的GF值与设定的阈值做比较，若GF值大于设定的阈值，则代表实体a伴随实体b出现，说明实体a与实体b的关联度高，删掉实体a，保留实体b作为候选实体；若GF值小于设定的阈值，则代表实体a有与实体b不同的语义信息，不伴随出现，说明实体a与实体b的关联度不高，因此，将实体a和实体b都作为候选实体。

4.根据权利要求3所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，实体a和实体b的词频差DF(a,b)计算方式包括：

5.根据权利要求3所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，实体a伴随实体b出现的概率GF的计算方式包括：

6.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，所述输入特征包括：将候选实体集中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体、标题和文档内容依次拼接作为输入特征，其中’-’是分隔符，对实体、标题、文档内容作区分。

7.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法，其特征在于，将输入特征输入BERT模型中进行训练，训练完毕后，BERT模型输出争议焦点实体，具体包括：

依次将位置向量E_p和段向量E_A拼接在字向量后作为BERT模型的最终输入向量

8.一种基于争议焦点实体的争议焦点发现装置，其特征在于，包括：

命名实体提取模块：用于登录裁判文书网爬取司法数据，读取司法领域数据集，对文档数据集做分词和词性标注处理，进一步做命名实体识别，识别出所有的命名实体；

特征提取模块：用于删选实体集，去掉包含实体以及与司法不相关的命名实体，最后生成候选实体集，利用候选实体集中的候选实体、标题和文档内容生成输入特征；

命名实体二分类模块：用于执行BERT模型，经过训练即可得到文档中的争议焦点实体二分类结果。

9.一种基于争议焦点实体的争议焦点发现终端，其特征在于，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～7任一所述的方法。