CN111814477A - 一种基于争议焦点实体的争议焦点发现方法、装置及终端 - Google Patents

一种基于争议焦点实体的争议焦点发现方法、装置及终端 Download PDF

Info

Publication number
CN111814477A
CN111814477A CN202010639397.4A CN202010639397A CN111814477A CN 111814477 A CN111814477 A CN 111814477A CN 202010639397 A CN202010639397 A CN 202010639397A CN 111814477 A CN111814477 A CN 111814477A
Authority
CN
China
Prior art keywords
entity
dispute focus
document
candidate
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010639397.4A
Other languages
English (en)
Other versions
CN111814477B (zh
Inventor
王国胤
王晓浪
林智敏
胡峰
邓蔚
李子扬
黄媛
黄子恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010639397.4A priority Critical patent/CN111814477B/zh
Publication of CN111814477A publication Critical patent/CN111814477A/zh
Application granted granted Critical
Publication of CN111814477B publication Critical patent/CN111814477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端,包括:获取文档数据,对文档数据进行预处理,得到实体集;从实体集中删除冗余实体,得到候选实体集;将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;将输入特征输入BERT模型中训练,训练完毕后,输出争议焦点实体;根据争议焦点实体进行争议焦点判断。本发明将”候选实体+’‑’+标题+’‑’+文档内容”作为输入特征,使得候选实体的关注度越高;二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。

Description

一种基于争议焦点实体的争议焦点发现方法、装置及终端
技术领域
本发明涉及自然语言技术处理领域,具体涉及一种基于争议焦点实体的争议焦点发现方法、装置及终端。
背景技术
随着互联网的进步和司法程序的发展,司法信息呈现爆炸式增长。而如何从海量的司法文本中快速准确地挖掘出关键信息,成为了司法领域的关键问题之一。在司法文档数据中,司法领域特有的争议焦点实体与通用领域不同,采用通用的实体识别技术提取效果不理想。
目前广泛应用于互联网产品中的是中文命名实体识别技术(Named EntityRecognition,简称NER),主要是识别文档中具有特定意义的实体,例如人名、地名、机构名、专有名词等。命名实体识别这个术语是在MUC-6会议中提出的,目的是解决信息抽取。目前命名实体识别方法主要分为三大类:
1、基于规则的方法
由专业人士编写规则,将文档与规则匹配,进而识别出命名实体。例如,“大学”、“医院”等词语可以作为组织机构名的结尾,再加入一些词性和依存句法分析信息。但基于规则的命名实体识别需要大量的专业人士,耗费人力、物力,且规则之间容易冲突,针对不同的领域都需要重新编写规则,可以执行不好。
2、基于特征模板的方法
在统计机器学习中,NER被视为序列标注任务,从大规模的语料中学习出标注模型,再对句子的各个位置进行标注。常用模型包括生成模型HMM、判别式模型CRF、最大熵模型、支持向量机、决策树和条件随机场等。其中较为流行的方法是特征模板+CRF:特征模板是由人工定义的一些二值特征函数,可挖掘出命名实体内部以及上下文的构成特点。对于句子的每个位置,提取特征的位置就是一个窗口,即上下文位置。同时,不同模板进行组合还可以形成一个新的模板。而CRF的优点在于可为每一个位置进行标注的过程中利用到此前已标注的信息,然后利用Viterbi解码得到最优序列。但基于特征模板的方法需基于大量预料训练,对数据量要求比较高;且基于统计机器学习,无法识别新的未出现过的命名实体;更易于识别普遍的实体,对于专有领域和目的的识别效果并不理想。
3、基于深度学习的方法
最近几年,随着计算机硬件能力的发展,以及词的分布式表示(Word Embedding)的出现,神经网络可以解决大多数的自然语言处理任务。与序列标注任务中分词和词性标注处理方法类似,将Token从离散的One-hot表示映射到低维空间中,转换为稠密的Embedding,再将居中的Embedding序列输入到循环神经网络(RNN)中,神经网络可自动提取特征,再使用Softmax来预测每个Token的标签。使用神经网络模型训练是一个端到端的整体训练过程,并非传统的Pipeline。目前最流行的模型是LSTM-CRF,再LSTM层后接入CRF来做句子级别的标签预测,这样就不再是对每个Token独立分类。但普通的深度学习方法需要大量的数据,且移植性不好。
司法领域争议焦点实体识别任务是指:给定一条法律文档,1)首先判定该文档是否包含司法信息,如果文档不包含司法信息,或者包含司法信息但实体信息未涉及争议焦点实体,则判定该法律文档中没有争议焦点实体;2)争议焦点主体判定:如果文档中包含司法领域的争议焦点实体,则继续判断争议焦点信息的主体对象是候选实体中的哪些实体。
但简单的将争议焦点实体识别分为司法信息二分类和争议焦点实体识别两个任务会引起误差传递问题。
发明内容
为了解决上述问题,本发明提供一种基于争议焦点实体的争议焦点发现方法、装置及终端,该方法首先将争议焦点实体识别直接看作争议焦点实体二分类任务进行简化,每个文档包含有多个实体,对于每个实体都可以作为一个二分类任务,可以增加训练样本量,提高模型训练的准确率。对于模型训练的输入,将”候选实体+’-’+标题+’-’+文档内容”作为输入特征,此种输入特征越靠近前面的向量重要性越高,所以这种输入特征可以有效的对一个文档中的多个实体进行区分,实现统一文档争议焦点二分类。
一种基于争议焦点实体的争议焦点发现方法,包括以下步骤:
获取文档数据,对文档数据进行预处理,得到实体集,所述文档数据中包含标题和文档内容;
从实体集中删除冗余实体,得到候选实体集;
将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;
将上述输入特征输入BERT模型中进行训练,训练完毕后,BERT模型输出争议焦点实体,并将输出的争议焦点实体存储到存储单元中;
根据BERT模型输出的争议焦点实体进行争议焦点判断,具体包括:
首先,将实时数据输入至BERT模型中,根据命名实体提取模块识别出所有实体,再通过特征提取模块提取候选实体,将实时数据中提取的候选实体与存储单元中存储的争议焦点实体进行匹配,判断实时数据中是否包含争议焦点实体,不包含争议焦点实体则判断实时数据中不存在争议焦点,输出结果;若实时数据中包含争议焦点实体,则利用依存句法分析技术找出实时数据中争议焦点实体的主语、谓语、宾语以及语气词;根据争议焦点实体以及争议焦点实体的主谓宾判断是否出现同一争议焦点事件;若为同一争议焦点事件判断语气词是否一致,语气词不一致时生成争议焦点,输出争议焦点。
进一步的,所述预处理包括:输入文档数据,对文档数据中的文档进行分割处理,得到短字符串;再载入通用分词词典,对短字符串进行分词处理,得到分词结果;最后对分词结果进行词性标注,得到实体集。
进一步的,从实体集中删除冗余实体具体包括:
S21、计算实体集中实体a和实体b的词频差DF(a,b),逆文档频率log2(m/g(a));
S22、根据上述词频差和逆文档频率计算实体a伴随实体b出现的概率GF,
S23、将计算出的GF值与设定的阈值做比较,若GF值大于设定的阈值,则代表实体a伴随实体b出现,说明实体a与实体b的关联度高,删掉实体a,保留实体b作为候选实体;若GF值小于设定的阈值,则代表实体a有与实体b不同的语义信息,不伴随出现,说明实体a与实体b的关联度不高,因此,将实体a和实体b都作为候选实体。
进一步的,实体a和实体b的词频差DF(a,b)计算方式包括:
Figure BDA0002570928060000041
其中,DF(a,b)表示实体a和实体b的词频差,TF(a,i)表示实体a在文档i中出现的词频,TF((a,b),i)指的是实体a和实体b一起在文档b中出现的词频,m是文档总数。
进一步的,实体a伴随实体b出现的概率GF的计算方式包括:
Figure BDA0002570928060000042
其中,GF表示实体a伴随实体b出现的概率,g(a)表示出现该实体的文档数,即文档频率,m是文档总数。
进一步的,所述输入特征包括:将候选实体集中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体、标题和文档内容依次拼接作为输入特征,其中’-’是分隔符,对实体、标题、文档内容作区分。
进一步的,,将输入特征输入BERT模型中进行训练,训练完毕后,BERT模型输出争议焦点实体,具体包括:
将候选实体、标题和文档内容转换为词向量,候选实体、标题和文档内容的词向量分别为:
Figure BDA0002570928060000043
其中Ne、Nt、Nw分别为候选实体、标题、文档的字向量最大长度,E1表示候选实体词向量,T1表示标题词向量,W1表示文档内容词向量;
将候选实体、标题、文档内容的词向量依次拼接,再拼接在CLS向量后作为BERT模型的字向量输入,字向量输入格式为:
Figure BDA0002570928060000051
其中CLS向量是BERT模型中用于分类的向量,ECLS表示CLS向量的词向量;
BERT无法直接获取字向量的序列位置信息,依次将位置向量Ep和段向量EA拼接在字向量后作为BERT模型的最终输入向量
Figure BDA0002570928060000052
BERT模型通过编码层对最终输入向量进行编码,再进行残差连接和层归一化,输入到前馈神经网,再进行一次残差连接和层归一化,得到隐藏向量;将得到的隐藏向量输入到解码层进行解码,得到解码层隐向量;将解码层隐向量输入线性层,经softmax激活函数变换得到每个向量的分类概率值;判断CLS向量对应的二分类概率值TCLS,若TCLS的二分类概率值为1,则代表输入层实体是争议焦点实体,输出争议焦点实体;若TCLS的二分类概率值为0,则代表输入层实体不是争议焦点实体。
一种基于争议焦点实体的争议焦点发现装置,包括命名实体提取模块、特征提取模块和命名实体二分类模块,命名实体提取模块用于登录裁判文书网爬取司法数据,读取司法领域数据集,对文档数据集做分词和词性标注处理,进一步做命名实体识别,识别出所有的命名实体;特征提取模块用于删选实体集,去掉包含实体以及与司法不相关的命名实体,最后生成候选实体集,利用候选实体集中的候选实体、标题和文档内容生成输入特征;命名实体二分类模块用于执行BERT模型,经过训练即可得到文档中的争议焦点实体二分类结果。
一种基于争议焦点实体的争议焦点发现终端,包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种基于争议焦点实体的争议焦点发现方法。
本发明的有益效果:
本发明将司法领域争议焦点实体识别改为争议焦点实体二分类判断任务,提出将”候选实体+’-’+标题+’-’+文档内容”作为输入特征,此种输入特征越靠近前面的向量重要性越高,将候选实体放在文档标题和文档内容头部,能更有效的挖掘实体与句子的内在联系,同时更加突出实体信息的重要性,此外,对于文档中包含多个实体的情况,句中的实体之间有区分度。二分类任务简化了常规实体识别的任务步骤,每个实体与文档都可以形成一个样本,增加了训练样本量,同时也大大提高了争议焦点实体的精度,效果更佳。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的司法领域争议焦点实体发现方法的流程框图;
图2为本发明实施例中冗余实体发现的流程框图;
图3为本发明实施例中的神经网络模型结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于争议焦点实体的争议焦点发现方法,包括但不限于如下步骤:
获取文档数据,对文档数据进行预处理,得到实体集。所述文档数据中包含标题和文档内容。
首先登录司法网站(如裁判文书网),利用爬虫技术爬取网页数据,提取网页中答辩状文档的标题和内容以及争议焦点,建立司法文档数据。基于自然语言处理技术(Natural Language Processing,NLP)工具pyltp对司法文档数据进行预处理,包括分词、词性标注和命名实体识别,并基于以上信息找出所有的命名实体,得到实体集。
进一步的,在一个实施例中,基于自然语言处理技术(Natural LanguageProcessing,NLP)工具pyltp对司法文档数据进行预处理包括:输入文档数据,同时载入中英文常用的分隔符(中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见的停用词),对输入的文档和分隔符进行正向匹配,文档数据中与分隔符匹配成功的文本位置用空格替换字符串,使得最初的文档数据被分割成由空格隔开的一系列的短字符串。
将短字符串输入到pyltp工具中,同时载入通用分词词典,通用分词词典可以选择当前覆盖率较全的百度通用分词词典,或者搜狗通用分词词典,对短字符串进行分词处理,得到分词结果。由于添加了专业词典,分词结果会和普通的分词结果有区别,同时也便于后续得到相关领域的命名实体。
对分词结果进行词性标注,由于命名实体一般都是人名、机构名、地名以及其他所有以名称为标识的实体,本说明书所指的研究内容不包括时间和数字,因此,词性标注完成后,从词性标注结果中去掉时间和数字,保留其他词性数据作为实体。对文档数据中的所有文档数据完成命名实体识别后,得到所有实体,生成实体集。
筛选实体集:从实体集中删除冗余实体,得到候选实体集。
如图2所示,计算实体集中实体a和实体b的词频差DF(a,b),逆文档频率log2(m/g(a))两个特征,其中文档频率表示出现该实体的文档数,逆文档频率表示文档频率的倒数。根据上述两个特征去掉实体集合中的冗余实体,所述冗余实体指关联度高的实体,若实体a伴随实体b出现,则说明实体a和实体b有相似的语义信息,即实体a和实体b关联度高,只需要保存实体a和实体b中的任意一个实体即可。冗余实体删除后,将剩下的实体作为候选实体。
在一个实施例中,实体a和实体b之间的关联度由词频差DF(a,b)决定,词频差DF(a,b)的计算公式如下:
Figure BDA0002570928060000071
其中,DF(a,b)表示实体a和实体b的词频差,TF(a,i)表示实体a在文档i中出现的词频,TF((a,b),i)指的是实体a和实体b一起在文档b中出现的词频,m是文档总数。
进一步的,根据词频差DF(a,b)计算实体a伴随实体b出现的概率GF。其中,实体a伴随实体b出现的概率GF计算公式为:
Figure BDA0002570928060000081
其中,GF表示实体a伴随实体b出现的概率,g(a)表示出现该实体的文档数,即文档频率,m是文档总数。
进一步的,将计算出的GF值与设定的阈值做比较,若GF值大于设定的阈值,则代表实体a伴随实体b出现,即实体a与实体b的关联度高,实体b包含实体a的语义信息,删掉实体a,保留实体b作为候选实体;若GF值小于设定的阈值,则代表实体a有与实体b不同的语义信息,不常伴随出现,说明实体a与实体b的关联度不高,因此,将实体a和实体b都作为候选实体。
根据候选实体集,将每个文档数据中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将文档候选实体、标题和文档内容依次拼接,并将拼接的结果作为BERT模型的输入特征,其中’-’是分隔符,对实体、标题、文档内容作区分。
具体地,遍历整个文档,找出文档中的候选实体子集,从一个候选实体s1开始,将每个候选实体拼接在文档内容与标题前面,以”候选实体+’-’+标题+’-’+文档内容”作为输入特征,越靠近前面的向量重要性越高,所以这种输入特征可与其他数据相区分,实现统一文档争议焦点二分类。
传统的方法中,输入特征包括“文档内容”或者“标题+’-’+文档内容”,但是对于同一个文档中的不同候选实体而言,他们的标题和内容都是一样的,不同候选实体无法进行区分。为了解决这个问题,本方法借鉴BERT分类任务中将[CLS]放在文档前面的思想,将文档数据中的候选实体从文档内容中筛选出来,将文档数据中的候选实体、标题和文档内容依次拼接,并在候选实体、标题、文档内容之间用分隔符号’-’标注出来,作为模型的一种输入特征。将文档数据中的候选实体拼接在文档标题与文档内容之前,并用分隔符号’-’进行区分,使得越靠近前面的向量重要性越高,这样文档数据中的候选实体就能得到更多的关注,同时又能够区别同一文档中的不同候选实体。这种新的输入特征在二分类任务中强调了候选实体的重要性,提高了对实体的关注度,且每个实体都能生成一条数据,又与原数据有所区别,实现了数据增强。
在一个具体的司法争议焦点实体发现应用场景中,如表1所示,其中“Title”表示标题,“Text”表示文档内容,“all_entity”表示实体集,“dispute”表示是否为离婚事件,“key_entity”表示候选实体集,
表1司法领域争议焦点实体集案例表
Figure BDA0002570928060000091
表1中,某条文档内容为“原告赵某1向本院提出诉讼请求:1.判令原、被告离婚;2.婚生女赵某2由原告抚养;3.依法分割夫妻共同财产;4.被告承担本案诉讼费用。”从第一个实体‘赵某1’开始遍历文档内容,找到文档内容中的实体集,得到文档内容中的实体集为:‘赵某1’、‘婚生女赵某2’、‘原告’、‘共同参财产’、‘诉讼费’。计算文档内容中所有实体的GF值,将计算出的GF值与设定的阈值作比较,删除冗余的候选实体,得到候选实体集key_entity,候选实体集包括:‘婚生女赵某2’、‘共同参财产’和‘诉讼费’三个候选实体。
对每个候选实体,以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体拼接、标题和文档内容依次拼接作为输入特征。具体地,对争议焦点实体‘婚生女赵某2’构建(entity+all_entity+title+text)形式的输入特征:“婚生女赵某2+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求:1.判令原、被告离婚;2.婚生女赵某2由原告抚养;3.依法分割夫妻共同财产;4.被告承担本案诉讼费用”。对争议焦点实体“共同财产”以”候选实体+’-’+标题+’-’+文档内容”的形式构建输入特征:“共同财产+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求:1.判令原、被告离婚;2.婚生女赵某2由原告抚养;3.依法分割夫妻共同财产;4.被告承担本案诉讼费用”。对争议焦点实体“诉讼费”以”候选实体+’-’+标题+’-’+文档内容”的形式构建输入特征:“共同财产+’-’+婚姻纠纷+’-’+原告赵某1向本院提出诉讼请求:1.判令原、被告离婚;2.婚生女赵某2由原告抚养;3.依法分割夫妻共同财产;4.被告承担本案诉讼费用”。
将上述输入特征输入BERT模型中进行训练,训练完毕后,BERT模型输出争议焦点实体。
进一步的,在一个实施例中,将输入特征输入BERT模型当中进行训练的过程包括:
将候选实体、标题、文档内容都转换为词向量,候选实体、标题、文档内容的词向量分别为:
Figure BDA0002570928060000101
其中Ne、Nt、Nw分别为候选实体、标题、文档的字向量最大长度,小于最大长度的在向量最前面添零补齐,大于最大长度的在最大长度处截断。
将候选实体、标题、文档内容的词向量依次拼接,再拼接在CLS向量后作为BERT模型的字向量输入,字向量输入格式为:
Figure BDA0002570928060000102
其中CLS向量是BERT模型中用于分类的向量,ECLS表示CLS向量的词向量,BERT模型会将输入向量中的候选实体、标题、文档内容向量经过12层transform编码解码,提取语义、语法特征并编码到CLS向量中,并用于文档分类。
BERT模型的输入除了字向量以外,还包含另外两部分:位置向量和段向量。由于出现在文档不同位置的字/词所携带的语义信息存在差异,且BERT模型中使用多层Transformer模型,该模型记不住输入向量的时序,因此BERT模型无法直接获取字向量的序列位置信息,基于此,BERT模型对不同位置的字/词分别附加一个位置向量[Ep,Ep…Ep]以作区分。段向量的取值在模型训练过程中自动学习,用于刻画文档的全局语义信息,并与单字/词的语义信息相融合。由于BERT(BidirectionalEncoderRepresentationsfromTransformer)模型中有下一句预测任务,所以会有两个句子拼接上句段向量EA与下句段向量EB,但下一句预测任务与实体识别无关,故本说明书只是用候选实体所在的句子[EA,EA…EA],不需要拼接实体下句段向量EB。依次将位置向量Ep和段向量EA拼接在字向量后作为BERT模型的最终输入向量
Figure BDA0002570928060000111
所述BERT模型使用Transformers架构,包括12层Transformer框架,其中6层作为编码层,6层作为解码层,可以更好的表征语义信息。Transformer中通过Attention机制将任意两个单词的距离转换为1,有效解决NLP中棘手的长期依赖问题。每个Transformer中都包含多头注意力机制,每个多头注意力都包含12个自注意力机制。在BERT后面增加一层全连接层和Sigmod激活函数用于实现二分类任务。
在一个可选的实施例中,由于神经网络中重新预训练权重工作量比较大,故使用预训练好的BERT模型参数进行微调即可,BERT模型参数基于大量无标注的训练数据得到。
将上述最终输入向量输入到BERT模型中,BERT模型采用Encoder-Decoder结构,最终输入向量在Encoder编码层被编码后,再进行残差连接和层归一化,输入到前馈神经网,再进行一次残差连接和层归一化,得到隐藏向量。经过6层上述编码过程后,将得到的隐藏向量输入到Decoder解码层,经过6层解码层后,得到解码层隐向量。将解码层隐向量输入到一个线性层,经softmax激活函数变换得到每个向量的分类概率,而二分类任务只需要判断CLS向量对应的二分类概率值TCLS,便可得到最终的预测结果,CLS向量对应的二分类概率值TCLS的为1或0,若TCLS的二分类概率值为1,则代表输入层实体是争议焦点实体,输出争议焦点实体;若TCLS的二分类概率值为0,则代表输入层实体不是争议焦点实体。BERT模型的具体网络结构见说明书附图3,图中输入层CLS表示CLS向量,Tok1、……Tokn表示文档内容的字向量;输出层的T分别代表输入向量对应的二分类概率值,经softmax转换为1或0,其中TCLS表示CLS向量对应的二分类概率值,T2表示候选实体字向量所对应的二分类概率值,T3表示标题字向量所对应的二分类概率值,T4、……Tn+2分别表示文档内容的字向量Tok1、……Tokn所对应的二分类概率值。
经上述BERT模型训练得出争议焦点实体,将得出的争议焦点实体存储到存储单元中,针对具体的争议焦点,争议焦点实体有限,故BERT模型输出的争议焦点实体可直接应用于争议焦点判断中,具体包括:首先,将实时数据输入至BERT模型中,根据命名实体提取模块识别出所有实体,再通过特征提取模块提取候选实体,将实时数据中提取的候选实体与存储单元中存储的争议焦点实体进行字符串匹配,判断实时数据中是否包含争议焦点实体,若不包含争议焦点实体则判断实时数据中不存在争议焦点,输出结果;若实时数据中包含争议焦点实体,则利用依存句法分析技术找出实时数据中争议焦点实体的主语、谓语、宾语以及语气词;原被告根据争议焦点实体以及争议焦点实体的主谓宾的词细粒度判断是否出现同一争议焦点事件;若为同一争议焦点事件,则判断原被告语气词是否一致,语气词不一致时生成争议焦点,输出争议焦点。
一种司法领域争议焦点实体发现方法装置,包括:
命名实体提取模块:用于读取原始司法信息文本数据,使用哈工大pyltp对文档数据进行分词处理、词性标注处理、命名实体识别,识别出所有的命名实体,得到实体集。
特征提取模块:用于删选实体集,去掉关联度高的命名实体,生成候选实体集,利用候选实体集中的候选实体、标题和文档内容生成输入特征。
在一个优选实施例中,所述特征提取模块包括运算器,用于计算两个实体伴随出现的概率。
在一个可选的实施例中,所述运算器包括:第一计算单元、第二计算单元、第三计算单元和第四计算单元。所述第一计算单元用于计算两个实体在文档内容中伴随出现的次数,以及各自单独出现在文档内容中的文档个数;第二计算单元,用于根据所述两个实体在文档内容中伴随出现的次数,以及各自单独出现在文档内容中的文档个数,计算两个词在文档中的词频差;第三计算单元用于根据出现该实体的文档数计算文档频率的倒数;第四计算单元用于根据所述两个词在文档中的词频差,以及文档频率的倒数计算两个实体伴随出现的概率值。
在一个优选实施例中,所述特征提取模块包括筛选单元,用于若两个实体伴随出现的概率值大于第一预设条件,则将该两个实体存入候选实体存储区中,筛选出候选实体集;若两个实体伴随出现的概率值小于第一预设条件,则删掉两个实体中的任意一个实体,保留另外一个实体作为候选实体存入候选实体存储区中。
在一个优选实施例中,所述特征提取模块包括构建单元,用于根据所述候选实体集中的候选实体、标题和文档内容构建输入特征。
在一个优选实施例中,所述特征提取模块包括存储单元,用于存储候选实体集。
命名实体二分类模块:用于执行BERT模型微调,BERT模型的输入句子长度最多为512维,Batchsize设置为32,学习率大小设置为2e-5,迭代epochs为4,输入向量
Figure BDA0002570928060000131
在编码层经过6层transformer编码得到隐层向量,再经过6层transformer解码得到解码层隐向量,相较于编码层,解码层transformer每层增加一个multi-headself-attention机制,二分类任务只用解码层向量TCLS,将该向量输入到softmax层得到输出值,判断为1还是0,得到输入实体是否是争议焦点实体,相同文档争议焦点实体合并到一个列表,得到文档中的争议焦点实体。
一种司法领域争议焦点实体发现方法终端,包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种基于争议焦点实体的争议焦点发现方法中所述的方法。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于争议焦点实体的争议焦点发现方法,其特征在于,包括以下步骤:
获取文档数据,对文档数据进行预处理,得到实体集,所述文档数据中包含标题和文档内容;
从实体集中删除冗余实体,得到候选实体集;
将候选实体集中的每个候选实体与标题、文档内容进行拼接作为输入特征;
将上述输入特征输入BERT模型中进行训练,训练完毕后,BERT模型输出争议焦点实体,并将输出的争议焦点实体存储到存储单元中;
根据BERT模型输出的争议焦点实体进行争议焦点判断,具体包括:
首先,将实时数据输入至BERT模型中,根据命名实体提取模块识别出所有实体,再通过特征提取模块提取候选实体,将实时数据中提取的候选实体与存储单元中存储的争议焦点实体进行匹配,判断实时数据中是否包含争议焦点实体,不包含争议焦点实体则判断实时数据中不存在争议焦点,输出结果;若实时数据中包含争议焦点实体,则利用依存句法分析技术找出实时数据中争议焦点实体的主语、谓语、宾语以及语气词;根据争议焦点实体以及争议焦点实体的主谓宾判断是否出现同一争议焦点事件;若为同一争议焦点事件判断语气词是否一致,语气词不一致时生成争议焦点,输出争议焦点。
2.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,所述预处理包括:
首先输入文档数据,对文档数据中的文档进行分割处理,得到短字符串;
再载入通用分词词典,对短字符串进行分词处理,得到分词结果;
最后对分词结果进行词性标注,得到实体集。
3.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,从实体集中删除冗余实体具体包括:
计算实体集中实体a和实体b的词频差DF(a,b),逆文档频率log2(m/g(a));
根据上述词频差和逆文档频率计算实体a伴随实体b出现的概率GF,
将计算出的GF值与设定的阈值做比较,若GF值大于设定的阈值,则代表实体a伴随实体b出现,说明实体a与实体b的关联度高,删掉实体a,保留实体b作为候选实体;若GF值小于设定的阈值,则代表实体a有与实体b不同的语义信息,不伴随出现,说明实体a与实体b的关联度不高,因此,将实体a和实体b都作为候选实体。
4.根据权利要求3所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,实体a和实体b的词频差DF(a,b)计算方式包括:
Figure FDA0002570928050000021
其中,DF(a,b)表示实体a和实体b的词频差,TF(a,i)表示实体a在文档i中出现的词频,TF((a,b),i)指的是实体a和实体b一起在文档b中出现的词频,m是文档总数。
5.根据权利要求3所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,实体a伴随实体b出现的概率GF的计算方式包括:
Figure FDA0002570928050000022
其中,GF表示实体a伴随实体b出现的概率,g(a)表示出现该实体的文档数,即文档频率,m是文档总数。
6.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,所述输入特征包括:将候选实体集中的每个候选实体以”候选实体+’-’+标题+’-’+文档内容”的形式将候选实体、标题和文档内容依次拼接作为输入特征,其中’-’是分隔符,对实体、标题、文档内容作区分。
7.根据权利要求1所述的一种基于争议焦点实体的争议焦点发现方法,其特征在于,将输入特征输入BERT模型中进行训练,训练完毕后,BERT模型输出争议焦点实体,具体包括:
将候选实体、标题和文档内容转换为词向量,候选实体、标题和文档内容的词向量分别为:
Figure FDA0002570928050000031
其中Ne、Nt、Nw分别为候选实体、标题、文档的字向量最大长度,E1表示候选实体词向量,T1表示标题词向量,W1表示文档内容词向量;
将候选实体、标题、文档内容的词向量依次拼接,再拼接在CLS向量后作为BERT模型的字向量输入,字向量输入格式为:
Figure FDA0002570928050000032
其中CLS向量是BERT模型中用于分类的向量,ECLS表示CLS向量的词向量;
依次将位置向量Ep和段向量EA拼接在字向量后作为BERT模型的最终输入向量
Figure FDA0002570928050000033
BERT模型通过编码层对最终输入向量进行编码,再进行残差连接和层归一化,输入到前馈神经网,再进行一次残差连接和层归一化,得到隐藏向量;将得到的隐藏向量输入到解码层进行解码,得到解码层隐向量;将解码层隐向量输入线性层,经softmax激活函数变换得到每个向量的分类概率值;判断CLS向量对应的二分类概率值TCLS,若TCLS的二分类概率值为1,则代表输入层实体是争议焦点实体,输出争议焦点实体;若TCLS的二分类概率值为0,则代表输入层实体不是争议焦点实体。
8.一种基于争议焦点实体的争议焦点发现装置,其特征在于,包括:
命名实体提取模块:用于登录裁判文书网爬取司法数据,读取司法领域数据集,对文档数据集做分词和词性标注处理,进一步做命名实体识别,识别出所有的命名实体;
特征提取模块:用于删选实体集,去掉包含实体以及与司法不相关的命名实体,最后生成候选实体集,利用候选实体集中的候选实体、标题和文档内容生成输入特征;
命名实体二分类模块:用于执行BERT模型,经过训练即可得到文档中的争议焦点实体二分类结果。
9.一种基于争议焦点实体的争议焦点发现终端,其特征在于,包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~7任一所述的方法。
CN202010639397.4A 2020-07-06 2020-07-06 一种基于争议焦点实体的争议焦点发现方法、装置及终端 Active CN111814477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639397.4A CN111814477B (zh) 2020-07-06 2020-07-06 一种基于争议焦点实体的争议焦点发现方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639397.4A CN111814477B (zh) 2020-07-06 2020-07-06 一种基于争议焦点实体的争议焦点发现方法、装置及终端

Publications (2)

Publication Number Publication Date
CN111814477A true CN111814477A (zh) 2020-10-23
CN111814477B CN111814477B (zh) 2022-06-21

Family

ID=72856168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639397.4A Active CN111814477B (zh) 2020-07-06 2020-07-06 一种基于争议焦点实体的争议焦点发现方法、装置及终端

Country Status (1)

Country Link
CN (1) CN111814477B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置

Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180648A (zh) * 2005-09-16 2008-05-14 沃特克斯技术服务有限公司 实体内部或实体之间关系校准评估的方法和系统
US20100125521A1 (en) * 2001-12-03 2010-05-20 Hanan Christopher C Biller focused business to business electronic invoice presentment and accounts receivables reconciliation system
US20120316929A1 (en) * 2011-06-10 2012-12-13 Gilbert Donald Systems and methods for providing rental valuation data
US8812647B1 (en) * 2014-04-03 2014-08-19 Yp Intellectual Property Llc Centralized publisher management
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104699730A (zh) * 2013-12-05 2015-06-10 国际商业机器公司 用于识别候选答案之间的关系的方法和系统
CN104778159A (zh) * 2015-03-31 2015-07-15 北京奇虎科技有限公司 一种基于词权重进行分词的方法和装置
US20150269138A1 (en) * 2014-03-20 2015-09-24 Edanz Group Ltd. Publication Scope Visualization and Analysis
CN105893353A (zh) * 2016-04-20 2016-08-24 广东万丈金数信息技术股份有限公司 分词方法和分词系统
US20170026147A1 (en) * 2015-07-24 2017-01-26 Ziva Corporation Wireless sensing with time reversal
CN106716402A (zh) * 2014-05-12 2017-05-24 迪飞奥公司 以实体为中心的知识发现
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108363688A (zh) * 2018-02-01 2018-08-03 浙江大学 一种融合先验信息的命名实体链接方法
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110309234A (zh) * 2019-06-14 2019-10-08 广发证券股份有限公司 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN110377631A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 案件信息处理方法、装置、计算机设备和存储介质
CN110516203A (zh) * 2019-08-28 2019-11-29 北京市律典通科技有限公司 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN110765266A (zh) * 2019-09-20 2020-02-07 成都星云律例科技有限责任公司 一种裁判文书相似争议焦点合并方法及系统
CN110795566A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN110825880A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 案件胜率确定方法、装置、设备及计算机可读存储介质
CN110889502A (zh) * 2019-10-15 2020-03-17 东南大学 一种基于深度学习的争议焦点生成方法
CN110929038A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置

Patent Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100125521A1 (en) * 2001-12-03 2010-05-20 Hanan Christopher C Biller focused business to business electronic invoice presentment and accounts receivables reconciliation system
CN101180648A (zh) * 2005-09-16 2008-05-14 沃特克斯技术服务有限公司 实体内部或实体之间关系校准评估的方法和系统
US20120316929A1 (en) * 2011-06-10 2012-12-13 Gilbert Donald Systems and methods for providing rental valuation data
CN104699730A (zh) * 2013-12-05 2015-06-10 国际商业机器公司 用于识别候选答案之间的关系的方法和系统
US20150269138A1 (en) * 2014-03-20 2015-09-24 Edanz Group Ltd. Publication Scope Visualization and Analysis
US8812647B1 (en) * 2014-04-03 2014-08-19 Yp Intellectual Property Llc Centralized publisher management
CN106716402A (zh) * 2014-05-12 2017-05-24 迪飞奥公司 以实体为中心的知识发现
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104778159A (zh) * 2015-03-31 2015-07-15 北京奇虎科技有限公司 一种基于词权重进行分词的方法和装置
US20170026147A1 (en) * 2015-07-24 2017-01-26 Ziva Corporation Wireless sensing with time reversal
CN105893353A (zh) * 2016-04-20 2016-08-24 广东万丈金数信息技术股份有限公司 分词方法和分词系统
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108363688A (zh) * 2018-02-01 2018-08-03 浙江大学 一种融合先验信息的命名实体链接方法
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
CN109359175A (zh) * 2018-09-07 2019-02-19 平安科技(深圳)有限公司 电子装置、诉讼数据处理的方法及存储介质
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110309234A (zh) * 2019-06-14 2019-10-08 广发证券股份有限公司 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN110377631A (zh) * 2019-06-17 2019-10-25 平安科技(深圳)有限公司 案件信息处理方法、装置、计算机设备和存储介质
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110516203A (zh) * 2019-08-28 2019-11-29 北京市律典通科技有限公司 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN110825880A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 案件胜率确定方法、装置、设备及计算机可读存储介质
CN110795566A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN110765266A (zh) * 2019-09-20 2020-02-07 成都星云律例科技有限责任公司 一种裁判文书相似争议焦点合并方法及系统
CN110889502A (zh) * 2019-10-15 2020-03-17 东南大学 一种基于深度学习的争议焦点生成方法
CN110929038A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487146A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112487146B (zh) * 2020-12-02 2022-05-31 重庆邮电大学 一种法律案件争议焦点获取方法、装置以及计算机设备
CN112613582A (zh) * 2021-01-05 2021-04-06 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112613582B (zh) * 2021-01-05 2022-06-24 重庆邮电大学 一种基于深度学习混合模型的争议焦点检测方法及装置
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置

Also Published As

Publication number Publication date
CN111814477B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN115098706A (zh) 一种网络信息提取方法及装置
CN114997288A (zh) 一种设计资源关联方法
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
Heo et al. Multimodal neural machine translation with weakly labeled images
CN111859950A (zh) 一种自动化生成讲稿的方法
CN114611520A (zh) 一种文本摘要生成方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN111274354B (zh) 一种裁判文书结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant