CN106202010A - 基于深度神经网络构建法律文本语法树的方法和装置 - Google Patents

基于深度神经网络构建法律文本语法树的方法和装置 Download PDF

Info

Publication number
CN106202010A
CN106202010A CN201610546350.7A CN201610546350A CN106202010A CN 106202010 A CN106202010 A CN 106202010A CN 201610546350 A CN201610546350 A CN 201610546350A CN 106202010 A CN106202010 A CN 106202010A
Authority
CN
China
Prior art keywords
text
legal
training text
syntax tree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610546350.7A
Other languages
English (en)
Other versions
CN106202010B (zh
Inventor
彭德光
李鹏华
孙健
利节
刘太林
赵芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Trillion Light Polytron Technologies Inc
Original Assignee
Chongqing Trillion Light Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Trillion Light Polytron Technologies Inc filed Critical Chongqing Trillion Light Polytron Technologies Inc
Priority to CN201610546350.7A priority Critical patent/CN106202010B/zh
Publication of CN106202010A publication Critical patent/CN106202010A/zh
Application granted granted Critical
Publication of CN106202010B publication Critical patent/CN106202010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度神经网络构建法律文本语法树的方法和装置,其中,所述方法包括:获取法律服务的训练文本;对所述训练文本进行词向量稀疏表示;根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。本发明提出一种系统性的方法来构建法律服务领域中专业语言理解的语法树,并利用全局‑局部训练解决法律语言理解中语义偏差的问题。

Description

基于深度神经网络构建法律文本语法树的方法和装置
技术领域
本发明涉及计算机信息处理技术领域,具体涉及一种基于深度神经网络构建法律文本语法树的方法及装置。
背景技术
采用互联网技术推广法律服务,是解决当前法律服务供给不足、覆盖不全、发展不平衡等问题的一条有效途径。经过十多年发展,国内的“互联网+法律服务”领域已经取得很大进展,出现了一大批法律电商,产生了检索类网站、律师背景介绍、联系方式供客户参考等互动性更强的法律咨询服务。
然而,这些法律咨询服务大多采用常规的数据挖掘、专家系统、文本检索等技术,并不足以支撑智能化、个性化的法律服务。
事实上,法律咨询是咨询主体将事件用语言(或文本)表述成一个客观事实,再由律师根据先验知识将该客观事实抽取为法律事实,接着依靠自身储备的法律知识体系对法律事实加工并做出决策的过程。
“互联网+法律服务”技术的一个重要目标是通过计算机逐步取代律师,将律师从简单的咨询服务中解放出来。因此,利用计算机自动地将用户描述文本抽取为客观事实,再抽取为法律事实并做出决策这一过程,本质上属于自然语言处理(NLP)的问题。
长期以来,机器学习一直都是NLP的主要工具。然而在NLP中,机器学习大多局限于针对从文本数据中所获取特征的数值权重优化。在最近的研究中,深度学习开始应用在NLP领域,并取得显著进展。深度神经网络(DNN)的出现显著降低了语言模型的困惑度,而困惑度是语言模型中一些基准任务的性能指标。通过引入“嵌入”(embedding)这个重要概念,DNN用连续实值向量来表示自然语言文本中词级、短语级、句子级的符号信息,在语言模型、词性标注、浅层句法分析、语义角色标注等任务中有着出色表现。Socher等人通过训练神经网络得到“词嵌入”较好解决同音异义和一词多义问题。现有技术还给出从大量无标注的训练数据中学习到内在表征和“词嵌入”的一般方法。在Mikolov等人的工作中,提出一种连续词袋模型(CBOW),通过层次Softmax算法并结合Huffman编码,使每个词都可从树的根结点沿着唯一路径被访问到,该路径即是词向量编码。在Mikolov团队后续工作中,借助反演预测提出跳跃文法模型(skip-gram),利用负采样提高了词嵌入的学习效率。Huang等人在扩展局部上下文模型的基础上,利用循环神经网络(RNN)学习词嵌入在语境中的语义信息。现有技术还采用复述检测方法设计一种RNN来合并自然语言的处理能力,在句法分析上取得显著效果。在一些现有技术中,还考虑了局部上下文和全局上下文模型,通过从训练的整体文档中获取全局语义向量,并将其作为原始局部上下文词嵌入模型输入的一部分,提高句法分析的准确性。
尽管上述DNN技术爆发式地应用于NLP邻域获得许多富有成效的结果,但DNN在NLP领域所表现出的优势并没有超过其在语音或视觉目标识别上体现的优势。其中一个重要原因在于缺乏系统性的方法来构建语法树。
此外,目前的研究大多数关注于英语等语言模型,对于中文,特别地在一些垂直领域,比如法律服务、医疗服务等领域所涉及的专业语言理解,国内外的相关研究成果依然较少。
综上,现有技术中没有采用系统性的方法来构建法律服务领域中专业语言理解的语法树的方法,而且,现有的法律语言理解中存在很严重的语义偏差问题。
发明内容
针对现有技术中的缺陷,本发明提供一种基于深度神经网络构建法律文本语法树的方法及装置。
一种基于深度神经网络构建法律文本语法树的方法,所述方法包括:
获取法律服务的训练文本;
对所述训练文本进行词向量稀疏表示;
根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
优选地,所述获取法律服务的训练文本,包括:
由网络爬虫从互联网获取法律服务相关的数据;
去除所述数据中的非法律要素,得到训练文本。
优选地,所述对所述训练文本进行词向量稀疏表示,包括:
将所述训练文本经过分词处理后提交给预设的CBOW模型转化为词向量的稀疏表示。
优选地,所述转化为词向量的稀疏表示包括:
对所述训练文本中一段长度为的词序列,所述CDOW模型的输入为:
其中, 表示目标词所处的上下文语境,表示以为中心,分别向前向后个词构成的词序列,一般取奇数;表示上下文语境中的第个词,表示对应的词向量。
优选地,所述CBOW模型的输出层对应一个二叉树,通过哈弗曼编码实现词向量的稀疏表示。
优选地,所述DNN的输入层为所述训练文本中由个词序列构成的一个句子,表示为,以及该句子所对应的词性标注序列和关系标签序列
一种基于深度神经网络构建法律文本语法树的装置,所述装置包括:
获取模块,用于获取法律服务的训练文本;
处理模块,用于对所述训练文本进行词向量稀疏表示;
标注模块,用于根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
构建模块,用于根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
由上述技术方案可知,本发明提出一种系统性的方法来构建法律服务领域中专业语言理解的语法树,并利用全局-局部训练解决法律语言理解中语义偏差的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了生成法律文本稀疏词向量的CDOW模型;
图2示出了语义标注深度神经网络网络;
图3示出了本发明实施例一种基于深度神经网络构建法律文本语法树的方法的流程图;
图4示出了本发明实施例一种基于深度神经网络构建法律文本语法树的装置的结构图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
本发明提出一种在深度学习下的法律文本语法树训练方法。该方法将数据清洗后的法律文本利用word2vec转换为词向量,接着将这些词向量提交给连续词袋模型以获取文本在分词级别下的稀疏词嵌入表征。接着根据稀疏词设计一种基于标准转换的神经网络模型,该模型能完成词类/词性标注(根据词在上下文中的功能进行划分,词包括名词、代词、动词、形容词、副词、介词、连词、感叹词和冠词),根据依存关系进行句法分析(把句子分解成各个组成词类,并从形式、功能和各部分的句法关系上加以说明),以及句子压缩。
本发明能够通过一个比局部转换模型在表达方式上更加严格且丰富的全局转换模型来克服语义标签的偏差问题。
下面对本发明提供的基于深度神经网络构建法律文本语法树的方法和装置的一种实施例进行详细介绍。
首先,对法律文本进行词向量稀疏表示。
具体的,法律服务的训练文本由网络爬虫从互联网获取,经过数据清洗,在去掉文本中的链接、图像、广告等无关要素之后得到纯净文本。
法律服务的测试文本由用户直接输入,并限定为文档录入。训练文本经过分词处理后提交给如图2所示的CBOW模型转化为词向量的稀疏表示。
具体地,对训练文本中一段长度为的词序列,CDOW模型的输入为:
(1)
其中, 表示目标词所处的上下文语境,即以为中心,分别向前向后个词构成的词序列,一般取奇数。表示上下文语境中的第个词,表示对应的词向量。目标词出现的概率可表示为:
(2)
这里,表示长度为的词序列所对应的词汇表。对于整个训练文本而言,CBOW的目标函数为:
(3)
其中,表示训练文本对应的字典,即文本中所有词及其上下文语境构成的集合。
CBOW模型输出层对应一个二叉树,通过哈弗曼编码实现词向量的稀疏表示。哈弗曼树中的叶子结对应训练文本字典中的词向量,以表示,共个。非叶子结点对应一个向量,该向量代表一个词类,而不是具体的词向量,以表示,共个。对中的,当从根节点搜索到其对应的叶子节点所经过的路径为,长度为。该路径经历的非叶子节点为,除根节点之外的所有节点对应的编码为,且。也就是说,于中的的唯一路径个分支,且每个分支可看作一次二分类,该二分类的概率为:
(4)
其中,。由此,CBOW的目标参数为
(5)
,则CBOW在学习率为时,关于参数的学习规则分别可表示为:
(6)
(7)
通过上述学习规则,神经网络便能自动更新参数,每次更新就完成一次对的搜索。当搜索到目标词时,神经网络训练完成,此时记录下相关的编码,即是目标词的稀疏词向量。
接着,对法律描述文本进行语义标注。
具体的,假设由CBOW模型获得目标词对应的稀疏表示(词嵌入)为一个维的向量,词嵌入矩阵为。目标词对应的词性标注向量为,关系标签向量为。相应地,由个词性向量构成的词性矩阵为,由个关系标签向量构成的关系标签矩阵为。此外,对法律训练文本定义三个属性状态集合,即各个词向量自身的状态集,词性状态集={名词,代词,动词,……},关系标签集={限定关系,动宾关系,主谓关系,……}。
本发明通过构建如图3所示的一个DNN来实现对法律训练文本的语义标注。神经网络的输入层为训练样本中由个词序列构成的一个句子,即,以及该句子所对应的词性标注序列和关系标签序列。此时的状态属性集为。网络的隐藏层含有 个子隐藏层。其中第1隐藏层节点数为,其输出为立方激活函数映射输出,即:
(8)
其中,第1隐藏层与稀疏词向量、词性标注向量、关系标签向量相连接的权值矩阵分别为,相应的偏置为。第2隐藏层为第1隐藏层的扩张输出为,即:
(9)
其中,为第2隐藏层偏置。第隐藏层中第个隐藏层输出为:
(10)
其中,是被选中作为层输入的神经元矩阵,为卷积核元素,隐藏层共用偏置。第隐藏层对应的向下采样层灵敏度为:
(11)
其中,为向下采样权重,为向下采样层激活函数,表示向上采样操作,即通过卷积操作实现。输出层为:
(11)
其中,为目标语义文本,为最后隐藏层神经元个数。
接着,对法律文本进行依存描述。
具体的,对于法律文本中给定的一句话,以表示。定义一个关于状态集,初始状态集,决策集,转换函数。则句子与文本中其他句子的依存关系用在状态下决策的得分函数计算,且对模型参数可导。与对应的决策数量用表示,对于长度为的句子,要完整地分析其依存关系,所需的决策数量为
那么,法律文本中的目标句子与其他句子的依存关系可用一系列数组对加以描述,即。其中
(12)
(13)
(14)
约定,假设为一一映射,即一个状态编码了整个决策历史轨迹。因此,每一个状态都能通过一个唯一的,且由开始的决策序列达到。那么,决策序列与状态是可以互换的,则有:
(15)
上述得分函数可用一个神经网络表示,即:
(16)
其中,是神经网络除了输出层之外的所有参数,且是线性表达,为神经网络输出层的参数。表示状态,且该状态由神经网络参数计算得到。下的条件概率分布为:
(17)
其中,剖分函数为:
(18)
每一个就是一个局部的标准量。决策序列的概率为:
(19)
通过定向搜索就可找到中的最大值。
类似地,定义一个全局标准量下的决策序列的概率分布为:
(20)
其中,
(21)
是训练文本中所有长度为的决策序列集合。通过定向搜索依然可以找到在全局标准量的最大值,即:
(22)
下面结合图3对本发明提供的一种基于深度神经网络构建法律文本语法树的方法进行介绍。
步骤301、获取法律服务的训练文本;
步骤302、对所述训练文本进行词向量稀疏表示;
步骤303、根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
步骤304、根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
在一实施例中,所述获取法律服务的训练文本,包括:
由网络爬虫从互联网获取法律服务相关的数据;
去除所述数据中的非法律要素,得到训练文本。
在一实施例中,所述对所述训练文本进行词向量稀疏表示,包括:
将所述训练文本经过分词处理后提交给预设的CBOW模型转化为词向量的稀疏表示。
在一实施例中,所述转化为词向量的稀疏表示包括:
对所述训练文本中一段长度为的词序列,所述CDOW模型的输入为:
其中, 表示目标词所处的上下文语境,表示以为中心,分别向前向后个词构成的词序列,一般取奇数;表示上下文语境中的第个词,表示对应的词向量。
在一实施例中,所述CBOW模型的输出层对应一个二叉树,通过哈弗曼编码实现词向量的稀疏表示。
在一实施例中,所述DNN的输入层为所述训练文本中由个词序列构成的一个句子,表示为,以及该句子所对应的词性标注序列和关系标签序列
本发明提供的一种基于深度神经网络构建法律文本语法树的装置,如图4所示,所述装置包括:
获取模块401,用于获取法律服务的训练文本;
处理模块402,用于对所述训练文本进行词向量稀疏表示;
标注模块403,用于根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
构建模块404,用于根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
需要注意的是,除非另有说明,本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明实施例所提供的基于深度神经网络构建法律文本语法树的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (7)

1.一种基于深度神经网络构建法律文本语法树的方法,其特征在于,所述方法包括:
获取法律服务的训练文本;
对所述训练文本进行词向量稀疏表示;
根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
2.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法,其特征在于,所述获取法律服务的训练文本,包括:
由网络爬虫从互联网获取法律服务相关的数据;
去除所述数据中的非法律要素,得到训练文本。
3.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法,其特征在于,所述对所述训练文本进行词向量稀疏表示,包括:
将所述训练文本经过分词处理后提交给预设的CBOW模型转化为词向量的稀疏表示。
4.根据权利要求3所述的基于深度神经网络构建法律文本语法树的方法,其特征在于,所述转化为词向量的稀疏表示包括:
对所述训练文本中一段长度为的词序列,所述CDOW模型的输入为:
其中, 表示目标词所处的上下文语境,表示以为中心,分别向前向后个词构成的词序列,一般取奇数;表示上下文语境中的第个词,表示对应的词向量。
5.根据权利要求3所述的基于深度神经网络构建法律文本语法树的方法,其特征在于,所述CBOW模型的输出层对应一个二叉树,通过哈弗曼编码实现词向量的稀疏表示。
6.根据权利要求1所述的基于深度神经网络构建法律文本语法树的方法,其特征在于,所述DNN的输入层为所述训练文本中由个词序列构成的一个句子,表示为,以及该句子所对应的词性标注序列和关系标签序列
7.一种基于深度神经网络构建法律文本语法树的装置,其特征在于,所述装置包括:
获取模块,用于获取法律服务的训练文本;
处理模块,用于对所述训练文本进行词向量稀疏表示;
标注模块,用于根据所述词向量稀疏表示通过DNN对所述训练文本进行语义标注;
构建模块,用于根据所述语义标注对所述训练文本进行依存描述,构建得到法律文本语法树。
CN201610546350.7A 2016-07-12 2016-07-12 基于深度神经网络构建法律文本语法树的方法和装置 Active CN106202010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610546350.7A CN106202010B (zh) 2016-07-12 2016-07-12 基于深度神经网络构建法律文本语法树的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610546350.7A CN106202010B (zh) 2016-07-12 2016-07-12 基于深度神经网络构建法律文本语法树的方法和装置

Publications (2)

Publication Number Publication Date
CN106202010A true CN106202010A (zh) 2016-12-07
CN106202010B CN106202010B (zh) 2019-11-26

Family

ID=57477432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610546350.7A Active CN106202010B (zh) 2016-07-12 2016-07-12 基于深度神经网络构建法律文本语法树的方法和装置

Country Status (1)

Country Link
CN (1) CN106202010B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952193A (zh) * 2017-03-23 2017-07-14 北京华宇信息技术有限公司 一种基于模糊深度信念网络的刑事案件辅助决策方法
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN107247613A (zh) * 2017-04-25 2017-10-13 北京航天飞行控制中心 语句解析方法及语句解析装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN108021934A (zh) * 2017-11-23 2018-05-11 阿里巴巴集团控股有限公司 多要素识别的方法及装置
CN108062411A (zh) * 2017-12-29 2018-05-22 深圳市智搜信息技术有限公司 一种查找电子元器件数据信息的系统及方法
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN108170848A (zh) * 2018-01-18 2018-06-15 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN108491381A (zh) * 2018-03-13 2018-09-04 山西大学 一种汉语二分结构的句法分析方法
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN109977401A (zh) * 2019-03-15 2019-07-05 上海火商智能科技有限公司 一种基于神经网络的语义识别方法
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN110969018A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 案情描述要素提取方法、机器学习模型获得方法及装置
CN111143707A (zh) * 2018-11-05 2020-05-12 千寻位置网络有限公司 播发链路选择方法和装置
CN111431540A (zh) * 2020-04-01 2020-07-17 西安交通大学 一种基于神经网络模型的fpga配置文件算术压缩与解压方法
CN111460834A (zh) * 2020-04-09 2020-07-28 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置
CN111602133A (zh) * 2017-08-24 2020-08-28 微软技术许可有限责任公司 针对自然语言处理系统的词嵌入的压缩
CN111814452A (zh) * 2020-07-13 2020-10-23 四川长虹电器股份有限公司 一种影视领域基于神经网络的依存句法分析方法
CN111859407A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于候选池自收缩机制的文本自动生成隐写方法
CN112559713A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
WO2021057133A1 (zh) * 2019-09-24 2021-04-01 北京国双科技有限公司 一种文档分类模型训练的方法和相关装置
CN116363686A (zh) * 2023-06-02 2023-06-30 深圳大学 一种在线社交网络视频平台来源检测方法、及其相关设备
CN117591662A (zh) * 2024-01-19 2024-02-23 川投信息产业集团有限公司 基于人工智能的数字化企业服务数据挖掘方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005045695A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Method and system for determining text coherence
US7484219B2 (en) * 2002-11-21 2009-01-27 Microsoft Corporation Synchronizing centralized data store from distributed independent data stores using fixed application programming interfaces
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484219B2 (en) * 2002-11-21 2009-01-27 Microsoft Corporation Synchronizing centralized data store from distributed independent data stores using fixed application programming interfaces
WO2005045695A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Method and system for determining text coherence
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN104021115A (zh) * 2014-06-13 2014-09-03 北京理工大学 基于神经网络的中文比较句识别方法及装置
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHEN DANQI 等: "A fast and accurate dependency parser using neural networks", 《PROC OF CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING. STROUDSBURG: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
KIPERWASSER E 等: "Simple and accurate dependency parsing using bidirectional LSTM feature representations", 《TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
LIU Y 等: "A Dependency-Based Neural Network for Relation Classification", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
PEI W Z 等: "An effective neural network model for graph-based dependency parsing", 《THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
姜霖 等: "采用连续词袋模型(CBOW)的领域术语自动抽取研究", 《现代图书情报技术》 *
胡志坚: "《技术前瞻与评价 第1卷 第2辑 2015版》", 31 October 2015 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121145A1 (zh) * 2016-12-30 2018-07-05 北京国双科技有限公司 段落向量化的方法和装置
CN106952193A (zh) * 2017-03-23 2017-07-14 北京华宇信息技术有限公司 一种基于模糊深度信念网络的刑事案件辅助决策方法
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN107066560B (zh) * 2017-03-30 2019-12-06 东软集团股份有限公司 文本分类的方法和装置
CN107247613A (zh) * 2017-04-25 2017-10-13 北京航天飞行控制中心 语句解析方法及语句解析装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN111602133B (zh) * 2017-08-24 2024-03-22 微软技术许可有限责任公司 针对自然语言处理系统的词嵌入的压缩
CN111602133A (zh) * 2017-08-24 2020-08-28 微软技术许可有限责任公司 针对自然语言处理系统的词嵌入的压缩
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN108021934A (zh) * 2017-11-23 2018-05-11 阿里巴巴集团控股有限公司 多要素识别的方法及装置
CN108021934B (zh) * 2017-11-23 2022-03-04 创新先进技术有限公司 多要素识别的方法及装置
CN108062411A (zh) * 2017-12-29 2018-05-22 深圳市智搜信息技术有限公司 一种查找电子元器件数据信息的系统及方法
CN108170848A (zh) * 2018-01-18 2018-06-15 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN108170848B (zh) * 2018-01-18 2021-08-13 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN108491381A (zh) * 2018-03-13 2018-09-04 山西大学 一种汉语二分结构的句法分析方法
CN108491381B (zh) * 2018-03-13 2021-05-14 山西大学 一种汉语二分结构的句法分析方法
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN109388801B (zh) * 2018-09-30 2023-07-14 创新先进技术有限公司 相似词集合的确定方法、装置和电子设备
CN110969018A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 案情描述要素提取方法、机器学习模型获得方法及装置
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN111143707A (zh) * 2018-11-05 2020-05-12 千寻位置网络有限公司 播发链路选择方法和装置
CN109977401A (zh) * 2019-03-15 2019-07-05 上海火商智能科技有限公司 一种基于神经网络的语义识别方法
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN110046262B (zh) * 2019-06-10 2021-03-12 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
WO2021057133A1 (zh) * 2019-09-24 2021-04-01 北京国双科技有限公司 一种文档分类模型训练的方法和相关装置
CN111859407A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于候选池自收缩机制的文本自动生成隐写方法
CN111431540A (zh) * 2020-04-01 2020-07-17 西安交通大学 一种基于神经网络模型的fpga配置文件算术压缩与解压方法
CN111431540B (zh) * 2020-04-01 2021-10-08 西安交通大学 一种基于神经网络模型的fpga配置文件算术压缩与解压方法
CN111460834A (zh) * 2020-04-09 2020-07-28 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置
CN111460834B (zh) * 2020-04-09 2023-06-06 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置
CN111814452A (zh) * 2020-07-13 2020-10-23 四川长虹电器股份有限公司 一种影视领域基于神经网络的依存句法分析方法
CN112559713A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
CN112559713B (zh) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
CN116363686B (zh) * 2023-06-02 2023-08-11 深圳大学 一种在线社交网络视频平台来源检测方法及其相关设备
CN116363686A (zh) * 2023-06-02 2023-06-30 深圳大学 一种在线社交网络视频平台来源检测方法、及其相关设备
CN117591662A (zh) * 2024-01-19 2024-02-23 川投信息产业集团有限公司 基于人工智能的数字化企业服务数据挖掘方法及系统
CN117591662B (zh) * 2024-01-19 2024-03-29 川投信息产业集团有限公司 基于人工智能的数字化企业服务数据挖掘方法及系统

Also Published As

Publication number Publication date
CN106202010B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Wang et al. Learning to extract attribute value from product via question answering: A multi-task approach
CN113642330B (zh) 基于目录主题分类的轨道交通规范实体识别方法
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
Qin et al. A survey on text-to-sql parsing: Concepts, methods, and future directions
CN110222188A (zh) 一种多任务学习的公司公告处理方法及服务端
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN114547298B (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN117151220A (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114936287A (zh) 预训练语言模型的知识注入方法和相应的交互系统
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Zhou et al. Master: Multi-task pre-trained bottlenecked masked autoencoders are better dense retrievers
CN114417823B (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
Lyu et al. Multi-grained dependency graph neural network for Chinese open information extraction
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Cohen et al. InDi: Informative and Diverse Sampling for Dense Retrieval
Ramesh et al. Abstractive text summarization using t5 architecture
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
CN115545038A (zh) 一种优化网格标签的方面情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Patentee after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Patentee before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for constructing legal text syntax tree based on deep neural network

Effective date of registration: 20221115

Granted publication date: 20191126

Pledgee: Bishan sub branch of Chongqing Three Gorges Bank Co.,Ltd.

Pledgor: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Registration number: Y2022980021313

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20191126

Pledgee: Bishan sub branch of Chongqing Three Gorges Bank Co.,Ltd.

Pledgor: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Registration number: Y2022980021313

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for constructing a legal text syntax tree based on deep neural networks

Granted publication date: 20191126

Pledgee: Bishan sub branch of Chongqing Three Gorges Bank Co.,Ltd.

Pledgor: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Registration number: Y2024500000034

PE01 Entry into force of the registration of the contract for pledge of patent right