CN110688847A - 技术合同判定方法、装置、计算机设备和存储介质 - Google Patents
技术合同判定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110688847A CN110688847A CN201910786174.8A CN201910786174A CN110688847A CN 110688847 A CN110688847 A CN 110688847A CN 201910786174 A CN201910786174 A CN 201910786174A CN 110688847 A CN110688847 A CN 110688847A
- Authority
- CN
- China
- Prior art keywords
- word
- technical
- model
- contract
- technical contract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 150000001875 compounds Chemical group 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本申请提供的一种技术合同判定方法、装置、计算机设备和存储介质,通过对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。本申请能够对技术合同的要求结合紧密;有针对性对技术合同进行分析处理以及技术合同的判定,可以辅助人工判定,从而节省了人工判定技术合同的成本。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种技术合同判定方法、装置、计算机设备和存储介质。
背景技术
技术合同是一类特殊合同,对技术合同的认定都要依赖于审核人员进行,技术人员根据特定要求来进行判定。近年来,随着信息技术与智能技术的发展,可以通过已有的模型对文本进行智能化分析,为提高判定效率和准确率,以及减少认为判定的成本,需要一种通过模型对技术合同进行自动判定,并给出初步判定结果的方案,这类特定要求的技术合同的智能判定具有现实意义。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种技术合同判定方法、装置、计算机设备和存储介质,以解决现有技术中的问题。
为实现上述目的及其他相关目的,本申请提供一种技术合同判定方法,所述方法包括:对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。
于本申请的一实施例中,所述方法包括:在获取所述技术合同前,若所述技术合同为非结构化,则通过光学字符识别技术处理以获得结构化的所述技术合同。
于本申请的一实施例中,所述对所获取的技术合同进行初步分词及排列以组成有序词集,包括:所述技术合同以单词和特定词组进行初步分词并建立基础词集;将所述基础词集中各基础词按一定要求排序以得到所述有序词集。
于本申请的一实施例中,所述特定词汇包括:名词、名词短语、动名词、及动名词短语中任意一种或多种组合。
于本申请的一实施例中,所述词关联模型依据词条、关联词、关联/关联属性的格式建立。
于本申请的一实施例中,所述判定模型为基于LSTM神经网络构成的文本匹配模型。
于本申请的一实施例中,所述判定结果包括:定量判定结果与定性判定结果。其中,所述判定结果内容包括:合同类型、合规性、契合度、不确定度、存在问题类目、具体问题条款、及意见反馈中任意一种或多种组合。
为实现上述目的及其他相关目的,本申请提供一种技术合同判定装置,所述装置包括:预处理模块,用于对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;判定处理模块,用于将所述词向量模型输入预设判定模型进行分析以得到判定结果。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请的一种技术合同判定方法、装置、计算机设备和存储介质,通过对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。
具有以下有益效果:
能够对技术合同的要求结合紧密;有针对性对技术合同进行分析处理以及技术合同的判定,可以辅助人工判定,从而节省了人工判定技术合同的成本。
附图说明
图1显示为本申请于一实施例中的技术合同判定方法的流程示意图。
图2显示为本申请于一实施例中的技术合同判定装置的模块示意图。
图3显示为本申请于一实施例中的计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
通常企业的技术合同会涉及到相关技术成果,而技术合同的签订更是该技术成果转化的直接体现,因此,有些技术合同在被政府或组织单位认定后还能获取一定资助或免税等福利或政策。
但通常技术合同的认定,因技术合同相较于其它合同专业度更高,内容更多,技术成果转化的合规性等因素,因此,往往需要对技术合同进行判定的人员不仅具备一定法律知识,还需具备相应的技术经验。
本发明的目的是提供一种技术合同判定方法、装置、计算机设备和存储介质,以采用智能化技术认定是否属于技术合同,以及判定技术合同是否满足特定要求。
本申请所涉及的技术合同主要包括:技术开发合同、技术转让合同、技术咨询合同和技术服务合同这4大类。
如图1所示,展示为本申请一实施例中的技术合同判定方法的流程示意图。如图所示,所述方法包括:
步骤S101:对所获取的技术合同进行初步分词及排列以组成有序词集。
于本申请一实施例中,所述方法包括:在获取所述技术合同前,若所述技术合同为非结构化,则通过光学字符识别技术处理以获得结构化的所述技术合同。
于本实施例中,本申请提供了利用技术合同进行词处理方法,这里主要是针对已经结构化的技术合同,对于非结构化技术合同,还需要进行光学字符识别处理来获得结构化的技术合同。
所述光学字符识别技术(Optical Character Recognition,OCR),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
于本申请一实施例中,所述步骤S101具体包括:
A、所述技术合同以单词和特定词组进行初步分词并建立基础词集。
于本实施例中,对所述技术合同按单词,如名词或动名词等,以及特定词组的方式进行初步的分词。所述基础词集中的基础词多为单个名词、具体限定名词等,以得到一系列完整的名称。
因技术合同专业词汇较多,相较于领域的文本内容,技术合同中的名词以及动名词较多,而口语用语、动词、形容词、副词、连词及介词等较少,因此,技术合同可以通过单词和特定词组进行初步分词,达到较好的分词效果。
举例来说,如“合同标的”、“合同报价”、“单位名称”、“甲方”、“乙方”、“参数”等技术合同中常见名称。
B、将所述基础词集中各基础词按一定要求排序以得到所述有序词集。
于本实施中,将分词结果按一定要求排列,以形成各基础词之间具有顺序的有序词集。
举例来说,归属于一句话中的各基础词,或一整段话中的各基础词,通过他们的排序能够分析各基础词之间的逻辑关系及关联关系。
步骤S102:针对所述有序词集中的特定词汇进行抽取以建立词关联模型。
本申请所述关系是指技术合同中两个“基础词”在语义(语用)层面上的关联。
于本申请一实施例中,所述特定词汇包括但不限于:名词、名词短语、动名词、及动名词短语中任意一种或多种组合。
例如,可以按出现频率进行抽取,如“甲方”、“乙方”,以获知与“甲方”或“乙方”关联的内容,再或者,可以根据技术合同中比较关键专用词,如“费用”、“期限”、“所有权”等特定词汇进行抽取,以获知关键信息的内容,以此可通过特定词汇前后的基础词与该特定词汇建立关联。
于本申请一实施例中,所述词关联模型依据词条、关联词、关联/关联属性的格式建立。
具体来说,在找到特定词汇后,按一定格式建立词关联模型,如<词条关联词关联>或<词条关联词关联属性>。
具体来说,所述关联可以分为:显示关系、隐式关系、半显示关系等。
所述关联属性可以分为:时序关系(同步关系或异步关系)、因果关系(直接因果关系、间接因果关系或目的关系)、条件关系(直接条件关系或形式条件关系(假设关系))、比较关系(直接对比关系、间接对比关系(转折关系)、让步关系)、扩展关系(细化关系、泛化关系、递进关系)、并列关系(平行关系、选择关系)、承接关系等。
举例来说,“因标的额过大,故分期进行支付”,可得到如<标的额分期因果关系>的形式建立词关联模型。
步骤S103:根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型。
于本申请中,本申请所述方法步骤S101~S103所进行的工作,皆为将技术合同的文本信息转换为判定模型(神经网络模型)的输入所需的格式的工作。其中,所述词向量模型即为判定模型(神经网络模型)所需的输入格式。
具体来说,标注中主要包括以下任务:
1)相邻复句,这是标注的主要任务,技术合同中的所有相邻复句都需要标注某一关系类型,包括跨段相邻的复句。
例如,段1:S1、S2、S3、S4。段2:S5、S6、S7。
需要标注出:S1-S2、S2-S3、S3-S4、S4-S5、S5-S6、S6-S7。
2)不相邻复句,某些(并非所有)不相邻的复句间存在篇章关系,需要标注识别。
3)句群信息,句群是指在语义上有逻辑关系,语法上有密切联系,结构上有衔接连贯的若干句子的组合。可以由同一个段落的若干句组成,也可以由多段的若干句组成。
4)句群涉及关系,由于句群也可以作为元素,参与构成篇章关系,需要标注识别。
5)分句间关系,多个分局间(分句成分间)可以存在篇章关系,需要标注识别。
6)分局内关系,分局内部通常包含多个短语或成分,各个成分间可以存在篇章关系,需要标注人员识别。
于本实施例中,主要通过根据词性先后关系,也即逻辑关系,对所述词关联模型进行多维关系标注,即对各所述词关联模型并非仅进行一次关系标注,最终以形成词向量模型。
步骤S104:将所述词向量模型输入预设判定模型进行分析以得到判定结果。
于本申请一实施例中,所述判定模型为基于LSTM神经网络构成的文本匹配模型。
本申请所述的文本匹配模型为基于现有LSTM神经网络构建而成,其主要用于文本匹配。
举例来说,专利申请号为CN201910008683.8的文献中提供了一种文本匹配方法,其中所述方法包括:获取根据所述目标文本进行初步匹配得到的多个候选语句;将所述目标文本与每个所述候选语句输入卷积神经网络CNN与GRU神经网络构成的文本匹配模型,得到每个所述候选语句与所述目标文本的语义相似度。
该公开专利通过目标文本与每个所述候选语句输入卷积神经网络CNN与GRU神经网络构成的文本匹配模型,得到每个所述候选语句与所述目标文本的语义相似度,以实现文本匹配。
再举例来说,专利申请号为CN201910277438.7的文献中提供了一种文本处理方法,其中所述方法包括:将所述目标文本划分为多个目标单位字符,并将每个目标单位字符转换为目标单位字符向量;基于第一循环神经网络模型中的编码层,将多个目标单位字符向量进行双向循环编码,得到正向编码矩阵和反向编码矩阵;将所述正向编码矩阵和所述反向编码矩阵拼接为隐藏状态矩阵;基于所述第一循环神经网络中的条件随机场,对所述隐藏状态矩阵进行序列标注,确定所述每个目标单位字符分别对应的词性标签;根据所述每个目标单位字符分别对应的词性标签,确定所述目标关键词。其中,所述将所述目标关键词映射为图谱标注实体字符串,包括:将所述目标关键词划分为多个关键单位字符,并将每个关键单位字符转换为关键单位字符向量;基于第二循环神经网络模型中的编码层,将多个关键单位字符向量进行编码,得到所述目标关键词的上下文向量;基于所述第二循环神经网络模型中的解码层,将所述上下文向量进行解码,得到所述上下文向量的隐藏状态向量;识别所述隐藏状态向量,得到与所述隐藏状态向量对应的字符序列,并将所述字符序列确定为所述图谱标注实体字符串。
于本申请一实施例中,本申请所述基于现有LSTM神经网络的判定模型,预先通过输入大量的技术合同,经过人工标引,输出有人为设定的判定结果训练,通过有步骤S101-S103处理得到的词向量模型输入所述判定模型,并通过与所述技术合同数据的文本匹配,以得到相应的判定结果。
于本申请一实施例中,所述判定结果包括:定量判定结果与定性判定结果。其中,所述判定结果内容包括:合同类型、合规性、契合度、不确定度、存在问题类目、具体问题条款、及意见反馈中任意一种或多种组合。
简单来说,所述输出结果主要用于体现如:技术合同属于哪个类型,是否满足要求,以及存在违规或不规范的合同条款等。
其中,契合度主要针对技术合同分类,根据科学技术研究、开发活动的特点以及当事人的权利义务内容,将技术合同分为技术开发合同、技术转让合同、技术咨询合同和技术服务合同这4大类。
于本申请中,所述步骤S103得到的所述词关联模型。还可根据所述判定模型的要求将各所述特定词汇进行修正。
如图2所示,展示为本申请于一实施例中的技术合同判定装置的模块示意图。如图所示,所述装置200包括:
预处理模块201,用于对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;
判定处理模块202,用于将所述词向量模型输入预设判定模型进行分析以得到判定结果。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,判定处理模块202可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上判定处理模块202的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图3所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备300包括:存储器301、及处理器302;所述存储器301用于存储计算机指令;所述处理器302运行计算机指令实现如图1所述的方法。
在一些实施例中,所述计算机设备300中的所述存储器301的数量均可以是一或多个,所述处理器302的数量均可以是一或多个,所述通信器303的数量均可以是一或多个,而图3中均以一个为例。
于本申请一实施例中,所述计算机设备300中的处理器302会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器301中,并由处理器302来运行存储在存储器301中的应用程序,从而实现如图1所述的方法。
所述存储器301可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图3中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种技术合同判定方法、装置、计算机设备和存储介质,通过对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种技术合同判定方法,其特征在于,所述方法包括:
对所获取的技术合同进行初步分词及排列以组成有序词集;
针对所述有序词集中的特定词汇进行抽取以建立词关联模型;
根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;
将所述词向量模型输入预设判定模型进行分析以得到判定结果。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
在获取所述技术合同前,若所述技术合同为非结构化,则通过光学字符识别技术处理以获得结构化的所述技术合同。
3.根据权利要求1所述的方法,其特征在于,所述对所获取的技术合同进行初步分词及排列以组成有序词集,包括:
所述技术合同以单词和特定词组进行初步分词并建立基础词集;
将所述基础词集中各基础词按一定要求排序以得到所述有序词集。
4.根据权利要求1所述的方法,其特征在于,所述特定词汇包括:名词、名词短语、动名词、及动名词短语中任意一种或多种组合。
5.根据权利要求1所述的方法,其特征在于,所述词关联模型依据词条、关联词、关联/关联属性的格式建立。
6.根据权利要求1所述的方法,其特征在于,所述判定模型为基于LSTM神经网络构成的文本匹配模型。
7.根据权利要求1所述的方法,其特征在于,所述判定结果包括:定量判定结果与定性判定结果;
其中,所述判定结果内容包括:合同类型、合规性、契合度、不确定度、存在问题类目、具体问题条款、及意见反馈中任意一种或多种组合。
8.一种技术合同判定装置,其特征在于,所述装置包括:
预处理模块,用于对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;
判定处理模块,用于将所述词向量模型输入预设判定模型进行分析以得到判定结果。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786174.8A CN110688847A (zh) | 2019-08-23 | 2019-08-23 | 技术合同判定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786174.8A CN110688847A (zh) | 2019-08-23 | 2019-08-23 | 技术合同判定方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688847A true CN110688847A (zh) | 2020-01-14 |
Family
ID=69108658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910786174.8A Pending CN110688847A (zh) | 2019-08-23 | 2019-08-23 | 技术合同判定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688847A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148858A (zh) * | 2020-09-23 | 2020-12-29 | 创新奇智(青岛)科技有限公司 | 一种合同的分析方法、装置、电子设备及存储介质 |
CN112883687A (zh) * | 2021-02-05 | 2021-06-01 | 北京科技大学 | 一种基于合同文本标记语言的法律合同交互式标注方法 |
CN112926312A (zh) * | 2021-02-24 | 2021-06-08 | 南通大学 | 一种技术合同认定模型创建方法及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建系统 |
CN109190102A (zh) * | 2018-09-12 | 2019-01-11 | 张连祥 | 招商引资项目谈判方案自动生成的系统及方法 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
CN109447105A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN109857993A (zh) * | 2019-01-02 | 2019-06-07 | 深圳市找大状法务科技有限公司 | 一种合同文本智能清洗系统 |
CN109902288A (zh) * | 2019-01-17 | 2019-06-18 | 深圳壹账通智能科技有限公司 | 智能条款分析方法、装置、计算机设备及存储介质 |
-
2019
- 2019-08-23 CN CN201910786174.8A patent/CN110688847A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建系统 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
CN109447105A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN109190102A (zh) * | 2018-09-12 | 2019-01-11 | 张连祥 | 招商引资项目谈判方案自动生成的系统及方法 |
CN109857993A (zh) * | 2019-01-02 | 2019-06-07 | 深圳市找大状法务科技有限公司 | 一种合同文本智能清洗系统 |
CN109902288A (zh) * | 2019-01-17 | 2019-06-18 | 深圳壹账通智能科技有限公司 | 智能条款分析方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148858A (zh) * | 2020-09-23 | 2020-12-29 | 创新奇智(青岛)科技有限公司 | 一种合同的分析方法、装置、电子设备及存储介质 |
CN112883687A (zh) * | 2021-02-05 | 2021-06-01 | 北京科技大学 | 一种基于合同文本标记语言的法律合同交互式标注方法 |
CN112926312A (zh) * | 2021-02-24 | 2021-06-08 | 南通大学 | 一种技术合同认定模型创建方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10540439B2 (en) | Systems and methods for identifying evidentiary information | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
CN109726298B (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
CN110688847A (zh) | 技术合同判定方法、装置、计算机设备和存储介质 | |
CN113704444B (zh) | 基于自然语言处理的问答方法、系统、设备及存储介质 | |
CN112687364B (zh) | 一种基于Hbase的医疗数据管理方法及其系统 | |
CN115630843A (zh) | 合同条款自动审核方法及系统 | |
KR20200139008A (ko) | 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스 | |
RU61442U1 (ru) | Система автоматизированного упорядочения неструктурированного информационного потока входных данных | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
US20130024403A1 (en) | Automatically induced class based shrinkage features for text classification | |
CN111159381A (zh) | 数据搜索方法及装置 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN113609840A (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN110705280A (zh) | 技术合同认定模型创建方法、装置、设备和存储介质 | |
CN116737758A (zh) | 一种数据库查询语句的生成方法、装置、设备及存储介质 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN115114420A (zh) | 一种知识图谱问答方法、终端设备及存储介质 | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN115186671A (zh) | 一种基于外延的将名词短语映射到描述逻辑概念的方法 | |
CN115794857A (zh) | 查询请求的处理方法及装置 | |
CN112395878A (zh) | 一种基于电价政策的文本处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |