CN116070641A - 一种电子合同的在线解读方法 - Google Patents

一种电子合同的在线解读方法 Download PDF

Info

Publication number
CN116070641A
CN116070641A CN202310231617.3A CN202310231617A CN116070641A CN 116070641 A CN116070641 A CN 116070641A CN 202310231617 A CN202310231617 A CN 202310231617A CN 116070641 A CN116070641 A CN 116070641A
Authority
CN
China
Prior art keywords
word
similarity
detected
information item
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310231617.3A
Other languages
English (en)
Other versions
CN116070641B (zh
Inventor
陆猛
谢文迅
赵云
庄玉龙
张伟
孙肖辉
郭尚
杨瑞钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianju Information Technology Co ltd
Original Assignee
Beijing Dianju Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dianju Information Technology Co ltd filed Critical Beijing Dianju Information Technology Co ltd
Priority to CN202310231617.3A priority Critical patent/CN116070641B/zh
Publication of CN116070641A publication Critical patent/CN116070641A/zh
Application granted granted Critical
Publication of CN116070641B publication Critical patent/CN116070641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子合同在线解读技术领域,具体涉及一种电子合同的在线解读方法,该方法包括:根据待解读的电子合同的待检测信息项中每个词语对应的词义编码得到权值系数,根据词语的词向量和权值系数得到每个词义编码的编码向量;根据每个词义编码的编码向量确定每个词语的编码向量,根据词语的编码向量计算第一相似度;筛选出待检测信息项中的关键词,根据关键词与其相邻的词语之间的关系构建关键词的特征元组,根据特征元组计算第二相似度,进而得到综合相似度;根据综合相似度确定关键信息项,对待解读的电子合同的关键信息项进行在线解读。本发明实现了对电子合同中的关键信息项进行准确的全面的识别。

Description

一种电子合同的在线解读方法
技术领域
本发明涉及电子合同在线解读技术领域,具体涉及一种电子合同的在线解读方法。
背景技术
随着互联网的普及以及电子商务技术的发展,电子合同作为电子商务的核心,在签署电子合同的过程中,需要保证其安全性和合法性。电子合同的确认主要是对合同中的重要信息项进行确认,为了减少合同签署人对合同内容解读确认时的时间浪费,电子合同的在线解读是极其关键的步骤。电子合同的在线解读可帮助合同签署人快速的合同中的关键信息进行辨别,便于快速确认合同的重要内容,提高签署人对电子合同的解读效率,降低时间成本。
目前,对电子合同进行在线解读的方法,是通过人为设置几项解读项,利用不同的解读方法对电子合同进行解读。其中,预设的解读项受主观影响较大,使得电子合同中的一些重要信息并未被解读出来,导致电子合同在线解读的结果较不全面,进而合同签署双方没能对电子合同的关键信息进行仔细解读,可能会引起合同双方产生合同纠纷。
发明内容
为了解决通过预设电子合同中的解读项,对电子合同进行在线解读的结果较不全面技术问题,本发明的目的在于提供一种电子合同的在线解读方法,所采用的技术方案具体如下:
获取待解读的电子合同中待检测信息项,根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数,根据待检测信息项中每个词语的词向量和权值系数得到每个词义编码的编码向量;
根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量,根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度;
筛选出待检测信息项中的关键词,根据关键词与其相邻的词语之间的关系构建关键词的特征元组,根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度;根据所述第一相似度与第二相似度得到综合相似度;
根据综合相似度确定关键信息项,对待解读的电子合同的关键信息项进行在线解读。
进一步的,所述根据关键词与其相邻的词语之间的关系构建关键词的特征元组,具体包括:
对于待检测信息项中的任意一个关键词,在相邻的词语中获取与关键词具有限定关系的词语记为关联词,将关键词和关联词、关键词与关联词的限定关系构成关键词的特征元组。
进一步的,所述根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度具体为:
将标准信息项中任意一个词语记为目标标准词语,对关键词与目标标准词语对应的限定关系进行同或运算,得到限定关系相似度;
计算关键词与目标标准词语的编码向量之间的相似度,记为第三相似度;计算关键词对应的关联词与目标标准词语对应的关联词的编码向量之间的相似度,记为第四相似度;以限定关系相似度、第三相似度与第四相似度的和值作为关键词与目标标准词语之间的关联程度;
获得关键词与标准信息项中每个词语之间的关联程度,将所述关联程度最大值对应的标准信息项中的词语,记为关键词的相似词;
获取待检测信息项中包含的关键词的总数量,以所有关键词与相似词之间的关联程度的和值与所述总数量之间的乘积,作为待检测信息项与标准信息项之间的第二相似度。
进一步的,所述根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度具体为:
将待检测信息项中所有词语的编码向量进行横向排列,得到待检测信息项的编码向量;获得标准信息项的编码向量,以待检测信息项的编码向量与标准信息项的编码向量之间的相似度作为所述第一相似度。
进一步的,所述词义编码的编码向量的获取方法具体为:
将任意一个词义编码记为目标词义编码,计算目标词义编码对应的每个词语的词向量与权值系数的乘积,对词语对应的所有乘积进行求和得到目标词义编码的编码向量,获得每个词义编码的编码向量。
进一步的,所述根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数具体为:
获取待检测信息项中每个词语对应的词义编码的数量,根据所述数量确定每个词语的权值系数,所述数量与所述权值系数呈负相关关系。
进一步的,所述筛选出待检测信息项中的关键词具体为:
将待检测信息项中任意一个词语记为选定词语,分别计算选定词语与标准信息项的每个词语的编码向量之间的相似度,将所述相似度的最大值作为选定词语的判定值;获得每个词语的判定值,将判定值大于预设的相似阈值对应的词语记为关键词。
进一步的,所述根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量具体为:
将待检测信息项中每个词语对应的所有词义编码的编码向量进行横向排列,得到待检测信息项中每个词语的编码向量。
进一步的,所述根据所述第一相似度与第二相似度得到综合相似度具体为:
计算所述第一相似度与第二相似度的乘积,以所述乘积的归一化值作为待检测信息项与标准信息项之间的综合相似度。
进一步的,所述根据综合相似度确定关键信息项具体为:
将待检测信息项与所有标准信息项之间对应的综合相似度的最大值,记为待检测信息项的特征相似度;将特征相似度大于预设的综合阈值对应的待检测信息项记为关键信息项。
本发明实施例至少具有如下有益效果:
本发明根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数,通过词语对应的语义编码表征的语义信息获取词语对应的权重大小,进而根据每个词语的词向量和权值系数得到每个词义编码的编码向量,利用词语的语义信息表征其对应的语义编码的语义信息;根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度,从语义信息方面反映了待检测信息项与预设的标准信息项之间的相似程度;根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度,考虑了相邻词语之间的关系,也即关键词的上下文信息,获得待检测信息项与标准信息项之间的相似程度;进而结合两个方面的相似程度得到综合相似度,根据综合相似度对电子合同中的待检测信息项进行解读分析,实现对电子合同中的关键信息项进行准确的全面的识别。本发明可实现针对性的对电子合同的信息进行解读,进而实现对电子合同中的关键信息项进行较为全面的解读识别,以便合同签署人更加关注电子合同的关键信息项,提高合同内容解读确认的精度,同时可降低人工的时间以及精力,有效提高电子合同在线解读的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的一种电子合同的在线解读方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种电子合同的在线解读方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种电子合同的在线解读方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种电子合同的在线解读方法的方法流程图,该方法包括以下步骤:
步骤一,获取待解读的电子合同中待检测信息项,根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数,根据待检测信息项中每个词语的词向量和权值系数得到每个词义编码的编码向量。
首先,在电子合同签署平台上打开待解读的电子合同,作为电子合同在线解读的基础文件。其中,电子合同签署平台是用户双方交易时签署合同的电子平台,可以在线解读电子合同中的内容,以便签署电子合同的用户双方对合同进行查看解读,在本实施例中,电子合同签署平台采用现有电子合同交易平台,实施者可根据具体实施场景进行设置。
在获取待解读的电子合同后,提取电子合同中每一项信息项,记为待检测信息项。通过对待检测信息项进行分析,识别出电子合同中的关键信息项,提高合同签署人在进行合同确认时对关键信息项的关注度,保证合同被解读的内容的确认精度。
其中,需要说明的是,待检测信息项可以为:名称即合同名称或者签署人姓名等,住所即公司地址或者家庭住址、其他住所地址等,联系方式即手机号码或者电话号码,合同目的,数量,质量,价款,款项,酬金,违约项等。一个待检测信息项中可能包含了一个或者多个词语,通过对待检测信息项中的词语进行解读分析,判断待检测信息项中是否包含电子合同中的重要信息。
在本实施例中,利用同义词词林获取待检测信息项中每个词语对应的词义编码以及每个词语的词向量。每个词语对应一个或者多个词义编码,每个词语对应一个词向量,词义编码和词向量均表征了词语的词义信息。其中,同义词词林是一部按照词义进行分类的词语集,为公知技术,在此不再过多介绍。
一个词义编码对应多个词语,一个词语对应一个词向量,词向量表征了词语的语义信息,进而可以通过对词义编码对应的词语的语义信息进行分析,能够获取每个词义编码对应的语义信息。即根据词义编码对应的词语的词向量,获得词义编码的编码向量。同时,考虑到词语对应的词义编码的数量越多,说明词语的词义表达较为多样化,进而利用该词语对其对应的词义编码的语义信息进行解读的结果越不准确。
基于此,根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数,具体地,获取待检测信息项中每个词语对应的词义编码的数量,根据所述数量确定每个词语的权值系数,所述数量与所述权值系数呈负相关关系。
在本实施例中,以任意一个词语为例进行说明,所述权值系数的获取方法具体为:
其中,表示词语i的权值系数,表示词语i对应的词义编码的数量,e为自然常数,表示对进行归一化处理。
当词语i对应的词义编码的数量越多时,说明词语i的语义信息越丰富,即词语i需要较多的不同的词义编码来表征其语义信息。进而利用词语i表征编码向量的词义信息时,其对应的权重应当较小,即对应的权值系数越小,说明词语i越不能够准确的表达对应词义编码的词义信息。
通过词语在近义词词林中对应的词义编码以及近义词关系对词语的权重进行设定,以避免人为设定具有较强的主观性,避免了待检测信息项中的词语的词义信息解读不准确的问题。
进一步的,结合待检测信息项中的每个词语的权值系数以及每个词语的词向量,对词义编码的语音信息进行表征。即根据待检测信息项中每个词语的词向量和权值系数得到每个词义编码的编码向量,具体地,将任意一个词义编码记为目标词义编码,计算目标词义编码对应的每个词语的词向量与权值系数的乘积,对词语对应的所有乘积进行求和得到目标词义编码的编码向量,获得每个词义编码的编码向量。
在本实施例中,需对待检测信息项中每个词语对应的词义编码进行分析,以任意一个词义编码为例进行说明,所述词义编码的编码向量用公式表示为:
其中,表示语义编码c的编码向量,表示语义编码c对应的第n个词语的权值系数,表示语义编码c对应的第n个词语的词向量,表示语义编码c对应的词语的数量。
词语的权值系数取值越小,说明利用该词语表征对应的语义编码的语义信息越不准确,获取语义编码的编码向量时,该词语的词向量的权重就越小。利用词义编码对应的所有词语的权值系数对词语的词向量进行加权求和,获得词义编码对应的编码向量,能够较为准确的表征词义编码的词义信息。
步骤二,根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量,根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度。
按照步骤一中的方法获得了每个词义编码的编码向量,词义编码的编码向量表征了每个词义编码对应的语义信息。由于词语的词向量表征词语的词义信息较为单一,故可以通过词语对应的所有词义编码表征的词义信息,较为全面的获取词语表征的词义信息。即根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量,具体地,将每个词语对应的所有词义编码的编码向量进行横向排列,得到每个词语的编码向量。
待检测信息项中包含了一个或者多个词语,将待检测信息项中的所有词语的编码向量进行横向排列得到待检测信息想的编码向量。以语义编码的编码向量为基础,获得了待检测信息项的编码向量,即以每个语义编码的语义信息基础获得了待检测信息项表征的语义信息,待检测信息项能够较为准确的表征待检测信息项的语义信息。
需要说明的是,为了能够较为准确的识别待解读的电子合同中的关键信息项,本发明实施例结合大量的电子合同中的关键信息项名列,构建电子合同的关键信息项的数据库,记为标准信息项数据库,在该数据库中包含了一般情况下电子合同中较为重要的信息项,所述标准信息项数据库中的信息项为标准信息项,实施者可根据具体实施情况进行设定。
进一步的,通过比较待检测信息项与标准信息项之间的相似程度,对待检测信息项进行识别。同时,需要提取标准信息项的语义信息,即获取标准信息项的编码向量,用来表征标准信息项的语义信息。其中,标准信息项的编码向量与待检测信息项的编码向量的获取方法相同。进而以待检测信息项的编码向量与标准信息项的编码向量之间的相似度作为待检测信息项与标准信息项之间的第一相似度。
其中,在本实施例中,考虑到两个编码向量之间可能会出现不等长的情况,进而通过计算两个向量之间的DTW距离的负相关映射值作为两个向量之间的相似度,实施者可根据具体实施场景选择合适的方法进行相似度的计算。
第一相似度从语义信息方面反映了待检测信息项与标准信息项之间的相似程度,第一相似度的取值越大,说明待检测信息项与标准信息项之间越相似。而标准信息项均为一般情况下较为重要的信息项,则进而说明待检测信息项较为重要,为关键信息项的可能性越大。即利用第一相似度对待检测信息项所包含的信息的重要程度进行初步表征。
步骤三,筛选出待检测信息项中的关键词,根据关键词与其相邻的词语之间的关系构建关键词的特征元组,根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度;根据所述第一相似度与第二相似度得到综合相似度。
首先,需要说明的是,步骤一和步骤二通过对待检测信息项中每个词语进行分析,以提取每个词语对应的语义特征信息,进而基于词语的语义特征信息分析待检测信息项与标准信息项之间的相似程度。该过程仅对信息项中的词语进行单独分析,忽略了信息项中各个词语之间的关联关系或者限定关系,也即没有充分考虑待检测信息项中词语的上下文关系。因此,本发明实施例进一步对信息项中的特征信息进行提取,根据上下文信息结合词语之间的语义信息对待检测信息项的特征进行表征。
为了提高检测速度,对待检测信息项中与标准信息项中词语的相似程度较大的词语的上下文的限定关系进行分析,避免对无关词语进行分析,需要筛选出待检测信息项中的关键词,降低了系统的计算量。
具体地,将待检测信息项中任意一个词语记为选定词语,分别计算选定词语与标准信息项的每个词语的编码向量之间的相似度,将所述相似度的最大值作为选定词语的判定值;进而获得每个词语的判定值,将判定值大于预设的相似阈值对应的词语记为关键词。
其中,在本实施例中,相似阈值的取值为0.75,实施者可根据具体实施场景进行设置。由于所有标准信息项中均包含了电子合同中较为重要的信息,故可以获取待检测信息项中的词语与标准信息项中的词语之间相似度的最大值作为判定值,判定值的大小能够反映待检测信息项中词语的重要程度的大小。判定值越大,说明待检测信息项中词语与标准信息项中的词语越相似,进而说明待检测信息项中的词语的重要程度越大。
当判定值大于相似阈值时,说明待检测信息项中的词语较为重要,故将其记为关键词,后续仅对关键词的上下文限定关系进行分析,在一定程度上减少了计算量。
对待检测信息项中的每个关键词上下文的限定关系进行分析,即根据关键词与其相邻的词语之间的关系构建关键词的特征元组,具体地,对于待检测信息项中的任意一个关键词,在相邻的词语中获取与该关键词具有限定关系的词语记为关联词,将关键词和关联词、关键词与关联词的限定关系构成关键词的特征元组。
在本实施例中,以任意一个关键词为例进行说明,关键词u的特征元组表示为,其中,u为关键词u,u+为关键词u的关联词,表示关键词u与关联词之间的限定关系,所述限定关系可以为主谓、动宾、后补、并列和介宾等,实施者可根据具体实施场景进行设置。按照上述方法,能够获得待检测信息项中每个关键词的特征元组。同时,获取标准信息项中每个词语的特征元组,其获取方法与关键词的特征元组的获取方法相同。特征元组从上下文信息方面反映了关键词或者词语的语义特征。
进一步的,利用关键词的特征元组与标准信息项中词语之间的相似程度,对待检测信息项与标准信息项之间的相似程度进行分析。即根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度。在本实施例中,关键词或者词语的特征元组为三元组,在计算两个词语的特征元组之间的相似度时,分别对两个三元组中的每个对应元素之间的相似程度进行计算。
具体地,将标准信息项中任意一个词语记为目标标准词语,对关键词与目标标准词语对应的限定关系进行同或运算,得到限定关系相似度,用公式表示为:
其中,表示关键词u和目标标准词语v之间的限定关系相似度,表示关键词u与其对应的关联词之间的限定关系,表示目标标准词语v与其对应的关联词之间的限定关系。限定关系相似度反映了待检测信息项中的关键词与标准信息项中的目标标准词语对应的限定关系之间的相似程度。限定关系相似度越大,说明两者之间的限定关系相同。限定关系相似度越小,说明两者之间的限定关系不同。
计算关键词与目标标准词语的编码向量之间的相似度,记为第三相似度;计算关键词对应的关联词与目标标准词语对应的关联词的编码向量之间的相似度,记为第四相似度;以限定关系相似度、第三相似度与第四相似度的和值作为关键词与目标标准词语之间的关联程度;用公式表示为:
其中,表示关键词u和目标标准词语v之间的关联程度,表示关键词u和目标标准词语v之间的限定关系相似度;表示关键词u的编码向量,表示目标标准词语v的编码向量,表示关键词u对应的关联词的编码向量,表示目标标准词语v对应的关联词的编码向量;为第三相似度,表示关键词u和目标标准词语v的编码向量之间的相似度;为第四相似度,表示关键词u对应的关联词和目标标准词语v对应的关联词的编码向量之间的相似度。
第三相似度反映了关键词与目标标准词语之间语义特征信息的相似程度,第四相似度反映了关键词对应的关联词语目标标准词语对应的关联词之间语义特征信息相似程度。第三相似度取值越大,第四相似度取值越大,且限定关系相似度取值越大,说明关键词与目标标准词语之间语义特征较为相似,两者对应的关联词之间的语义特征也较为相似,同时,两者分别与关联词的限定关系也相同,则对应的关联程度越大。
关联程度反映了关键词与标准信息项中的词语之间的关联大小,关联程度取值越大,说明关键词的语义信息与标准信息项中对应的词语的语义信息越接近。
获得关键词与标准信息项中每个词语之间的关联程度,将所述关联程度最大值对应的标准信息项中的词语,记为关键词的相似词;获取待检测信息项中包含的关键词的总数量,以所有关键词与相似词之间的关联程度的和值与所述总数量之间的乘积,作为待检测信息项与标准信息项之间的第二相似度。
相似词为在标准信息项中与关键词的上下文语义信息最相似的词语,故在待检测信息项中的关键词,在标准信息项中均有与其对应的相似词,即一个关键词对应一个相似词。当待检测信息项中包含的关键词数量越多时,说明待检测信息项中包含的重要信息就越多,则越需要对待检测信息项进行关注,该待检测信息项也越可能是关键信息项。
将待检测信息项中所有关键词与标准信息项中对应的相似词之间的关联程度求和,反映了待检测信息项与标准信息项较为重要的词语之间的相似性大小。第二相似度从上下文限定关系的语义特征方面反映了待检测信息项与标准信息项之间的相似性大小。第二相似度的取值越大时,说明待检测信息项中关键词的数量较多,且关键词的上下文语义特征信息与标准信息项中词语的上下文语义特征信息越相似,进而说明待检测信息项中包含的重要信息越多。
进一步的,结合第一相似度与第二相似度获得综合相似度,即根据待检测信息项与标准信息项之间第一相似度与第二相似度得到待检测信息项与标准信息项之间的综合相似度,具体地,计算所述第一相似度与第二相似度的乘积,以所述乘积的归一化值作为待检测信息项与标准信息项之间的综合相似度,用公式表示为:
其中,表示待检测信息项X与标准信息项Y之间的综合相似度,表示待检测信息项X与标准信息项Y之间的第一相似度,表示待检测信息项X与标准信息项Y之间的第二相似度,exp()表示以自然常数e为底的指数函数。
在本实施例中,利用进行归一化处理,实施者可根据具体实施场景选择其他归一化处理的方法。
结合待检测信息项中单个词语的语义信息特征与词语的上下文限定关系特征,获得综合相似度,较为全面的表征了待检测信息项与标准信息项之间的相似度大小。
步骤四,根据综合相似度确定关键信息项,对待解读的电子合同的关键信息项进行在线解读。
首先,按照上述步骤获取待解读的电子合同中所有待检测信息项对应的综合相似度,将待检测信息项与所有标准信息项之间对应的综合相似度的最大值,记为待检测信息项的特征相似度;将特征相似度大于预设的综合阈值对应的待检测信息项记为关键信息项。
其中,在本实施例中,综合阈值的取值为0.5,即当待检测信息项的特征相似度小于或等于0.5时,说明该待检测信息项的重要程度较低,在对电子合同进行解读时不需要对该待检测信息项进行特别关注。否则,说明待检测信息项的重要程度较高,在对电子合同进行解读时需要对该待检测信息项进行特别关注,后续,对合同签署人在进行合同解读确认过程中触发提示,以提高合同签署人的关注度,保证对关键信息确认的准确性。
通过待检测信息项对应的综合相似度对电子合同中各个待检测信息项进行分析判断,能够较为全面的识别获取电子合同中所有较为重要的信息项,即关键信息项。
本发明可实现针对性的、较为全面对电子合同中的关键信息项进行解读识别,针对性的提高电子合同签署人对于电子合同不同内容的关注度,同时本发明对合同信息项中的关键词进行提取,提高合同信息项内容重要程度的判定精度,降低系统计算量,有效提高电子合同解读效率。
进一步的,对待解读的电子合同的关键信息项进行在线解读。在对电子合同中的关键信息项进行在线解读时,可以采用多种辅助解读的方式进行处理,以提高签署人对合同内容阅读确认的效率。
在本实施例中,对待解读的电子合同进行解读的具体步骤如下:
首先,对于待解读的电子合同中每个关键信息项,本发明实施例可采用以下一种或者多种方式对文档进行解读,实施者也可根据具体实施场景选择其他现有的解读方法。其中,解读方法包括:
(1)人工解读:电子合同在线签署时,多方同时在线、客服远程支持或面对面交流时,采用人工解读方法;
(2)显示文本解读:通过放大显示指定文字或文档中的文字进行解读;
(3)语音解读:通过语音朗诵指定文字或文档中文字;
(4)录音重播解读:采用将合同内容或解读详细信息提前录音的方式进行重播解读;
(5)机器人交互解读:在交互平台上设置自动交互通讯界面,用户通过该交互通讯界面进行提问,服务端为智能方式解答。
然后,对电子合同的需要进行解读的关键信息项设置最小停留时间。
具体地,设置最小停留时间,确保用户在电子文档中停留足够的时间,以进行动作确认,保留动作证据。即能够使得用户在该电子文档完成相应动作,如果未达到最小停留时间,也不允许跳转到下一个动作,直至达到最小停留时间为止。本实施例中,最小停留时间为10分钟,实施者可根据具体实施场景进行设置。
此外,本发明还可以在解读电子合同的过程中实现对用户进行身份的识别,以确保当前解读合同内容的用户为合同签署人。在本发明的其他实施例中,可以采用以下方式中一种或多种方式对用户身份进行识别,但不限于以下方式:摄像头拍照、人脸识别、指纹识别、虹膜识别、语音特征识别、手写笔迹特征识别方式等。采用上述方式对用户进行身份识别,以确保合同签署人解读合同内容。需要说明的是,对身份进行识别可以设定在合同关键信息项辅助解读的步骤之前,以便保证真实的合同签署人身份对合同内容进行阅读、确认。
进一步的,还包括对电子合同的解读的确认,具体为:接收用户的确认指令,对电子合同当前解读内容进行确认。通常使用例如勾选已阅读或者已知晓等一些提示信息,或其他确认手段。
在本发明的一个实施例中可以采用以下方式中一种或多种发出确认指令,但不限于以下方式:
(1)手动勾选或点选相应的确认文字以完成确认,例如已阅读、已知晓、已同意、已确认等;
(2)进行相应的用户身份识别以完成确认,例如:人脸识别、人像拍照、指纹识别、虹膜识别、语音特征识别、手写笔迹特征识别等;
(3)通过语音发出确认指令以完成确认,例如:通过语音告知已确认、已知晓、已同意等;
(4)通过手写签名以完成确认,例如:在合同中保存确认手写签名或独立保存确认手写签名完成确认;
(5)通过抄写相应文字以完成确认,例如:在合同中对应项抄写或独立抄写相应确认文字,如本人已确认XXXX条款,本人已知晓XXXX条款等;
(6)通过数字签名以完成确认。
本发明考虑到针对每条合同将包含多种关键信息项,也即将有多条解读项,在进行电子合同辅助解读时,按照上述步骤的顺序,每一项操作完成后进行下一项,其中有一条被用户取消或不接受,该合同签署失败。
至此,即可实现对电子合同进行在线解读,可较为全面对电子合同中的关键信息项进行解读识别,以便合同签署人更加关注电子合同的关键信息项,提高合同内容解读确认的精度,同时可降低人工的时间以及精力,有效提高电子合同在线解读的效率。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电子合同的在线解读方法,其特征在于,该方法包括以下步骤:
获取待解读的电子合同中待检测信息项,根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数,根据待检测信息项中每个词语的词向量和权值系数得到每个词义编码的编码向量;
根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量,根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度;
筛选出待检测信息项中的关键词,根据关键词与其相邻的词语之间的关系构建关键词的特征元组,根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度;根据所述第一相似度与第二相似度得到综合相似度;
根据综合相似度确定关键信息项,对待解读的电子合同的关键信息项进行在线解读。
2.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据关键词与其相邻的词语之间的关系构建关键词的特征元组,具体包括:
对于待检测信息项中的任意一个关键词,在相邻的词语中获取与关键词具有限定关系的词语记为关联词,将关键词和关联词、关键词与关联词的限定关系构成关键词的特征元组。
3.根据权利要求2所述的一种电子合同的在线解读方法,其特征在于,所述根据关键词的特征元组计算待检测信息项与标准信息项之间的第二相似度具体为:
将标准信息项中任意一个词语记为目标标准词语,对关键词与目标标准词语对应的限定关系进行同或运算,得到限定关系相似度;
计算关键词与目标标准词语的编码向量之间的相似度,记为第三相似度;计算关键词对应的关联词与目标标准词语对应的关联词的编码向量之间的相似度,记为第四相似度;以限定关系相似度、第三相似度与第四相似度的和值作为关键词与目标标准词语之间的关联程度;
获得关键词与标准信息项中每个词语之间的关联程度,将所述关联程度最大值对应的标准信息项中的词语,记为关键词的相似词;
获取待检测信息项中包含的关键词的总数量,以所有关键词与相似词之间的关联程度的和值与所述总数量之间的乘积,作为待检测信息项与标准信息项之间的第二相似度。
4.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据词语的编码向量计算待检测信息项与预设的标准信息项之间的第一相似度具体为:
将待检测信息项中所有词语的编码向量进行横向排列,得到待检测信息项的编码向量;获得标准信息项的编码向量,以待检测信息项的编码向量与标准信息项的编码向量之间的相似度作为所述第一相似度。
5.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述词义编码的编码向量的获取方法具体为:
将任意一个词义编码记为目标词义编码,计算目标词义编码对应的每个词语的词向量与权值系数的乘积,对词语对应的所有乘积进行求和得到目标词义编码的编码向量,获得每个词义编码的编码向量。
6.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据待检测信息项中每个词语对应的词义编码得到每个词语的权值系数具体为:
获取待检测信息项中每个词语对应的词义编码的数量,根据所述数量确定每个词语的权值系数,所述数量与所述权值系数呈负相关关系。
7.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述筛选出待检测信息项中的关键词具体为:
将待检测信息项中任意一个词语记为选定词语,分别计算选定词语与标准信息项的每个词语的编码向量之间的相似度,将所述相似度的最大值作为选定词语的判定值;获得每个词语的判定值,将判定值大于预设的相似阈值对应的词语记为关键词。
8.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据每个词义编码的编码向量确定待检测信息项中每个词语的编码向量具体为:
将待检测信息项中每个词语对应的所有词义编码的编码向量进行横向排列,得到待检测信息项中每个词语的编码向量。
9.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据所述第一相似度与第二相似度得到综合相似度具体为:
计算所述第一相似度与第二相似度的乘积,以所述乘积的归一化值作为待检测信息项与标准信息项之间的综合相似度。
10.根据权利要求1所述的一种电子合同的在线解读方法,其特征在于,所述根据综合相似度确定关键信息项具体为:
将待检测信息项与所有标准信息项之间对应的综合相似度的最大值,记为待检测信息项的特征相似度;将特征相似度大于预设的综合阈值对应的待检测信息项记为关键信息项。
CN202310231617.3A 2023-03-13 2023-03-13 一种电子合同的在线解读方法 Active CN116070641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310231617.3A CN116070641B (zh) 2023-03-13 2023-03-13 一种电子合同的在线解读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310231617.3A CN116070641B (zh) 2023-03-13 2023-03-13 一种电子合同的在线解读方法

Publications (2)

Publication Number Publication Date
CN116070641A true CN116070641A (zh) 2023-05-05
CN116070641B CN116070641B (zh) 2023-06-06

Family

ID=86180390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310231617.3A Active CN116070641B (zh) 2023-03-13 2023-03-13 一种电子合同的在线解读方法

Country Status (1)

Country Link
CN (1) CN116070641B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置
WO2021051934A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于人工智能的合同关键条款提取方法、装置及存储介质
CN113204618A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 基于语义增强的信息识别方法、装置、设备及存储介质
CN114139530A (zh) * 2021-11-23 2022-03-04 卫盈联信息技术(深圳)有限公司 同义词提取方法、装置、电子设备及存储介质
WO2022134759A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
WO2022160818A1 (zh) * 2021-01-27 2022-08-04 语联网(武汉)信息技术有限公司 垂直领域语料数据筛选方法及系统
CN115034225A (zh) * 2022-06-10 2022-09-09 神州医疗科技股份有限公司 应用于医学领域的词语处理方法、装置、电子设备和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置
WO2021051934A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于人工智能的合同关键条款提取方法、装置及存储介质
WO2022134759A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
WO2022160818A1 (zh) * 2021-01-27 2022-08-04 语联网(武汉)信息技术有限公司 垂直领域语料数据筛选方法及系统
CN113204618A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 基于语义增强的信息识别方法、装置、设备及存储介质
CN114139530A (zh) * 2021-11-23 2022-03-04 卫盈联信息技术(深圳)有限公司 同义词提取方法、装置、电子设备及存储介质
CN115034225A (zh) * 2022-06-10 2022-09-09 神州医疗科技股份有限公司 应用于医学领域的词语处理方法、装置、电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郜炎峰;林燕芬;王忠建;: "基于马尔科夫模型的汉语语句相似度计算", 哈尔滨商业大学学报(自然科学版), vol. 33, no. 01, pages 73 - 76 *

Also Published As

Publication number Publication date
CN116070641B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN109767787B (zh) 情绪识别方法、设备及可读存储介质
CN110069609B (zh) 裁判文书分析方法、装置、计算机设备及存储介质
CN112651841B (zh) 线上业务办理方法、装置、服务器及计算机可读存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN113688221B (zh) 基于模型的话术推荐方法、装置、计算机设备和存储介质
CN112527972A (zh) 基于深度学习的智能客服聊天机器人实现方法和系统
CN117114514B (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
CN113807103B (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN112732871A (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN113918703A (zh) 一种智能客服问答方法、装置、服务器和存储介质
CN111694936B (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
WO2020253353A1 (zh) 预设用户的资源获取资质生成方法及相关设备
CN115186071A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112990868A (zh) 车辆保险自动赔付方法、系统、设备及存储介质
CN113032603A (zh) 鸟类图像识别检索系统及使用方法
CN116070641B (zh) 一种电子合同的在线解读方法
CN115982388B (zh) 案件质控图谱建立、案件文书质检方法、设备及存储介质
CN108268506A (zh) 一种推广信息的处理方法、装置、终端及计算机可读存储介质
CN112949963A (zh) 员工服务质量的评估方法、装置、存储介质和智能设备
CN115602160A (zh) 基于语音识别的业务办理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant