CN110442872B - 一种文本要素完整性审核方法及装置 - Google Patents
一种文本要素完整性审核方法及装置 Download PDFInfo
- Publication number
- CN110442872B CN110442872B CN201910722356.9A CN201910722356A CN110442872B CN 110442872 B CN110442872 B CN 110442872B CN 201910722356 A CN201910722356 A CN 201910722356A CN 110442872 B CN110442872 B CN 110442872B
- Authority
- CN
- China
- Prior art keywords
- text
- template
- summary content
- text element
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000877 morphologic effect Effects 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 239000002131 composite material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000012550 audit Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000009430 construction management Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种文本要素完整性审核方法及装置,能够获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本要素完整性审核方法及装置。
背景技术
文本匹配是自然语言处理的一项核心内容,自然语言处理的很多任务都可以抽象成文本匹配问题,例如:信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句对话和回复的匹配,机器翻译则可以归结为两种语言的匹配。
现有技术中,使用自然语言处理技术解决文本匹配问题,主要有两种方式:第一种方式是利用基于大量的人工定义和抽取的特征建立文本匹配模型,并使用文本匹配模型进行文本匹配。由于建立文本匹配模型使用的特征是根据特定的任务(例如:信息检索或者自动问答)人工设计的,因此文本匹配模型具有专用性,在某个特定任务的匹配准确性很高,但是很难应用到其他的任务上。另一种方式是使用训练数据训练深度学习模型,使用深度学习模型进行文本匹配。这种方法由于可以使用不同的训练数据去训练深度学习模型,因此可以方便的适配到各种文本匹配任务中,具有很好的泛化性。但是,由于深度学习模型质量的好坏受到训练数据等因素的影响,其准确度难以保证。
发明内容
本申请实施例提供了一种文本要素完整性审核方法及装置,以提高文本要素匹配和审核的准确性。
第一方面,本申请实施例提供了一种文本要素完整性审核方法,该方法包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
第二方面,本申请实施例提供了一种文本要素完整性审核装置,该装置包括:获取模块,用于获取要素审核模板,所述要素审核模板包含多个文本要素;解析模块,用于对待审核文本进行段落解析,得到每个段落的概要内容;计算模块,用于对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;第一分析模块,用于根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;第二分析模块,用于根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
由以上技术方案可知,本申请实施例提供了一种文本要素完整性审核方法及装置,能够获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,获取段落信息和文本要素模板的综合匹配度,以进一步确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本要素完整性审核方法的流程图;
图2是本申请实施例提供的一种文本要素完整性审核方法步骤S103的流程图;
图3是本申请实施例提供的计算第一词形相似度的流程图;
图4是本申请实施例提供的计算第二词形相似度的流程图;
图5是DRCN模型的结构示意图;
图6是本申请实施例提供的一种文本要素完整性审核方法步骤S104的流程图;
图7是本申请实施例提供的一种文本要素完整性审核装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种文本要素完整性审核方法及装置,以提高文本要素匹配和审核的准确性。
下面是本申请的方法实施例,提供了一种文本要素完整性审核方法,该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。
图1是本申请实施例提供的一种文本要素完整性审核方法的流程图。如图1所示,该方法可以包括以下步骤:
步骤S101,获取要素审核模板,所述要素审核模板包含多个文本要素模板。
本申请实施例中,文本要素模板用于与待审核文本中的内容进行匹配,以确定待审核文本中包含哪些文本要素,从而一步判断待审核文本中包含的文本要素是否完整。要素审核模板除了包含文本要素模板以外,针对每个要素模板,还可以包括至少一个要素实例,要素实例也可以用于与待审核文本中的内容进行匹配,从而辅助于文本要素模板确定待审核文本中包含哪些文本要素。本申请实施例中对要素实例的内容和格式设置不做具体限定,本领域技术人员可以根据需求,从有利于识别文本要素的角度出发,自由设置要素实例的内容和格式,例如:要素实例可以包括关键词实例、模板实例或句子实例。
在一些实施例中,文本要素模板可以包含多个级别,不同级别的文本要素模板之间由高到低具有从属关系,例如:文本要素模板可以包括一级要素和二级要素,二级要素从属于一级要素,二级要素之下设置有关键词实例、模板实例或句子实例等至少一个要素实例。
下面以针对合同文本要素完整性审核业务为例,对要素审核模板的结构做进一步解释说明。请参见表1,为合同文本要素完整性审核业务中所使用的一个合同要素审核模板:
一级要素 | 二级要素 | 句子标签 | 关键词、模板、句子实例 |
服务要求 | 服务要求 | 项目名称 | 项目名称 |
服务要求 | 服务要求 | 服务内容 | 合作内容 |
服务要求 | 服务要求 | 服务内容 | 服务内容 |
服务要求 | 服务要求 | 服务目标 | 服务目标 |
服务要求 | 服务要求 | 服务方式 | 合作方式 |
服务要求 | 服务要求 | 服务方式 | 服务方式 |
服务要求 | 服务要求 | 服务地点 | 服务地点 |
服务要求 | 服务要求 | 服务期限 | 服务期限 |
服务要求 | 服务要求 | 服务进度安排 | 服务进度安排 |
服务要求 | 服务要求 | 质量要求 | 质量要求 |
服务要求 | 服务要求 | 质量期限要求 | 质量期限要求 |
服务验收 | 服务验收 | 验收地点 | 验收地点 |
服务验收 | 服务验收 | 验收时间 | 验收时间 |
服务验收 | 服务验收 | 验收方式 | 验收方式 |
服务验收 | 服务验收 | 验收标准 | 验收标准 |
报酬和支付方式 | 价款 | 总金额 | 服务费 |
报酬和支付方式 | 价款 | 总金额 | 总额 |
报酬和支付方式 | 价款 | 总金额 | 价格 |
报酬和支付方式 | 价款 | 总金额 | 报酬 |
报酬和支付方式 | 价款 | 总金额 | 总价款 |
报酬和支付方式 | 价款 | 总金额 | 总金额 |
表1合同要素审核模板
在表1中,每一行作为一个文本要素模板,每个文本要素模板包含的第一要素和第二要素可以相同,也可以不同,当第一要素和第二要素相同时,可以认为该文本要素模板只包含第一要素。句子标签是该文本要素模板所能够匹配的文本要素语义的概括。
步骤S102,对待审核文本进行段落解析,得到每个段落的概要内容。
在对待审核文本进行匹配之前,首先要以待审核文本的段落为单位,对待审核文本进行结构解析,以获取每个段落的概要内容。一般来说,段落的概要内容通常是该段落对应的标题,因此,获取每个段落的概要内容的步骤再具体实现时,可以是获取该段落对应的标题。
在一些实施例中,如果文本的段落内容具有多层次的逻辑关系,标题也会对应具有从属级别,例如:我们可以将划分成一级标题、二级标题、三级标题等,其中,二级标题作为一级标题的子标题,三级标题是二级标题的子标题,依次类推。
在规范撰写的文本中,标题通常独占文本的一段内容;并且,标题与文本除标题以外的正文内容具有不同的文本样式,文本样式包括:字体、字号、缩进量、字体加粗、字体倾斜等;另外,标题通常包含用于表达层次的序号,例如:3、3.1、3.1.1等。因此,可以基于标题的上述特点对标题进行识别,必要时,可以针对上述特点制定正则表达式,利用正则表达式与文本内容匹配的方式,找出文本中的标题。
素材1:
3、权利和义务
3.1甲方的权利和义务
3.1.1为乙方提供云计算应用(产品)运行的基础环境,包括BDGStore平台运营所需要的机房、硬件及网络基础设施,以及销售渠道和服务方面的支撑等。
利用已有的基础设施和带宽资源,负责BDGStore平台的基础支撑和运营工作并对物理设备和环境提供运营维护和电力支持。
3.1.2甲方制订相关的业务开发和建设管理办法、考核条款、客户服务标准和文件,运营维护标准和文件并要求乙方遵守和执行。
素材1提供了一段合同文本的内容,其中,“3、权利和义务”即作为一级标题,“3.1甲方的权利和义务”即作为二级标题。素材1中的标题相比于正文内容具有加粗字体,并且独占一段内容,因此,可以根据加粗字体或独占的段落确定出上述标题,并进一步根据标题的序号确定以及标题和二级标题。
步骤S103,对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度。
其中,根据词形匹配和语义匹配相结合的方式,分别计算其与各个文本要素模板的综合匹配度,有利于提高计算概要内容和文本要素模板的综合匹配度的准确性,从而,进一步提高文本要素完整性审核的准确性。
在一个实施例中,为了计算得到综合匹配度,步骤S103如图2所示包括以下步骤:
步骤S201,对于每个所述概要内容,根据词形匹配,分别计算其与各个所述文本要素模板的词形匹配度,以及,根据语义匹配,分别计算其与各个所述文本要素模板的语义匹配度。
步骤S202,将所述词形匹配度和所述语义匹配度加权求和,得到所述综合匹配度。
在一个实施例中,词形匹配度和语义匹配度均以匹配得分的方式呈现,与之对应地,综合匹配度也以综合匹配得分的方式呈现,那么,概要内容和文本要素模板的综合匹配得分为:
Score综合=α*Score词形+β*Score语义
其中,α和β为加权系数,0≤α≤1,0≤β≤1,α+β=1。α和β的取值可以在满足范围要求的前提下自由选取;如果用户希望综合匹配得分以词形匹配得分为主导,则α取值可以大于β,例如a=0.7、β=0.3;如果用户希望综合匹配得分以语义匹配得分为主导,则α取值可以小于β,例如a=0.3、β=0.7。
对于概要内容和文本要素模板的词形匹配度得分Score词形,本申请实施例也提供了对应的计算方法,具体包括以下公式:
tesi词形=Sim词形(title,Elementi)
tcsi词形=max(Sim词形(title,Elementij))
其中,title表示概要内容;Elementi表示要素审核模板中的第i个(i为大于或者等于1的正整数)文本要素模板;Elementij表示第i个文本要素模板对应的第j个(j为大于或者等于1的正整数)要素实例;Sim词形(title,Elementi)为概要内容和要素审核模板中第i个文本要素模板的第一词形相似度;Sim词形(title,Elementij)为概要内容和要素审核模板对应的第j个要素实例的第二词形相似度;max为取结果最大值;Score词形为概要内容和文本要素模板的词形匹配度得分(即:词形匹配度)。
进一步地,本申请实施例还提供了一种计算两个字符串之间的词形相似度的方法,具体包括以下公式:
其中,表示第一个字符串S(1)和第二个字符串S(2)的相同词的数量,表示第二个字符串S(2)包含的词的数量;表示第一个字符串S(1)和第二个字符串S(2)的相同字符的长度,表示第二个字符串SS(2)包含的字符的长度。在本申请实施例中,当第一字符串S(1)为title时,第二字符串S(2)为Elementi或者Elementij。
在一个实施例中,为了更好地刻画字符串之间的词形相似度,在计算sim词时,可以引入一个词间隔惩罚:log(e+distance)-1,引入了词间隔惩罚之后,sim词的计算公式如下:
基于上述公式并参见图3,本申请实施例中的概要内容和文本要素模板第一词形相似度可以通过以下步骤计算得到:
步骤S301,将概要内容和文本要素模板中相同词的数量,减去预设的词间隔惩罚之后,除以文本要素模板中词的总数量,得到概要内容与文本要素模板的第一词相似度。
步骤S302,将概要内容和文本要素模板中相同字符的长度,除以文本要素模板中字符的总长度,得到概要内容与文本要素模板的第一字符相似度。
步骤S303,将第一词相似度和第一字符相似度的平均值作为第一词形相似度。
步骤S303可以通过公式③实现。其中,Sim词形为概要内容与文本要素模板的第一词形相似度,sim词为概要内容与文本要素模板的第一词相似度,sim字符为概要内容与文本要素模板的第一字符相似度。
基于上述公式并参见图4,本申请实施例中的概要内容和要素实例第二词形相似度可以通过以下步骤计算得到:
步骤S401,将所述概要内容和所述要素实例中相同词的数量,减去预设的词间隔惩罚之后,除以所述要素实例中词的总数量,得到所述概要内容与所述要素实例的第二词相似度。
步骤S402,将所述概要内容和所述要素实例中相同字符的长度,除以所述要素实例中字符的总长度,得到所述概要内容与所述要素实例的第二字符相似度。
步骤S403,将所述第二词相似度和所述第二字符相似度的平均值作为所述第二词形相似度。
步骤S403可以通过公式③实现。其中,Sim词形为概要内容与要素实例的第一词形相似度,sim词为概要内容与要素实例的第一词相似度,sim字符为概要内容与要素实例的第一字符相似度。
对于概要内容和文本要素模板的语义匹配度得分Score语义,本申请采用深度学习模型进行获取。例如,在一个实施例中,本申请采用DRCN(Densely-connected Recurrentand Co-attentive Information)模型获取概要内容和文本要素模板的语义匹配度。DRCN模型是自然语言处理技术领域用于句子匹配的深度学习模型,该模型采用了固定的gloveembedding(一种词嵌入方式)和可变的glove embedding拼接的方式表达句子的词向量,从而提升了模型匹配效果。其次,该模型采用stack(堆栈)层级结构的长短期记忆网络(Long Short-Term Memory,LSTM),在层级结构上加入了DenseNet(一种深层卷积神经网络)的思想,将模型上一层的参数拼接到模型下一层,一定程度上在长距离的模型中保留了前面的特征信息。另外,由于模型不断的拼接导致参数增多,DRCN还采用了autoencoder(自编码)进行降维,不仅起到了正则化效果,同时也提升了模型的准确率。
图5是DRCN模型的结构示意图。如图5所示,DRCN模型包括:
词嵌入层EMB layer。EMB layer主要是将文本序列转化计算机可处理的向量,并尽量保留词语中所包含的语义信息模型的word embedding时使用的预训练的词向量。定义输入的句子(例如本申请实施例中的概要内容和文本要素模板)为:P={p1,p2....,pn}和1={q1,q2....,qn},并以p为例,EMB layer涉及的计算公式如下:
cpi=Char-Conv(pi)
在EMB layer中,词的embedding分为两部分,一部分是参与训练的词向量另一部分是固定不变的词向量cpi表示基于词的字符卷积得到的向量表示,fpi是文本的匹配特征,表示P中的每个词是否在Q中有对应的词,然后将这些表示拼接起来,就得到了句子P中每个词的最后的词向量表示
卷积层RNN layer。RNN layer使用了密集连接和RNN结合的方法来实现对句子的处理。首先表示的是第l层的RNN的第t的隐层状态。参见以下公式:
由于句子匹配考虑的两个句子之间关系,因此需要建模两个句子之间的交互,因此RNN layer使用了注意力机制。包括使用co-attention(联合注意力)计算方法,计算两个句子序列之间的在每个词上的对应关系,然后直接使用余弦相似度来计算每两个词之间的相似性。下面是句子P中第i个词相对于句子Q的注意力权重计算,Q计算类似:
ei,j=cos(hpi,hqj)
然后,直接使用了计算出来的权值分布,将其作为一个特征引入到当前层的输入当中,具体包括以下公式:
AE(autoencoder)层,用于对模型参数进行降维,防止参数不断拼接导致参数增多给最后的全连接层(FC layer)带来压力。AE层对模型参数降维之后,将参数循环至下一层RNN(即图5中的Nx过程)。
池化层pooling layer,为了获得每个句子的表示向量,在密集连接的递归和联合注意力特征上应用一个step-wise max-pooling操作。具体来说,参数到达最后一层RNN时,假设输出的隐层状态(hidden states)是100维的,每个句子被填充(padding)成30个词(这里也是要把整个数据集的sentences padding成一个长度的),那么就获得了一个30*100的矩阵,在这个矩阵上再columnwised max-pooling就可以得到一个100维的向量,就是最终模型对于一句话的表示向量。
相互作用和预测层Interaction and Prediction Layer。在得到句子的表示向量p和q后,在相互作用和预测层,将p和q以多种方式聚合,并得到语义匹配的最终特征向量v:
v=[p;q;p+q;p-q;|p-q|]
最后将聚合特征v,经过两层线性整流函数(Rectified Linear Unit,ReLU)激活的全连接层和一个输出层y,进行归一化指数函数softmax分类。通过最小化交叉熵损失和自动编码autoencoders的重建损失reconstrunction loss来训练模型。
步骤S104,根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;
具体地,可以设置综合匹配度对应的阈值,并将综合匹配度与阈值进行比较,如果概要内容和某个文本要素模板的综合匹配度大于阈值,则这个文本要素模板就是该概要内容的目标文本要素模板。
在一些实施例中,如果文本要素模板包括一级要素和二级要素,那么综合匹配度包括概要内容和一级要素的第一综合匹配度,以及,概要内容和二级要素的第二综合匹配度,此时,需要具体根据第一综合匹配度和第二综合匹配度确定将概要内容匹配到一级要素还是二级要素。
图6是本申请实施例提供的一种文本要素完整性审核方法步骤S104的流程图。
如图6所示,当文本要素模板包括一级要素和二级要素时,步骤S104可以包括以下步骤:
步骤S501,当所述第一综合匹配度大于所述第二综合匹配度时,所述概要内容与所述目标文本要素模板的一级要素匹配。
当综合匹配度以综合匹配得分Score综合的形式呈现时,对于目标文本要素模板i,它的一级要素i与概要内容的第一综合匹配得分为Score综合i1,它的二级要素i与概要内容的第二综合匹配得分为Score综合i2;那么,如果Score综合i1大于Score综合i2,则概要内容与一级要素i匹配,如果Score综合i1小于或者等于Score综合i2,则执行步骤S502。
步骤S502,当所述第一综合匹配度小于或者等于所述第二综合匹配度时,判断所述第二综合匹配度对应的tesi词形和tcsi词形的大小。
步骤S5031,如果tesi词形大于或者等于tcsi词形,所述概要内容与所述目标文本要素模板的二级要素匹配。
步骤S5032,如果tesi词形小于tcsi词形,所述概要内容不与任何文本要素模板匹配。
当综合匹配度以综合匹配得分Score综合的形式呈现时,对于目标文本要素模板i,它的一级要素i与概要内容的第二综合匹配得分为Score综合i2,Score综合i2对应的tesi词形2=Sim词形(概要内容,一级要素i),Score综合i2对应的tcsi词形2=max(Sim词形(概要内容,一级要素i对应的第j个要素实例));那么,如果tesi词形2大于或者等于tcsi词形2,则概要内容与二级要素i匹配,如果tesi词形2小于tcsi词形2,则概要内容不与任何文本要素模板匹配。
步骤S105,根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
本领域技术人员在不同的文本要素完整性审核业务中,可以依据文本的类型确定文本必须包含哪些文本要素。在判断文本要素是否完整时,如果概要内容和某个文本要素模板具有匹配关系,则认为该文本包含对应的文本要素。基于上述描述的内容,可以设置以下的要素完整性条件:
例如:如果各个概要内容匹配到的目标文本要素模板的数量大于或者等于预设的完整性阈值,则认为待审核文本的文本要素是完整的。示例地,某项要素完整性审核业务中设置的完整性阈值为10。那么,对于一个具有15个概要内容的待审核文本,如果这15个概要内容从要素审核模板中匹配到了11个目标文本要素模板,则说明该待审核文本的文本要素是完整的;如果这15个概要内容从要素审核模板中匹配到了9个目标文本要素模板,则说明该待审核文本的文本要素是不完整的。
又例如,在一些实施例中,可以把文本要素模板划分为必须文本要素模板和非必须文本要素模板。如果待审核文本的各个概要内容匹配到的目标文本要素模板包含了全部必须文本要素模板,则所述待审核文本的文本要素完整;如果待审核文本的各个概要内容匹配到的目标文本要素模板没有包含全部的必须文本要素模板,则所述待审核文本的文本要素不完整。
由以上技术方案可知,本申请实施例提供了一种文本要素完整性审核方法。该方法包括:获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,获取段落信息和文本要素模板的综合匹配度,以进一步确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。
下面是本申请的装置实施例,提供了一种文本要素完整性审核装置,该文本要素完整性审核装置可用于执行本申请的方法实施例,有关本申请装置实施例中未公开的技术细节,请参照本申请的方法实施例。
图7是本申请实施例提供的一种文本要素完整性审核装置的结构示意图。如图7所示,该装置包括:
获取模块601,用于获取要素审核模板,所述要素审核模板包含多个文本要素;
解析模块602,用于对待审核文本进行段落解析,得到每个段落的概要内容;
计算模块603,用于对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;
第一分析模块604,用于根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;
第二分析模块605,用于根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
由以上技术方案可知,本申请实施例提供了一种文本要素完整性审核装置。该装置用于获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,获取段落信息和文本要素模板的综合匹配度,以进一步确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本要素完整性审核方法,其特征在于,包括:
获取要素审核模板,所述要素审核模板包含多个文本要素模板;
对待审核文本进行段落解析,得到每个段落的概要内容;
对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;
根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;
根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
2.根据权利要求1所述的方法,其特征在于,所述对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度,包括:
对于每个所述概要内容,根据词形匹配,分别计算其与各个所述文本要素模板的词形匹配度,以及,根据语义匹配,分别计算其与各个所述文本要素模板的语义匹配度;
将所述词形匹配度和所述语义匹配度加权求和,得到所述综合匹配度。
3.根据权利要求2所述的方法,其特征在于,所述文本要素模板包含至少一个要素实例,所述要素实例包含关键词实例、模板实例和句子实例中的一种或多种。
4.根据权利要求3所述的方法,其特征在于,所述词形匹配度使用以下公式计算得到:
tesi词形=Sim词形(title,Elementi)
tcsi词形=max(Sim词形(title,Elementij))
其中,title表示概要内容;Elementi表示所述要素审核模板中的第i个文本要素模板,i为大于或者等于1的正整数;Elementij表示所述第i个文本要素模板对应的第j个要素实例,j为大于或者等于1的正整数;Sim词形(title,Elementi)为概要内容和所述要素审核模板中第i个文本要素模板的第一词形相似度;Sim词形(title,Elementij)为概要内容和所述要素审核模板对应的第j个要素实例的第二词形相似度;max为取结果最大值;Score词形为所述词形匹配度。
5.根据权利要求3所述的方法,其特征在于,
所述文本要素模板包括一级要素和二级要素;
所述综合匹配度包括所述概要内容和所述一级要素的第一综合匹配度,以及,所述概要内容和所述二级要素的第二综合匹配度。
6.根据权利要求5所述的方法,其特征在于,所述根据综合匹配度确定每个所述概要内容匹配的目标文本要素模板,包括:
当所述第一综合匹配度大于所述第二综合匹配度时,所述概要内容与所述目标文本要素模板的一级要素匹配;
当所述第一综合匹配度小于或者等于所述第二综合匹配度时,判断所述第二综合匹配度对应的tesi词形和tcsi词形的大小;
如果tesi词形大于或者等于tcsi词形,所述概要内容与所述目标文本要素模板的二级要素匹配;
如果tesi词形小于tcsi词形,所述概要内容不与任何文本要素模板匹配。
7.根据权利要求4所述的方法,其特征在于,所述第一词形相似度通过以下步骤计算得到,包括:
将所述概要内容和所述文本要素模板中相同词的数量,减去预设的词间隔惩罚之后,除以所述文本要素模板中词的总数量,得到所述概要内容与所述文本要素模板的第一词相似度;
将所述概要内容和所述文本要素模板中相同字符的长度,除以所述文本要素模板中字符的总长度,得到所述概要内容与所述文本要素模板的第一字符相似度;
将所述第一词相似度和所述第一字符相似度的平均值作为所述第一词形相似度。
8.根据权利要求4所述的方法,其特征在于,所述第二词形相似度通过以下步骤计算得到,包括:
将所述概要内容和所述要素实例中相同词的数量,减去预设的词间隔惩罚之后,除以所述要素实例中词的总数量,得到所述概要内容与所述要素实例的第二词相似度;
将所述概要内容和所述要素实例中相同字符的长度,除以所述要素实例中字符的总长度,得到所述概要内容与所述要素实例的第二字符相似度;
将所述第二词相似度和所述第二字符相似度的平均值作为所述第二词形相似度。
9.根据权利要求1所述的方法,其特征在于,所述文本要素模板包括必须文本要素模板和非必须文本要素模板,所述根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整,包括:
如果各个所述概要内容匹配到的目标文本要素模板包含了全部所述必须文本要素模板,则所述待审核文本的文本要素完整。
10.一种文本要素完整性审核装置,其特征在于,包括:
获取模块,用于获取要素审核模板,所述要素审核模板包含多个文本要素;
解析模块,用于对待审核文本进行段落解析,得到每个段落的概要内容;
计算模块,用于对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;
第一分析模块,用于根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;
第二分析模块,用于根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722356.9A CN110442872B (zh) | 2019-08-06 | 2019-08-06 | 一种文本要素完整性审核方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722356.9A CN110442872B (zh) | 2019-08-06 | 2019-08-06 | 一种文本要素完整性审核方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442872A CN110442872A (zh) | 2019-11-12 |
CN110442872B true CN110442872B (zh) | 2022-12-16 |
Family
ID=68433539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910722356.9A Active CN110442872B (zh) | 2019-08-06 | 2019-08-06 | 一种文本要素完整性审核方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442872B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126045A (zh) * | 2019-11-25 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种文本纠错方法和装置 |
CN113806471A (zh) * | 2020-06-17 | 2021-12-17 | 广东博智林机器人有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
CN112001163B (zh) * | 2020-09-03 | 2024-01-30 | 深圳证券信息有限公司 | 一种文件完整性的检测方法、系统、电子设备及存储介质 |
CN113792155B (zh) * | 2021-08-30 | 2022-12-09 | 北京百度网讯科技有限公司 | 基于知识图谱的文本校验方法、装置、电子设备和介质 |
CN114970491B (zh) * | 2022-08-02 | 2022-10-04 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
CN116151193B (zh) * | 2023-04-13 | 2023-10-24 | 北京瀚博网络科技有限公司 | 基于大数据和数字化工厂的数据管理方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1460562A1 (en) * | 2002-12-23 | 2004-09-22 | Definiens AG | Computerized method and system for searching for text passages from text documents |
CN108256539A (zh) * | 2016-12-28 | 2018-07-06 | 北京智能管家科技有限公司 | 基于语义匹配的人机交互方法、交互系统及智能故事机 |
CN109447105B (zh) * | 2018-09-10 | 2024-06-28 | 平安科技(深圳)有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN109271489B (zh) * | 2018-10-25 | 2020-12-15 | 第四范式(北京)技术有限公司 | 一种文本检测方法及装置 |
CN109597994B (zh) * | 2018-12-04 | 2023-06-06 | 挖财网络技术有限公司 | 短文本问题语义匹配方法和系统 |
CN110047466B (zh) * | 2019-04-16 | 2021-04-13 | 深圳市数字星河科技有限公司 | 一种开放性创建语音朗读标准参考模型的方法 |
-
2019
- 2019-08-06 CN CN201910722356.9A patent/CN110442872B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110442872A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442872B (zh) | 一种文本要素完整性审核方法及装置 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN109101489B (zh) | 一种文本自动摘要方法、装置及一种电子设备 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
US11023503B2 (en) | Suggesting text in an electronic document | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
Lau et al. | Automatic domain ontology extraction for context-sensitive opinion mining | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN113590945B (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN114548321A (zh) | 基于对比学习的自监督舆情评论观点对象分类方法 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115329765A (zh) | 识别上市企业风险的方法、装置、电子设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Wang | Research on the art value and application of art creation based on the emotion analysis of art | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
Ma et al. | I run as fast as a rabbit, can you? A Multilingual Simile Dialogue Dataset | |
CN111178038B (zh) | 一种基于潜在语义分析的文档相似度识别方法及装置 | |
CN114625960A (zh) | 线上考评方法、装置、电子设备及存储介质 | |
Liu et al. | Beyond surface similarity: Detecting subtle semantic shifts in financial narratives | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co.,Ltd. Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |