CN112699658B - 文本比对方法及相关装置 - Google Patents
文本比对方法及相关装置 Download PDFInfo
- Publication number
- CN112699658B CN112699658B CN202011627500.XA CN202011627500A CN112699658B CN 112699658 B CN112699658 B CN 112699658B CN 202011627500 A CN202011627500 A CN 202011627500A CN 112699658 B CN112699658 B CN 112699658B
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- label
- same
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 7
- 238000002864 sequence alignment Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本比对方法及相关装置,所述文本比对方法包括:对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落之间相互连接;利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;计算每个所述匹配段落对内的差异点,以获得文本比对结果。通过上述方式,本申请能够降低误匹配的情况。
Description
技术领域
本申请属于文本比对技术领域,具体涉及一种文本比对方法及相关装置。
背景技术
不管是在金融还是办公领域,都涉及到对商业文本、办公文本(包括docx文本、pdf文本和扫描件等)的比对,以便于定位和发现两份文本之间的差异,节省人工逐字比对的工作量,减少因为疏漏而导致的影响。
传统的比对算法一般是直接进行字面上的比较,不会结合段落及其上下文的语义表示,因此当出现两个比较相似的段落时,可能导致错误的匹配。
发明内容
本申请提供一种文本比对方法及相关装置,以解决上下文段落内容相似时容易出现误匹配的技术问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本比对方法,包括:对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落所对应的段落节点之间相互连接;利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;计算每个所述匹配段落对内的差异点,以获得文本比对结果。
其中,所述对基准文本和对比文本分别进行段落检测的步骤,包括:对所述基准文本和所述对比文本分别构建原始段落图,其中,所述基准文本以及所述对比文本中的每个段落和章节标题对应于各自的所述原始段落图中的一个节点,且每个段落节点与其所属的章节标题节点之间相互连接,每个所述章节标题节点与上一级和同级的所述章节标题节点之间相互连接;在同一个所述原始段落图中,在相似度超过预设的相似度阈值的段落所对应的段落节点之间建立相互连接,以形成所述段落图。
其中,所述在同一个所述原始段落图中,在相似度超过阈值的段落所对应的段落节点之间建立相互连接的步骤之前,包括:基于文本词袋模型获得同一个所述原始段落图中的同一所述章节标题节点下以及不同所述章节标题节点下的各所述段落之间的相似度。
其中,所述特征表示为所述段落的句向量编码表示和位置特征编码表示的融合结果,其中所述句向量编码表示用于表征所述段落的文本特征,所述位置特征编码表示用于表征所述段落所对应的段落节点在所述段落图中的位置特征。
其中,所述计算每个所述匹配段落对内的差异点的步骤,包括:利用训练后的序列标注模型获得每个所述匹配段落对内的所述段落的标签位置和非标签位置;将所述非标签位置处的原始文本保持,将所述标签位置处的原始文本重新表示为字符长度为一的替换文本,其中所述标签位置的原始文本不同,则所述替换文本不同;利用序列比对算法获得处理后的所述匹配段落对的得分矩阵;根据所述得分矩阵获得所述匹配段落对内的差异点。
其中,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本相同,且相同的所述文本位于非标签位置,则根据所述相同的文本与最相邻的所述标签位置的距离为所述相同的文本分配不同的得分调整权重,其中所述距离越小,所述得分调整权重越大。
其中,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本相同,则根据所述相同的文本处于所述标签位置还是所述非标签位置为所述相同的文本分配不同的得分调整权重,其中处于所述非标签位置时的所述得分调整权重大于处于所述非标签位置时的所述得分调整权重。
其中,所述利用训练后的序列标注模型获得每个所述匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括:获取所述标签位置的标签类型;所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本均位于所述标签位置,则根据所述文本是否具有相同的所述标签类型为所述文本分配不同的得分调整权重,其中所述标签类型相同时的所述得分调整权重大于所述标签类型不同时的所述得分调整权重。
其中,所述利用训练后的序列标注模型获得每个所述匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括:获取所述标签位置的标签类型;
所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,所述相同的文本与最相邻的所述标签位置的距离小于或等于阈值,则对应的得分调整权重为第一数值S1;若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,所述相同的文本与最相邻的所述标签位置的距离大于阈值,则对应的得分调整权重为第二数值S2;若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于标签位置,所述相同的文本对应的标签类型相同,则对应的得分调整权重为第三数值S3;若所述得分矩阵中横纵位置对应的文本不同,且不同的文本位于标签位置,所述不同的文本对应的标签类型不同,则对应的得分调整权重为第四数值S4;其他剩余情形对应的得分调整权重为第五数值S5;其中,S1>S2>S3>S4>S5。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种文本对比装置,包括处理器和存储器,其中,所述处理器和所述存储器耦接,用于实现上述任一实施例中所述的文本对比方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种具有存储功能的装置,其上存储有程序数据,所述程序数据能够被处理器执行以实现上述任一实施例中所述的文本对比方法。
区别于现有技术情况,本申请的有益效果是:本申请会对基准文本和对比文本分别构建对应的段落图,且在同一段落图中,相似度超过预设的相似度阈值的段落之间相互连接,该设计方式有助于相似段落之间可以进行信息的有效传递,以便于后续根据段落图和神经网络模型获得的各个段落的特征表示较为准确;进一步根据该特征表示获得基准文本和对比文本之间的匹配段落的准确性较高,降低误匹配的情况。
此外,本申请在获得匹配的段落对内的差异点的过程中,在构建得分矩阵时,针对不同的情况设置不同的得分调整权重,以使得匹配的段落对中非标签位置(即非动态改变区域)优先对齐,将未匹配上的标签位置(即动态改变区域,例如,下划线区域、金额、人名、地名、日期等)合并为修改项,从而使得人在阅读时可以快速关注到标签位置的修改内容。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本邻域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本申请文本比对方法一实施方式的流程示意图;
图2为图1中步骤S101对应的一实施方式的流程示意图;
图3为段落图一实施方式的结构示意图;
图4为图1中步骤S104对应的一实施方式的流程示意图;
图5为本申请文本比对装置一实施方式的结构示意图;
图6为本申请具有存储功能的装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本邻域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请文本比对方法一实施方式的流程示意图,该文本比对方法具体包括:
S101:对基准文本和对比文本分别进行段落检测,以分别构建与基准文本和对比文本对应的段落图;其中在同一段落图中,相似度超过预设的相似度阈值的段落之间相互连接。
具体地,请参阅图2和图3,图2为图1中步骤S101对应的一实施方式的流程示意图,图3为段落图一实施方式的结构示意图。上述步骤S101的具体实现过程可以为:
S201:对基准文本和对比文本分别构建原始段落图,其中,基准文本以及对比文本中的每个段落和章节标题对应于各自的原始段落图中的一个节点,且每个段落节点与其所属的章节标题节点之间相互连接,每个章节标题节点与上一级和同级的章节标题节点之间相互连接。
例如,如图3中所示,该段落图包含一个一级章节标题节点、位于一级章节标题节点下的两个二级章节标题节点、位于每个二级章节标题节点下的多个段落节点。其中,两个二级章节标题节点之间相互连接,每个二级章节标题节点还与一级章节标题节点相互连接;每个段落节点分别与对应的二级章节标题节点相互连接。
S202:在同一个原始段落图中,在相似度超过预设的相似度阈值的段落所对应的段落节点之间建立相互连接,以形成段落图。
例如,如图3中粗实线所示,位于同一章节标题下的相似度超过预设的相似度阈值的段落节点之间相互连接,位于不同章节标题下的相似度超过预设的相似度阈值的段落节点之间也相互连接。
而为了使相似度超过预设的相似度阈值的段落之间建立连接,在上述步骤S202之前还需要获得各个段落对之间的相似度,具体实现过程可以为:基于文本词袋模型获得同一个原始段落图中的同一章节标题节点下以及不同章节标题节点下的各段落之间的相似度。即针对图3中的每个段落节点,需要分别计算其与同一章节标题节点下的其他各个段落之间的相似度、以及与另一章节标题节点下的各个段落之间的相似度。上述利用文本词袋模型获得两个段落之间的相似度的方式较为成熟、且易于实现。当然,在其他实施例中,也可采用其他方式获得相似度,本申请对此不作限定。
此外,上述预设的相似度阈值可以根据基准文本和对比文本所属的应用场景进行设定;例如,该应用场景可以为金融场景,此时基准文本和对比文本可以为票据等;又例如,该应用场景可以为办公场景,此时基准文本和对比文本可以为合同等。可选地,上述相似度阈值可以为0.8等。
S102:利用基准文本和对比文本所对应的段落图以及训练后的神经网络模型分别获得基准文本和对比文本中各段落的特征表示。
具体地,在本实施例中,上述特征表示为段落的句向量编码表示和位置特征编码表示的融合结果;其中,句向量编码表示用于表征段落的文本特征,位置特征编码表示用于表征段落所对应的段落节点在段落图中的位置特征,例如,该段落在其所属章节标题下的第几段,二级章节标题在一级章节标题下的第几节等。而对于总标题节点,可以给一个固定的位置特征编码。
在本实施例中,训练后的神经网络模型可以为图神经网络模型,例如,GCN、GNN、GAT等,本申请对此不作限定。以GCN模型为例,其公式表示为:其中,/>其表示邻接矩阵与单位矩阵的和;/>为其度矩阵;H(l)表示第l层的节点特征。
在上述步骤S102之前,还需要训练神经网络模型,具体过程可以为:A、针对不同的应用场景构建不同的第一训练文本,每个第一训练文本的各个段落均标记有对应的制式类别。例如,以金融场景为例,针对金融场景下不同的票据,将同一制式票据作为一类,包括该制式下不同内容填充的样本(例如,真实的数据样本、伪造数据样本、篡改的数据样本)。这么做有助于对同一制式下的文本更好的段落匹配对齐,同时对不同的制式下文本更好的判断出差异点,对于定制场景下效果比对的提升是非常有效的。B、针对各个应用场景利用对应的多个第一训练文本训练初始神经网络模型,以获得对应的训练后的神经网络模型。在训练过程中,采用有监督训练,且训练的时候给训练文本的每个段落的监督信号都是预测其对应的制式类别。此外,对于第一训练文本同样需要进行构建如上述所提及的段落图的过程,且由于第一训练文本所对应的段落图中相似段落之间也保持连接,利用该对应的段落图进行训练可以使得训练后的神经网络模型可以解决长序列的段落上下文建模问题,同时编码进了文本的层次结构信息。后续利用该训练后的神经网络模型获得基准文本和比对文本的特征表示结果也更为准确。
此外,在进行步骤S102时,可以根据基准文本和对比文本所属的应用场景来选择对应的训练后的神经网络模型,从而可以进一步降低段落间误匹配的概率。
S103:根据特征表示获得基准文本和对比文本之间的匹配段落对。
具体地,在本实施例中,上述步骤S103中在获得匹配段落对的同时,也可获得未匹配的段落。步骤S103的具体实现过程可以为:根据特征表示,运行序列比对算法(例如,Needleman-Wunsch算法等)获得两个文本之间的匹配段落对以及未匹配段落,未匹配段落被判定为增加或删除,具体是增加还是删除可以基于基准文本;例如,若对比文本中存在段落A,但基准文本中并不存在该段落A,则可以将该段落A判定为增加。又例如,若基准文本中存在段落B,但对比文本中并不存在该段落B,则可以将该段落B判定为删除。
S104:计算每个匹配段落对内的差异点,以获得文本比对结果。
具体地,请参阅图4,图4为图1中步骤S104对应的一实施方式的流程示意图,上述步骤S104具体包括:
S301:利用训练后的序列标注模型获得每个匹配段落对内的段落的标签位置和非标签位置。
具体地,在上述步骤S301之前,本申请所提供的文本比对方法还可以包括对初始序列标注模型进行训练,具体训练过程可以为:A、针对不同的应用领域构建不同的第二训练文本,其中,每个第二训练文本包括标签位置和非标签位置,且每个标签位置标记有对应的标签类型。其中,标签位置可以是文本中可动态改变区域,而非标签位置可以是文本中一般不太会改变的区域。例如,标签位置包括下划线标注的区域、人名区域、地名区域、日期区域、金额区域中至少一种,对应的标签类型包括人名标签、地名标签、日期标签、金额标签中至少一种。B、针对各个应用场景利用对应的第一训练文本训练初始序列标注模型,以获得对应的训练后的序列标注模型。
后续在进行步骤S301时,可以根据基准文本和对比文本所属的应用场景来选择对应的训练后的序列标注模型,从而可以更为精确的获得基准文本和对比文本中的标签位置和非标签位置。
S302:将非标签位置处的原始文本保持,将标签位置处的原始文本重新表示为字符长度为一的替换文本,其中,标签位置的原始文本不同,则替换文本不同。
具体地,假设有如下这样一段话:以上条例有效期自2020年01月31日至2022年01月31日,由中国银行发行。其中,日期和具体的银行为标签位置,其余为非标签位置。经过上述步骤S302之后,将变更为:以上条例有效期自[time_1]年[time_2]月[time_3]日至[time_4]年[time_5]月[time_6]日,由[org_1]发行;其中,[time_1]、[time_2]、[time_3]、[time_4]、[time_5]、[time_6]、[org_1]的字符长度均为一。
S303:利用序列比对算法获得处理后的匹配段落对的得分矩阵。
具体地,该序列比对算法可以为Needleman-Wunsch算法(NW算法),具体得分矩阵的构建方式可参见现有技术,具体在此不再说明。由于标签位置的原始文本被替换为字符长度为一的替换文本,则在序列比对算法中“自[time_1]年”对应得分矩阵中的三行三列。
而为了使后续比对时能够使人最先关注到标签位置的修改变化,可以在得分矩阵的构造上约定不同得分的调整权重,使得非标签位置优先对齐,通过这种方式来控制比对序列更好的关注对齐标签位置(即动态改变区域)的上下文,模拟人潜意识的对齐行为。
具体地,得分矩阵行和列分别是两个需要对比的序列的排列,按照从左上到右下的顺序计算每个位点的得分,每个位点的得分与该位置的上面、左边和左上角三个位置的得分相关,用公式表示如下。在本实施例中,可以针对不同的情况,调整下述公式中的s(xi,yi)值。
在一个实施例中,若得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,则根据相同的文本与最相邻的标签位置的距离为相同的文本分配不同的得分调整权重,其中距离越小,得分调整权重越大。另外,假设需要对比的第一序列和第二序列分别排列在得分矩阵中第一行和第一列;上述横纵位置对应的文本分别是指得分矩阵中某个位点所对应的第一行中的文本、以及第一列中的文本。
例如,上述实施例中,得分矩阵中第一位点的横纵位置分别为“年”和“年”,且“年”属于非标签位置;得分矩阵中第二位点的横纵位置分别为“以”和“以”,且“以”也属于非标签位置;由于“年”与最相邻的标签位置之间距离为0个字符,而“以”与最相邻的标签位置之间距离为7个字符,故第一位点的得分调整权重大于第二位点的得分调整权重。上述设计方式可以优先使与标签位置邻近的非标签位置对齐,即可以优先使标签位置邻近的上下文对齐,以模拟阅读者潜意识的对齐行为。
在又一个实施例中,若得分矩阵中横纵位置对应的文本相同,则根据相同的文本处于标签位置还是非标签位置为相同的文本分配不同的得分调整权重,其中处于非标签位置时的得分调整权重大于处于非标签位置时的得分调整权重。
例如,上述实施例中,得分矩阵中第一位点的横纵位置分别为“年”和“年”,且“年”属于非标签位置;得分矩阵中第二位点的横纵位置分别为“[time_1]”和“[time_1]”,且“[time_1]”属于标签位置;故第一位点的得分调整权重大于第二位点的得分调整权重。上述设计方式可以使所有非标签位置先于标签位置对齐,后续可以使得阅读者在阅读时可以快速关注到标签位置的修改内容。
在又一个实施例中,利用训练后的序列标注模型获得每个匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括获取标签位置的标签类型。上述步骤S303具体包括:若得分矩阵中横纵位置对应的文本均位于标签位置,则根据文本是否具有相同的标签类型为文本分配不同的得分调整权重,其中标签类型相同时的得分调整权重大于标签类型不同时的得分调整权重。
例如,上述实施例中,得分矩阵中第一位点的横纵位置分别为[time_1]和[time_1],两者的标签类型相同;得分矩阵中第二位点的横纵位置分别为[time_1]和[org_1],两者的标签类型不同,则第一位点的得分调整权重大于第二位点的得分调整权重。该设计方式可以使得标签类型相同的位置比标签类型不同的位置优先对齐,后续可以使得阅读者在阅读时可以快速关注到同一标签类型的标签位置的修改内容。
在又一个实施例中,还可将上述多种情况进行组合,例如,利用训练后的序列标注模型获得每个匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括获取标签位置的标签类型。上述步骤S303具体包括:
情况一:若得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,相同的文本与最相邻的标签位置的距离小于或等于阈值,则对应的得分调整权重为第一数值S1。具体的,该阈值可以设定为1个字符。例如,上述实施例中,得分矩阵中第一位点的横纵位置分别为“年”和“年”,两者文本相同,且处于非标签位置,“年”与最相邻的标签位置的距离为0个字符,故该第一位点的得分调整权重为S1。
情况二:若得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,相同的文本与最相邻的标签位置的距离大于阈值,则对应的得分调整权重为第二数值S2;例如,上述实施例中,若得分矩阵中第二位点的横纵位置分别为“以”和“以”,两者文本相同,且处于非标签位置,“年”与最相邻的标签位置的距离大于1个字符,故该第二位点的得分调整权重为S2。
情况三:若得分矩阵中横纵位置对应的文本相同,且相同的文本位于标签位置,相同的文本对应的标签类型相同,则对应的得分调整权重为第三数值S3;例如,上述实施例中,若得分矩阵中第三位点的横纵位置分别为“[time_1]”和“[time_1]”,两者文本相同,且处于标签位置,标签类型还相同,故该第三位点的得分调整权重为S3。
情况四:若得分矩阵中横纵位置对应的文本不同,且不同的文本均位于标签位置,不同的文本对应的标签类型不同,则对应的得分调整权重为第四数值S4;例如,上述实施例中,若得分矩阵中第四位点的横纵位置分别为“[time_1]”和“[org_1]”,两者文本不同,且均处于标签位置,但标签类型不同,故该第四位点的得分调整权重为S4。
情况五:其他剩余情形对应的得分调整权重为第五数值S5。例如,上述实施例中,若得分矩阵中第五位点的横纵位置分别为[time_1]和[time_2],两者文本不同,且都属于标签位置,对应的标签类别还相同,故该第五位点的得分调整权重为S5。当然,还有其他剩余情形,在此不再一一举例。
其中,上述各个得分调整权重满足如下关系:S1>S2>S3>S4>S5。该设计方式同样具有上述提及的有益效果。
S304:根据得分矩阵获得匹配段落对内的差异点。
具体地,上述步骤S304的具体实现过程可以参见现有技术,例如,可以依次经过回溯、序列反转等过程获得匹配段落对内的差异点。后续可以将该差异点作为修改项,进而获得文本比对结果。
在一个具体的应用场景中,当基准文本为:自2020年01月31日至2022年01月31日,对应的对比文本为:自2018年01月31日至2020年01月31日。现有技术中所采用的方式比对结果可能为:自2018年01月31日至2020年01月31日而采用本申请所提供的方式比对结果为:自2018/>年01月31日至2020/>年01月31日。很明显,通过本申请所提供的方式可以使用户在阅读时较为快速的注意到某些动态区域修改的内容,该修改模式比较符合人的阅读习惯。
请参阅图5,图5为本申请文本比对装置一实施方式的结构示意图,该文本比对装置包括相互耦接的处理器20和存储器22,用于相互配合以实现上述任一实施例中所述的文本比对方法。在本实施例中,处理器20还可以称为CPU(Central Processing Unit,中央处理单元)。处理器20可能是一种集成电路芯片,具有信号的处理能力。处理器20还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
此外,本申请所提供的文本比对装置还可包括其他结构,例如,常见的显示屏、通信电路等,本申请对此不作过多说明。
请参阅图6,图6为本申请具有存储功能的装置一实施方式的结构示意图。该具有存储功能的装置30上存储有程序数据300,程序数据300能够被处理器执行以实现上述任一实施例中所述的文本比对方法。其中,该程序数据300可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术邻域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本比对方法,其特征在于,包括:
对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落之间相互连接;
利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;
根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;
计算每个所述匹配段落对内的差异点,以获得文本比对结果;
其中,所述对基准文本和对比文本分别进行段落检测的步骤,包括:
对所述基准文本和所述对比文本分别构建原始段落图,其中,所述基准文本以及所述对比文本中的每个段落和章节标题对应于各自的所述原始段落图中的一个节点,且每个段落节点与其所属的章节标题节点之间相互连接,每个所述章节标题节点与上一级和同级的所述章节标题节点之间相互连接;
在同一个所述原始段落图中,在相似度超过预设的相似度阈值的段落所对应的段落节点之间建立相互连接,以形成所述段落图。
2.根据权利要求1所述的文本比对方法,其特征在于,所述在同一个所述原始段落图中,在相似度超过阈值的段落所对应的段落节点之间建立相互连接的步骤之前,包括:
基于文本词袋模型获得同一个所述原始段落图中的同一所述章节标题节点下以及不同所述章节标题节点下的各所述段落之间的相似度。
3.根据权利要求1所述的文本比对方法,其特征在于,
所述特征表示为所述段落的句向量编码表示和位置特征编码表示的融合结果,其中所述句向量编码表示用于表征所述段落的文本特征,所述位置特征编码表示用于表征所述段落所对应的段落节点在所述段落图中的位置特征。
4.根据权利要求1所述的文本比对方法,其特征在于,所述计算每个所述匹配段落对内的差异点的步骤,包括:
利用训练后的序列标注模型获得每个所述匹配段落对内的所述段落的标签位置和非标签位置;
将所述非标签位置处的原始文本保持,将所述标签位置处的原始文本重新表示为字符长度为一的替换文本,其中所述标签位置的原始文本不同,则所述替换文本不同;
利用序列比对算法获得处理后的所述匹配段落对的得分矩阵;
根据所述得分矩阵获得所述匹配段落对内的差异点。
5.根据权利要求4所述的文本比对方法,其特征在于,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:
若所述得分矩阵中横纵位置对应的文本相同,且相同的所述文本位于非标签位置,则根据所述相同的文本与最相邻的所述标签位置的距离为所述相同的文本分配不同的得分调整权重,其中所述距离越小,所述得分调整权重越大。
6.根据权利要求4所述的文本比对方法,其特征在于,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:
若所述得分矩阵中横纵位置对应的文本相同,则根据所述相同的文本处于所述标签位置还是所述非标签位置为所述相同的文本分配不同的得分调整权重,其中处于所述非标签位置时的所述得分调整权重大于处于所述非标签位置时的所述得分调整权重。
7.根据权利要求4所述的文本比对方法,其特征在于,所述利用训练后的序列标注模型获得每个所述匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括:获取所述标签位置的标签类型;
所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本均位于所述标签位置,则根据所述文本是否具有相同的所述标签类型为所述文本分配不同的得分调整权重,其中所述标签类型相同时的所述得分调整权重大于所述标签类型不同时的所述得分调整权重。
8.根据权利要求4所述的文本比对方法,其特征在于,所述利用训练后的序列标注模型获得每个所述匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括:获取所述标签位置的标签类型;
所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:
若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,所述相同的文本与最相邻的所述标签位置的距离小于或等于阈值,则对应的得分调整权重为第一数值S1;
若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于非标签位置,所述相同的文本与最相邻的所述标签位置的距离大于阈值,则对应的得分调整权重为第二数值S2;
若所述得分矩阵中横纵位置对应的文本相同,且相同的文本位于标签位置,所述相同的文本对应的标签类型相同,则对应的得分调整权重为第三数值S3;
若所述得分矩阵中横纵位置对应的文本不同,且不同的文本位于标签位置,所述不同的文本对应的标签类型不同,则对应的得分调整权重为第四数值S4;
其他剩余情形对应的得分调整权重为第五数值S5;
其中,S1>S2>S3>S4>S5。
9.一种文本对比装置,其特征在于,包括:
处理器和存储器,其中,所述处理器与所述存储器耦接,用于实现权利要求1-8中任一项所述的文本比对方法。
10.一种具有存储功能的装置,其特征在于,其上存储有程序数据,所述程序数据能够被处理器执行以实现如权利要求1-8中任一项所述的文本比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011627500.XA CN112699658B (zh) | 2020-12-31 | 2020-12-31 | 文本比对方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011627500.XA CN112699658B (zh) | 2020-12-31 | 2020-12-31 | 文本比对方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699658A CN112699658A (zh) | 2021-04-23 |
CN112699658B true CN112699658B (zh) | 2024-05-28 |
Family
ID=75513359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011627500.XA Active CN112699658B (zh) | 2020-12-31 | 2020-12-31 | 文本比对方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699658B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360603B (zh) * | 2021-06-22 | 2023-09-05 | 杭州东方通信软件技术有限公司 | 一种合同相似性及合规性检测方法及装置 |
CN115098629B (zh) * | 2022-06-22 | 2024-09-17 | 马上消费金融股份有限公司 | 文件处理方法、装置、服务器及可读存储介质 |
CN115169321B (zh) * | 2022-09-06 | 2022-12-23 | 北京国电通网络技术有限公司 | 物流内容文本核对方法、装置、电子设备和计算机介质 |
CN115545001B (zh) * | 2022-11-29 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种文本匹配方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102146A1 (en) * | 2007-02-23 | 2008-08-28 | Assessment21 Ltd | Assessment method |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
CN108268884A (zh) * | 2016-12-31 | 2018-07-10 | 方正国际软件(北京)有限公司 | 一种文档对比方法及装置 |
CN109040081A (zh) * | 2018-08-10 | 2018-12-18 | 哈尔滨工业大学(威海) | 一种基于bwt的协议字段逆向分析系统及方法 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN111144416A (zh) * | 2019-12-25 | 2020-05-12 | 中国联合网络通信集团有限公司 | 信息处理方法和装置 |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN111581379A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN111598239A (zh) * | 2020-07-27 | 2020-08-28 | 江苏联著实业股份有限公司 | 一种基于图神经网络提取文章的过程体系的方法和装置 |
CN111666753A (zh) * | 2020-05-11 | 2020-09-15 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11941344B2 (en) * | 2016-09-29 | 2024-03-26 | Dropbox, Inc. | Document differences analysis and presentation |
-
2020
- 2020-12-31 CN CN202011627500.XA patent/CN112699658B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102146A1 (en) * | 2007-02-23 | 2008-08-28 | Assessment21 Ltd | Assessment method |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
CN108268884A (zh) * | 2016-12-31 | 2018-07-10 | 方正国际软件(北京)有限公司 | 一种文档对比方法及装置 |
CN109040081A (zh) * | 2018-08-10 | 2018-12-18 | 哈尔滨工业大学(威海) | 一种基于bwt的协议字段逆向分析系统及方法 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN111144416A (zh) * | 2019-12-25 | 2020-05-12 | 中国联合网络通信集团有限公司 | 信息处理方法和装置 |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN111581379A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN111666753A (zh) * | 2020-05-11 | 2020-09-15 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
CN111598239A (zh) * | 2020-07-27 | 2020-08-28 | 江苏联著实业股份有限公司 | 一种基于图神经网络提取文章的过程体系的方法和装置 |
Non-Patent Citations (2)
Title |
---|
Graph Convolution for Multimodal Information Extraction from Visually Rich Documents;Xiaojing Liu et al.;arXi;第1-8页 * |
Matching Long Text Documents via Graph Convolutional Networks;Bang Liu et al.;arXiv;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699658A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699658B (zh) | 文本比对方法及相关装置 | |
US20220405480A1 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN111159367B (zh) | 一种信息处理方法及相关设备 | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
US20130282727A1 (en) | Unexpectedness determination system, unexpectedness determination method and program | |
CN112131261B (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN112966117A (zh) | 实体链接方法 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN110990627A (zh) | 一种知识图谱构建的方法、装置、电子设备及介质 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
CN110309281A (zh) | 基于知识图谱的问答方法、装置、计算机设备及存储介质 | |
CN114663002A (zh) | 一种自动化匹配绩效考核指标的方法及设备 | |
CN116522164B (zh) | 一种基于用户采集信息的用户匹配方法、装置及存储介质 | |
CN117807321A (zh) | 卡片推荐方法、装置、电子设备及存储介质 | |
CN113220737A (zh) | 一种数据推荐方法、装置、电子设备及存储介质 | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN113486649A (zh) | 文本评论的生成方法以及电子设备 | |
CN116127386B (zh) | 一种样本分类方法、装置、设备和计算机可读存储介质 | |
KR102536290B1 (ko) | 1차 콘텐츠의 댓글 분석 기반 사용자의 니즈가 반영된 2차 콘텐츠 예측방법 | |
CN114547273B (zh) | 问题回答方法及相关装置、电子设备、存储介质 | |
CN112256970B (zh) | 一种新闻文本推送方法、装置、设备及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |