CN113254598B - 文档比对方法、装置、服务器、介质及产品 - Google Patents
文档比对方法、装置、服务器、介质及产品 Download PDFInfo
- Publication number
- CN113254598B CN113254598B CN202110698798.1A CN202110698798A CN113254598B CN 113254598 B CN113254598 B CN 113254598B CN 202110698798 A CN202110698798 A CN 202110698798A CN 113254598 B CN113254598 B CN 113254598B
- Authority
- CN
- China
- Prior art keywords
- document
- triplet
- text content
- entity
- difference information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 12
- 239000003795 chemical substances by application Substances 0.000 description 16
- 239000000047 product Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了文档比对方法、装置、服务器、介质及产品,在对第一文档和第二文档比对的过程中,得到第一文档与第二文档均包含的相同的第一标题字段,比较第一文档中第一标题字段对应的第一正文内容以及第二文档中第一标题字段对应的第二正文内容,以得到第一差异信息;即通过第一文档与第二文档均包含的相同的第一标题字段定位到第一文档和第二文档中需要比对的部分,所以得到的第一差异信息更加准确;还可以确定第二差异信息,即通过第一文档以及第二文档中一个文档包含且另一个文档不包含的第二标题字段定位到第二标题字段对应的第三正文内容,由于不包含第二标题字段的文档,也不会包含第三正文内容,即第三正文内容均为差异信息。
Description
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及文档比对方法、装置、服务器、介质及产品。
背景技术
文档比对应用于很多场景,例如,文档查重、文档修改痕迹标注。目前的文档比对方法得到的文档之间的差异信息不准确。
发明内容
有鉴于此,本申请提供了一种文档比对方法、装置、服务器、介质及产品,以至少解决目前的文档比对方法得到的文档之间的差异信息不准确的问题。
为实现上述目的,本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种文档比对方法,包括:
若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
根据本公开实施例的第二方面,提供一种文档比对装置,包括:
检测模块,用于若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
第一获取模块,用于若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较模块,用于比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
第一确定模块,用于确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
控制模块,用于控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的文档比对方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述服务器能够执行如第一方面所述的文档比对方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,可直接加载到计算机的内部存储器,所述存储器为上述第三方面所述服务器包含的存储器中,并含有软件代码,所述计算机程序经由计算机载入并执行后能够实现如第一方面所述的文档比对方法。
经由上述的技术方案可知,本申请提供的文档比对方法中,是基于文档包括标题字段以及标题字段对应的正文内容为前提的,在对第一文档和第二文档比对的过程中,得到第一文档与第二文档均包含的相同的第一标题字段,比较第一文档中第一标题字段对应的第一正文内容以及第二文档中第一标题字段对应的第二正文内容,以得到第一文档与第二文档分别对应的第一差异信息;即通过第一文档与第二文档均包含的相同的第一标题字段定位到第一文档和第二文档中需要比对的部分,即第一正文内容和第二正文内容,与相关技术中从头开始比对第一文档和第二文档相比,得到的第一差异信息更加准确;还可以确定第二差异信息,第二差异信息为第一文档以及第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容,由于不包含第二标题字段的文档,也不会包含第三正文内容,所以第三正文内容均为差异信息。通过第二标题字段定位到第三正文内容,所以得到的第二差异信息更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为相关技术中两篇对比文件的比对结果示意图;
图2为本申请实施例涉及的硬件架构的结构图;
图3为本申请实施例提供的文档比对方法的流程图;
图4为采用本申请实施例提供的文档比对方法得到的差异信息的示意图;
图5为本申请实施例提供的知识图谱的结构图;
图6为采用本申请实施例提供的文档比对方法得到的比对结果的示意图;
图7为本申请实施例提供的文档比对装置的结构图;
图8是根据一示例性实施例示出的一种用于服务器的装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了文档比对方法、装置、电子设备、介质及产品,在介绍本申请实施例提供的技术方案之前,先对本申请实施例涉及的相关技术及硬件架构进行介绍。
首先对本申请实施例涉及的相关技术进行介绍。
相关技术中,在将多篇文档进行比对的过程中,是按照文档从头开始逐字比对的,若文字不同,则认为不相同。
相关技术中的文档比对方法得到的多篇文档的差异信息不准确,下面以多篇文档为两篇文档为例对不准确的原因进行说明。
两篇文档中相似的内容在文档中的位置并不相同,例如文档A依次包括内容A1以及内容A2,文档B依次包括内容B1以及内容B2,假设内容A2与内容B1相同,内容A1和内容B2相同,由于是按照文档从头开始逐字比对的,在比对文档A和文档B时,是将内容A1与内容B1进行比对,将内容A2与内容B2进行比对,那么,会认为文档A和文档B的内容均不相同,但实际上,文档A和文档B的内容是相同的,只是包含的内容的顺序不同。
为了本领域技术人员更加理解上述原因,下面举例进行说明,如图1所示,为相关技术中两篇对比文件的比对结果示意图。
假设文档A包括以下内容:
假设,文档B包括以下内容:
从文本A和文本B可以得知,文本B中有一段内容与文档A完全相同,即:"文本1":{"文本内容":"草船借箭哪些地方可以借鉴","文本格式":"宋体"}。
但是由于是将文档A和文档B从头开始比对,那么可以得到如图1所示的差异信息。图1中用填充有网格的方形区域框出差异信息。而实际上,文档A和文档B的差异信息为:"文本2":{"文本内容":"如上图所示","文本格式":"宋体"},所以相关技术中文档比对方法得到的多篇文档的差异信息不准确。
其次,对本申请实施例涉及的硬件架构进行说明。
如图2所示,为本申请实施例涉及的硬件架构的结构图,该硬件架构包括:电子设备21、服务器22以及知识库23。
示例性的,电子设备21可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
示例性的,服务器22可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器12可以包括处理器、存储器以及网络接口等。
应注意的是,图2仅仅是一种示例,电子设备的类型可以有多种,不限于图2中的计算机。
示例性的,电子设备21可以通过无线网络或有线网络与服务器22建立连接并通信。
示例性的,知识库23可以通过无线网络或有线网络与服务器22建立连接并通信。
示例性的,用户可以通过电子设备21选择需要比对的多篇文档。电子设备21可以将比对的多篇文档的指令发送至服务器22。电子设备21可以显示服务器22反馈的比对结果。
示例性的,用户可以通过电子设备21运行的客户端的用户界面选择需要比对的多篇文档,该客户端可以为应用程序客户端或网页版客户端。
服务器22用于执行本申请实施例提供的文档比对方法。
示例性的,用户能够选择的多篇文档存储在知识库23中。
示例性的,存储知识点的知识库23可以位于服务器22,或者,知识库23独立于服务器22。
本领域技术人员应能理解上述电子设备和服务器仅为举例,其他现有的或今后可能出现的电子设备或服务器如可适用于本公开,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
下面结合相关技术以及上述硬件架构对本申请实施例提供的文档比对方法进行说明。
如图3所示,为本申请实施例提供的文档比对方法的流程图,该方法可以应用于服务器22,该方法在实施过程中包括以下步骤S31至步骤S35。
步骤S31:若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型。
属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合。
示例性的,可以预先设置各文档类型对应的标题字段集合,不同领域中各文档类型对应的标题字段集合包含的标题字段不同。
下面以ETC(Electronic Toll Collection,电子不停车收费)领域下各文档类型为例对标题字段集合包含的标题字段进行说明。
ECT领域对应的文档类型包括但不限于:ETC介绍文档类型,ETC办理与安装流程文档类型,ETC充值与代扣文档类型,ETC信息查询及变更文档类型,ETC冻结、挂失、解挂文档类型,ETC维修、更换、补换、延期文档类型,ETC黑名单文档类型,ETC异常处理文档类型等等。
示例性的,ETC介绍文档类型对应的标题字段集合包括:介绍及优惠政策、名词解释、咨询电话、产品功能、产品优势;ETC办理与安装流程文档类型对应的标题字段集合包括:支持的账户、办理网点、办理对象、办理要求、办理条件、办理资料、办理时间、办理渠道、代办手续、办理流程、设备(邮寄、申领、激活)、安装流程、微信ETC助手业务(微信—我—支付—ETC助手)、常见问题、授信额度、其他注意事项;ETC充值与代扣文档类型对应的标题字段集合包括:保证金、充值、圈存、扣款、代扣、欠费补缴、ETC通行扣费相关问题备答口径、金额有争议处理。
其他文档类型对应的标题字段集合包含的标题字段可以基于实际情况而定,本申请实施例不进行限定。
示例性的,属于同一文档类型的不同文档包含的标题字段可以相同,可以不同,但是都属于该文档类型对应的标题字段集合。例如属于ETC介绍文档类型的文档A包括:介绍及优惠政策、名词解释;属于ETC介绍文档类型的文档B包括:咨询电话、产品功能;文档A和文档B包含的标题字段不同;或者,属于ETC介绍文档类型的文档A包括:介绍及优惠政策、名词解释;属于ETC介绍文档类型的文档B包括:介绍及优惠政策、产品功能;文档A和文档B包含的标题字段部分相同;或者,属于ETC介绍文档类型的文档A包括:介绍及优惠政策、名词解释;属于ETC介绍文档类型的文档B包括:介绍及优惠政策、名词解释;文档A和文档B包含的标题字段完全相同。
在一可选实现方式中,文档包含的标题字段与标题字段对应的正文内容的大纲级别不同,例如,文档包含的标题字段的大纲级别为一级、二级、三级等等,文档包含的标题字段对应的正文内容的大纲级别为正文文本。示例性的,从文档(文档为第一文档或第二文档)中获得标题字段的方法包括:基于文档(文档为第一文档或第二文档)包含的内容的大纲级别,从文档中获得标题字段。
在一可选实现方式中,文档(文档为第一文档或第二文档)的结构可以包括:业务目录、知识正文、图谱标签、个性标签、管理属性;知识正文包括标题字段以及与标题字段对应的正文内容;示例性的,从文档(文档为第一文档或第二文档)中获得标题字段的方法包括:可以基于文档的结构从文档中获得标题字段。
文档表示方式有多种,本申请实施例提供但不限于:链表、数组、结构体、表格中任一种。下面以表格为例对文档的结构进行举例说明。
示例性的,文档的结构如表1所示。
表1文档的结构
示例性的,知识内容与知识标题相对应,例如,与知识标题“中银富登个人通知存款的存款期限”对应的正文内容可以为:个人通知存款不论实际存期多长,按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款,7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款,客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户,但需要客户在每个周期(7天)都来柜台办理约定转存的业务。
示例性的,文档包含的业务目录可以包括一级或多级目录,表1中是以业务目录包括两级目录为例进行说明的。
示例性的,文档包含的业务目录用于指示文档包含的知识正文的存储路径。示例性的,文档包含的业务目录即为存储文档的存储设备的名称和/或文件夹的名称。
示例性的,标题字段,可以是基于自然语言处理技术从正文内容文中得到的;示例性的,标题字段可以是文档包含的字段。
示例性的,文档包含的图谱标签是指正文内容的属性信息。示例性的,图谱标签包括:产品(正文内容的内容描述的产品)、所属银行(正文内容的内容针对哪个分行或哪个总行)、客户类型。示例性的,客户类型包括但不限于:个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。
示例性的,文档包含的个性标签是由人工坐席添加的,人工坐席可以基于自己的对文档的理解,对文档进行标注,例如,表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”,下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的文档。
需要说明的是,有时候人工坐席在查询的时候查询到所需的文档,但是人工坐席对该文档有一些自己的理解,或者对文档有自己的称谓习惯,那么人工坐席可以人为将自己的理解添加到该文档的个性标签中。这样就可以照顾到不同人工坐席的思维习惯,丰富文档的标注,从而加快知识查询的效率以及提升文档查询的准确率。
示例性的,对于同一文档,不同人工坐席标注的个性标签可能不同,可能相同;由于人工坐席在搜索文档之前,需要进行登陆,所以人工坐席的查询语句包括人工坐席的标识,因此,在通过个性标签检索文档的过程中,不会受到其他人工坐席标注的个性标签的影响。
示例性的,文档包含的管理属性是指管理该文档的管理员的信息,例如,管理属性包括管理员所属部门以及管理员所属用户组。
示例性的,若第一文档包含的标题字段属于目标文档类型,且,第二文档包含的标题字段属于目标文档类型,确定第一文档以及第二文档属于同一文档类型。
步骤S32:若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段。
示例性的,本申请实施例中将第一文档与第二文档包含的相同的标题字段称为第一标题字段,第一标题字段的数目可以为一个或多个。
在一可选实现方式中,第一文档包含的第一标题字段在第一文档的位置与第二文档包含的第二标题字段在第二文档的位置相同。
在一可选实现方式中,第一文档包含的第一标题字段在第一文档的位置与第二文档包含的第二标题字段在第二文档的位置不同。
示例性的,本申请实施例提及的文档(第一文档或第二文档)包含标题字段以及与标题字段对应的正文内容;其中,标题字段对应的正文内容是针对标题字段的说明。所以对属于同一文档类型的不同文档进行比较是有意义的。示例性的,属于不同文档类型的文档包含的标题字段不同,若第一文档和第二文档属于不同文档类型,则第一文档和第二文档描述的内容都不针对相同标题字段描述的,所以第一文档和第二文档完全不同,所以没有比较的必要。
示例性的,若所述第一文档与所述第二文档属于同一文档类型,且,所述第一文档与所述第二文档包含有相同标题字段,则认为第一文档与第二文档有比较的意义,此时执行步骤“从所述第一文档与所述第二文档中获得相同的第一标题字段”,否则不对第一文档和第二文档进行比对。
步骤S33:比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息。
在一可选实现方式中,从文档(第一文档或第二文档)中获得第一标题字段对应的正文内容(第一正文内容或第二正文内容)的方法包括:将文档中第一标题字段所在位置下面,且,下一标题字段所在位置之前的内容确定为第一标题字段对应的正文内容。下面举例进行说明。
假设第一文档包括以下内容:
一、介绍及优惠政策
服务介绍及优惠活动
要符合以下任一条件,中行记账式ETC设备免费送:
1、成功办理中行爱架汽车信用卡,签约ETC代扣。
2、办理中行借记卡,预存2000元保证金,并与ETC记账卡签约代扣,同时还可申办中行信用卡,成功激活后可变更签约关系,退还保证金到原签约借记卡账户,借记卡绑定信用卡自动还款。
二、咨询电话
详细联系:1234567。
假设第一文档与第二文档均包含的第一标题字段为“介绍及优惠政策”,第一文档包括的标题字段包括:“介绍及优惠政策”以及“咨询电话”。第一文档中第一标题字段对应的正文内容为“介绍及优惠政策”与“咨询电话”之间的内容。第二文档中仅包括第一标题字段,所以第二文档中第一标题字段对应的正文内容为“介绍及优惠政策”后面的所有内容。
在一可选实现方式中,从文档(第一文档或第二文档)中获得第一标题字段对应的正文内容的方法包括:从文档(第一文档或第二文档)对应的预先设置的标题字段与正文内容的对应关系中,获得第一标题字段对应的正文内容。
示例性的,设置标题字段与正文内容的对应关系的方式可以如表1所示的设置方式。
在一可选实现方式中,比对第一正文内容以及所述第二正文内容的方式为逐字比对,以得到第一差异信息。
本申请实施例中,将第一正文内容和第二正文内容中不同的内容称为第一差异信息。
在一可选实现方式中,比对第一正文内容以及所述第二正文内容的方式为基于自然语言处理技术中的语义理解(Semantic understanding)技术,确定出第一差异信息。
步骤S34:确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容。
示例性的,若第一文档包括的标题字段包括:“介绍及优惠政策”以及“咨询电话”;第二文档包括的标题字段包括:“介绍及优惠政策”,则第二标题字段为第一文档包含且第二文档不包含的“咨询电话”。
若第一文档包括的标题字段包括:“介绍及优惠政策”以及“咨询电话”;第二文档包括的标题字段包括:“介绍及优惠政策”、“产品功能”,则“咨询电话”、“产品功能”均为第二标题字段,其中,“产品功能”为第二文档包括且第一文档不包括的标题字段;“咨询电话”为第一文档包含且第二文档不包含标题字段。
从文档(第一文档或第二文档)中获得第二标题字段对应的第三正文内容的方式可以参见从文档(第一文档或第二文档)中获得第一标题字段对应的正文内容的方式,这里不再赘述。
仍以图1为例,若采用本申请实施例提供的文档比对方法,假设第一文档为文档A,第一文档包括的标题字段为:文本1;第二文档为文档B,第二文档包含的标题字段为:文本1以及文本2;第一文档和第二文档包含的相同的第一标题字段为文本1;比较第一文档中第一标题字段对应的第一正文内容以及第二文档中第一标题字段对应的第二正文内容,发现相同。由于第二文档包括文本2,但第一文档不包括文本2,所以文本2对应的正文内容为第二差异信息。
如图4所示,为采用本申请实施例提供的文档比对方法得到的差异信息的示意图。
图4中示出了第一文档和第二文档的第二差异信息,第二差异信息用填充有网格的方形框框出。通过图4和图1的比对可知,采用本申请实施例提供的文档比对方法得到的差异信息(第一差异信息和/或第二差异信息)更加准确。
步骤S35:控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
示例性的,第一显示方式包括但不限于:字体、字体颜色、字体背景颜色、字体背景图案、字体下划线、字体加粗中的一个或多个。
示例性的,步骤S35可以是服务器控制电子设备以第一显示方式显示所述第一差异信息和所述第二差异信息。
本申请实施例提供的文档比对方法中,是基于文档包括标题字段以及标题字段对应的正文内容为前提的,在对第一文档和第二文档比对的过程中,得到第一文档与第二文档均包含的相同的第一标题字段,比较第一文档中第一标题字段对应的第一正文内容以及第二文档中第一标题字段对应的第二正文内容,以得到第一文档与第二文档分别对应的第一差异信息;即通过第一文档与第二文档均包含的相同的第一标题字段定位到第一文档和第二文档中需要比对的部分,即第一正文内容和第二正文内容,与相关技术中从头开始比对第一文档和第二文档相比,得到的第一差异信息更加准确;还可以确定第二差异信息,第二差异信息为第一文档以及第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容,由于不包含第二标题字段的文档,也不会包含第三正文内容,所以第三正文内容均为差异信息。通过第二标题字段定位到第三正文内容,所以得到的第二差异信息更加准确。
在一可选实现方式中,步骤S33的实现方式有多种,本申请实施例提供但不限于以下方式,该方式在实施过程中包括以下步骤A1至步骤A3。
步骤A1:确定第一语句以及第二语句,所述第一语句为在所述第一正文内容中与所述第二正文内容的不同文字所在的语句;所述第二语句为在所述第二正文内容中与所述第一正文内容的不同文字所在的语句。
在一可选实现方式中,第一语句包含的语句数目为一个或多个;第二语句包含的语句数目为一个或多个。
示例性的,第一语句包含的语句属于同一段落;第二语句包含的语句属于同一段落;示例性的,第一语句包含的语句不属于同一段落;第二语句包含的语句不属于同一段落。
示例性的,可以逐句比对第一正文内容与第二正文内容,若发现第一正文内容的语句A与第二正文内容的语句B包含的文字不同,则可以将该语句A和语句B添加至差异列表,以得到第一标题字段对应的差异列表。
下面举例对步骤A1进行说明。
假设第一文档包括:
一、介绍及优惠政策
服务介绍及优惠活动
要符合以下任一条件,中行记账式ETC设备免费送:
1、成功办理中行爱架汽车信用卡,签约ETC代扣。
2、办理中行借记卡,预存2000元保证金,并与ETC记账卡签约代扣,同时还可申办中行信用卡,成功激活后可变更签约关系,退还保证金到原签约借记卡账户,借记卡绑定信用卡自动还款。
二、咨询电话
详细联系:1234567。
假设第二文档包括:
一、介绍及优惠政策
(一)服务介绍及优惠活动
产品特色及优惠活动包括:
1、可安装车载电子标签深圳地区客户可自行携带粤通卡、身份证、行驶证到粤通卡服务中心购买、安装电子标签。
2、免停车走全国已在车上安装电子标签的用户,使用长城奥通信用卡驾车出入高速路口可走电子不停车(ETC)车道,快人一步,全国通行。
3、全国高速通行95折2019年7月开始,全国高速公路通行费95折优惠,具体优惠时段和优惠内容以国家交通部通知为准。
4、无需预先充值通行费自动从信用卡账户扣缴,无需对粤通卡预先充值,信用卡账单按期还款即可。
第一文档包含的标题字段依次为:“介绍及优惠政策”以及“咨询电话”;第二文档包含的标题字段依次为:“介绍及优惠政策”,则第一标题字段为“介绍及优惠政策”;第二标题字段为“咨询电话”。
从上述示例可知,第一文档中“介绍及优惠政策”对应的正文内容与第二文档中“介绍及优惠政策”对应的正文内容都不同,则第一语句包含第一文档中“介绍及优惠政策”对应的正文内容的所有语句;第二语句包含第二文档中“介绍及优惠政策”对应的正文内容的所有语句。
步骤A2:基于预设的知识图谱,获得所述第一语句包含的第一三元组合以及所述第二语句包含的第二三元组合。
示例性的,第一三元组合的数目可以为一个或多个,第二三元组合的数目可以为一个或多个。
所述第一三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系,所述第二三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系。
所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型。
示例性的,不同文档类型对应的知识图谱不同。下面举例对知识图谱进行说明。
如图5所示,为本申请实施例提供的知识图谱的结构图。
知识图谱包括多个实体关键词以及各实体关键词之间的关系;具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,例如,图5中用有向箭头相连的实体关键词1与实体关键词2中,实体关键词2为尾实体关键词,实体关键词1为头实体关键词。
示例性的,三元组和可以表示为{头实体关键词,关系,尾实体关键词}。
仍以步骤A1的示例对步骤A2进行说明。
示例性的,从第一语句中获得的第一三元组合包括:{中行爱驾汽车信用卡,签约,ETC代扣}、{中行借记卡,预约,保证金}、{中行借记卡,签约,ETC记账卡}、{中行信用卡,变更签约,ETC记账卡}。
示例性的,从第二语句中获得的第二三元组合包括:{粤通卡/身份证/行驶证,购买,车载电子标签}、{免停车走全国,安装,电子标签}、{全国高速通行95折,打折,全国高速公路}、{无需预先充值,扣缴,信用卡}。
步骤A3:若所述第一三元组合与所述第二三元组合的相关度小于第二阈值,确定所述第一三元组合的至少部分内容和所述第二三元组合的至少部分内容为所述第一差异信息。
示例性的,第一三元组合的至少部分内容是指第一三元组合包含的头实体关键词、关系和尾实体关键词中的至少一个;第二三元组合的至少部分内容是指第二三元组合包含的头实体关键词、关系和尾实体关键词中的至少一个。
在一可选实现方式中,可以基于第一三元组合位于第一语句的顺序,以及第二三元组合位于第二语句的顺序,依次计算第一三元组合与第二三元组合的相关度。例如,计算位于第一语句中第i个第一三元组合与位于第二语句中第i个第二三元组合的相关度,i的取值为大于或等于1的正数。
在一可选实现方式中,虽然第一正文内容是用于对第一文档中第一标题字段的说明;第二正文内容是用于对第二文档中第一标题字段的说明;但是,第一正文内容和第二正文内容针对第一标题字段的说明顺序可能不同。基于此,可以先比对多个第一三元组合和多个第二三元组合,从中找到相匹配的三元组合对,三元组合对可以用{第一三元组合,第二三元组合}表征,属于同一三元组合对的第一三元组合和第二三元组合的相关度较高。此时,若属于同一三元组合对的第一三元组合和第二三元组合的相关度小于第二阈值,确定,该三元组合对为第一差异信息。
若第一正文内容与第二正文内容大部分都不相同,为了能够使得用户能够一目了然的看到二者的主要区别,本申请实施例中可以找到能够表征第一正文内容与第二正文内容的第一差异信息,用户看到第一差异信息后,可以快速了解到第一正文内容与第二正文内容的区别,无需阅读完毕所有正第一正文内容与第二正文内容,才获知二者的区别。
在一可选实现方式中,步骤A1的实现方式有多种,本申请实施例提供但不限于以下方式,该方式包括以下步骤A11至步骤A13。
步骤A11:以段落为比较单位逐字比较所述第一正文内容以及所述第二正文内容。
步骤A12:若所述第一正文内容中的第一目标段落与所述第二正文内容中第一目标段落中不同文字的字数小于或等于第一阈值,将所述第一文档中所述第一目标段落和所述第二文档中所述第一目标段落中的不同文字确定为所述第一差异信息。
步骤A13:若所述第一正文内容中的第二目标段落与所述第二正文内容中第二目标段落中不同文字的字数大于所述第一阈值,确定所述第一文档中所述第二目标段落包含的所述第一语句,以及,所述第二文档中所述第二目标段落包含所述第二语句。
示例性的,第一阈值可以基于实际情况而定,这里不进行限定。
在一可选实现方式中,若所述第一三元组合的数目为多个,和/或,若所述第二三元组合的数目为多个;步骤A3的具体实现方式可以包括以下步骤B1至步骤B3。
步骤B1:将满足设定条件的所述第一三元组合划分至同一三元集合,所述设定条件包括一个三元组合包含的尾实体关键词为另一个三元组合的头实体关键词。
示例性的,三元集合包含的第一三元组合的数目可以为一个或多个。
例如,如图5所示,假设多个第一三元组合为:{实体关键词1,关系1,实体关键词2}、{实体关键词2,关系2,实体关键词3}、{实体关键词3,关系3,实体关键词4}、{实体关键词5,关系4,实体关键词6};其中,{}中第一个实体关键词为头实体关键词,第二个实体关键词为尾实体关键词;可以将{实体关键词1,关系1,实体关键词2}、{实体关键词2,关系2,实体关键词3}、{实体关键词3,关系3,实体关键词4}划分至同一三元集合;将{实体关键词5,关系4,实体关键词6}划分至另一三元集合。
可以理解的是,若一个三元组合包含的尾实体关键词为另一个三元组合的头实体关键词,说明这两个三元组合之间的关系较为密切,即可能在描述同一个事件,因此,将其划分至同一三元集合。
步骤B2:将满足所述设定条件的所述第二三元组合划分至同一三元集合。
针对步骤B2的说明可以参见步骤B1,这里不再赘述。
步骤B3:针对所述第一文档对应的每一三元集合,若所述三元集合与所述第二文档中相应的三元集合的相关度小于所述第二阈值,确定所述三元集合的至少部分内容和所述第二文档中相应的三元集合的至少部分内容分别为所述第一差异信息。
示例性的,三元集合的至少部分内容包括:三元集合中每一三元组合包含的头实体关键词、关系和尾实体关键词中的至少一个。
示例性的,若第一文档对应一个三元集合,第二文档对应一个三元集合,则计算两个三元集合之间的相似度。
示例性的,若第一文档对应多个三元集合,第二文档对应多个三元集合;例如,计算位于第一语句中第i个三元集合与位于第二语句中第i个三元集合的相关度,i的取值为大于或等于1的正数。
示例性的,若第一文档对应多个三元集合A,第二文档对应多个三元集合B;可以得到三元集合对,三元集合对可以用{三元集合A,三元集合B}表征;属于同一三元集合的三元集合A和三元集合B的相关度较高。
在一可选实现方式中,步骤S34的实现方式有多种,本申请实施例提供但不限于以下方式,该方式包括步骤C1至步骤C2。
步骤C1:确定所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容。
步骤C2:基于预设的知识图谱,获得所述第三正文内容包含的第三三元组合。
所述第三三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系;所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型。
针对第三三元组合的介绍可以参见第一三元组合或第二三元组合,这里不再赘述。
步骤C3:确定所述第三三元组合的至少部分内容为所述第二差异信息。
示例性的,第三三元组合的至少部分内容包括第三三元组合包含的头实体关键词、关系和尾实体关键词中的至少一个。
在一可选实现方式中,文档包含的实体关键词可能不标准,例如,在不同地域中针对同一事物的方言不同,那么,同一标准实体关键词可能对应有多个非标准的实体关键词。为了避免这种非标准的描述使得计算得到的第一三元组合与第二三元组合相关度不准确,在计算第一三元组合与第二三元组合相关度之前,还包括以下步骤D1至步骤D2。
步骤D1:从预设的标准实体关键词与非标准实体关键词的对应关系中,查找目标三元组合包含的实体关键词对应的目标标准实体关键词,所述目标三元组合为所述第一三元组合或所述第二三元组合,所述实体关键词为所述头实体关键词或所述尾实体关键词。
示例性的,可以预先设置标准实体关键词与非标准实体关键词的对应关系。
步骤D2:若所述目标三元组合包含的所述实体关键词不是所述目标准实体关键词,将所述目标准实体关键词替换所述目标三元组合包含的所述实体关键词。
那么,在计算第一三元组合与第二三元组合相关度的过程中,第一三元组合与第二三元组合包含的实体关键词均为标准实体关键词,不会出现由于实体关键词描述不准确导致计算得到的第一三元组合与第二三元组合相关度不准确的情况。
在一可选实现方式中,步骤S35中可以以第一显示方式显示第一差异信息和所述第二差异信息中的头实体关键词,和/或,尾实体关键词,和/或,关系。
在一可选实现方式中,将属于同一三元集合的三元组合用相同颜色显示,属于不同三元集合的三元组合用不同颜色显示。
为了本领域技术人员更加理解本申请实施例提供的文档比对方法,下面结合步骤A1的示例对文档比对方法的比对结果进行说明。
如图6所示,为采用本申请实施例提供的文档比对方法得到的比对结果的示意图。
针对图6所示的第一文档和第二文档可以参见步骤A1和步骤A2的描述,这里不再赘述。
从图6中可以看出第一正文内容与第二正文内容虽然大部分内容均不相同,但是与相关技术中不同的是,并未将第一正文内容与第二正文内容均以第一显示方式显示,而是将第一正文内容中的实体关键词和第二正文内容的实体关键词以第一显示方式显示,从而使得用户快速了解到第一正文内容与第二正文内容的不同之处。无需用户大段落阅读。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
如图7所示,为本申请实施例提供的文档比对装置的结构图,该装置包括:检测模块71、第一获取模块72、比较模块73、第一确定模块74以及控制模块75,其中:
检测模块71,用于若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
第一获取模块72,用于若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较模块73,用于比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
第一确定模块74,用于确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
控制模块75,用于控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
在一可选实现方式中,比较模块包括:
第一确定单元,用于确定第一语句以及第二语句,所述第一语句为在所述第一正文内容中与所述第二正文内容的不同文字所在的语句;所述第二语句为在所述第二正文内容中与所述第一正文内容的不同文字所在的语句;
第一获取单元,用于基于预设的知识图谱,获得所述第一语句包含的第一三元组合以及所述第二语句包含的第二三元组合;所述第一三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系,所述第二三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系;所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型;
第二确定单元,用于若所述第一三元组合与所述第二三元组合的相关度小于第二阈值,确定所述第一三元组合的至少部分内容和所述第二三元组合的至少部分内容为所述第一差异信息。
在一可选实现方式中,第一确定单元包括:
比较子单元,用于以段落为比较单位逐字比较所述第一正文内容以及所述第二正文内容;
第一确定子单元,用于若所述第一正文内容中的第一目标段落与所述第二正文内容中第一目标段落中不同文字的字数小于或等于第一阈值,将所述第一文档中所述第一目标段落和所述第二文档中所述第一目标段落中的不同文字确定为所述第一差异信息;
第二确定子单元,用于若所述第一正文内容中的第二目标段落与所述第二正文内容中第二目标段落中不同文字的字数大于所述第一阈值,确定所述第一文档中所述第二目标段落包含的所述第一语句,以及,所述第二文档中所述第二目标段落包含所述第二语句。
在一可选实现方式中,若所述第一三元组合的数目为多个,若所述第二三元组合的数目为多个;第二确定单元包括:
第一划分子单元,用于将满足设定条件的所述第一三元组合划分至同一三元集合,所述设定条件包括一个三元组合包含的尾实体关键词为另一个三元组合的头实体关键词;
第二划分子单元,用于将满足所述设定条件的所述第二三元组合划分至同一三元集合;
第三确定子单元,用于针对所述第一文档对应的每一三元集合,若所述三元集合与所述第二文档中相应的三元集合的相关度小于所述第二阈值,确定所述三元集合的至少部分内容和所述第二文档中相应的三元集合的至少部分内容为所述第一差异信息。
在一可选实现方式中,第一确定模块包括:
第三确定单元,用于确定所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
第二获取模块,用于基于预设的知识图谱,获得所述第三正文内容包含的第三三元组合,所述第三三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系;所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型;
第四确定单元,用于确定所述第三三元组合的至少部分内容为所述第二差异信息。
在一可选实现方式中,还包括:
查找模块,用于从预设的标准实体关键词与非标准实体关键词的对应关系中,查找目标三元组合包含的实体关键词对应的目标标准实体关键词,所述目标三元组合为所述第一三元组合或所述第二三元组合,所述实体关键词为所述头实体关键词或所述尾实体关键词;
替换模块,用于若所述目标三元组合包含的所述实体关键词不是所述目标准实体关键词,将所述目标准实体关键词替换所述目标三元组合包含的所述实体关键词。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于服务器的装置的框图。示例性的,服务器可以为服务器22。
服务器包括但不限于:处理器81、存储器82、网络接口83、I/O控制器84以及通信总线85。
需要说明的是,本领域技术人员可以理解,图8中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图8所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对服务器的各个构成部件进行具体的介绍:
处理器81是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器82内的软件程序和/或模块,以及调用存储在存储器82内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器81可包括一个或多个处理单元;示例性的,处理器81可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器81中。
处理器81可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器82可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM)821和只读存储器(Read-Only Memory,ROM)822,也可能还包括大容量存储设备823,例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
其中,上述的存储器82,用于存储上述处理器81可执行指令。上述处理器81具有以下功能:若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
一个有线或无线网络接口83被配置为将电子设备连接到网络。
处理器81、存储器82、网络接口83和I/O控制器84可以通过通信总线85相互连接,该通信总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述文档比对方法。
在示例性实施例中,本公开实施例提供了一种包括指令的存储介质,例如包括指令的存储器82,上述指令可由服务器的处理器81执行以完成上述文档比对方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,例如上述存储器82中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述文档比对方法。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述文档比对方法。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文档比对方法,其特征在于,包括:
若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的第二标题字段对应的第三正文内容;
控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
2.根据权利要求1所述文档比对方法,其特征在于,所述比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息步骤包括:
确定第一语句以及第二语句,所述第一语句为在所述第一正文内容中与所述第二正文内容的不同文字所在的语句;所述第二语句为在所述第二正文内容中与所述第一正文内容的不同文字所在的语句;
基于预设的知识图谱,获得所述第一语句包含的第一三元组合以及所述第二语句包含的第二三元组合;所述第一三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系,所述第二三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系;所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型;
若所述第一三元组合与所述第二三元组合的相关度小于第二阈值,确定所述第一三元组合的至少部分内容和所述第二三元组合的至少部分内容为所述第一差异信息。
3.根据权利要求2所述文档比对方法,其特征在于,所述确定第一语句以及第二语句步骤包括:
以段落为比较单位逐字比较所述第一正文内容以及所述第二正文内容;
若所述第一正文内容中的第一目标段落与所述第二正文内容中第一目标段落中不同文字的字数小于或等于第一阈值,将所述第一文档中所述第一目标段落和所述第二文档中所述第一目标段落中的不同文字确定为所述第一差异信息;
若所述第一正文内容中的第二目标段落与所述第二正文内容中第二目标段落中不同文字的字数大于所述第一阈值,确定所述第一文档中所述第二目标段落包含的所述第一语句,以及,所述第二文档中所述第二目标段落包含所述第二语句。
4.根据权利要求2或3所述文档比对方法,其特征在于,若所述第一三元组合的数目为多个,若所述第二三元组合的数目为多个;所述若所述第一三元组合与所述第二三元组合的相关度小于第二阈值,确定所述第一三元组合和所述第二三元组合分别为所述第一差异信息步骤包括:
将满足设定条件的所述第一三元组合划分至同一三元集合,所述设定条件包括一个三元组合包含的尾实体关键词为另一个三元组合的头实体关键词;
将满足所述设定条件的所述第二三元组合划分至同一三元集合;
针对所述第一文档对应的每一三元集合,若所述三元集合与所述第二文档中相应的三元集合的相关度小于所述第二阈值,确定所述三元集合的至少部分内容和所述第二文档中相应的三元集合的至少部分内容为所述第一差异信息。
5.根据权利要求1至3任一所述文档比对方法,其特征在于,所述确定第二差异信息包括:
确定所述第一文档以及所述第二文档中一个文档包含且另一个文档不包含的所述第二标题字段对应的第三正文内容;
基于预设的知识图谱,获得所述第三正文内容包含的第三三元组合,所述第三三元组合包括头实体关键词、尾实体关键词以及所述头实体关键词和所述尾实体关键词之间的关系;所述知识图谱包括属于目标文档类型的文档包含的多个实体关键词以及各实体关键词之间的关系,所述知识图谱中具有关系的两个实体关键词用有向箭头相连,用有向箭头相连的两个实体关键词中有向箭头指向的实体关键词为尾实体关键词,有向箭头未指向的实体关键词为头实体关键词,所述目标文档类型为所述第一文档与所述第二文档所属的文档类型;
确定所述第三三元组合的至少部分内容为所述第二差异信息。
6.根据权利要求2或3所述文档比对方法,其特征在于,在执行所述若所述第一三元组合与所述第二三元组合的相关度小于第二阈值,确定所述第一三元组合和所述第二三元组合分别为所述第一差异信息步骤之前,还包括:
从预设的标准实体关键词与非标准实体关键词的对应关系中,查找目标三元组合包含的实体关键词对应的目标标准实体关键词,所述目标三元组合为所述第一三元组合或所述第二三元组合,所述实体关键词为所述头实体关键词或所述尾实体关键词;
若所述目标三元组合包含的所述实体关键词不是所述目标准实体关键词,将所述目标准实体关键词替换所述目标三元组合包含的所述实体关键词。
7.一种文档比对装置,其特征在于,包括:
检测模块,用于若接收到比对第一文档以及第二文档的指令,检测所述第一文档与所述第二文档是否属于同一文档类型;属于同一文档类型的不同文档包括的标题字段属于所述文档类型对应的标题字段集合;
第一获取模块,用于若所述第一文档与所述第二文档属于同一文档类型,从所述第一文档与所述第二文档中获得相同的第一标题字段;
比较模块,用于比较所述第一文档中所述第一标题字段对应的第一正文内容以及所述第二文档中所述第一标题字段对应的第二正文内容,得到所述第一文档与所述第二文档分别对应的第一差异信息;
第一确定模块,用于确定第二差异信息,所述第二差异信息为所述第一文档以及所述第二文档中一个文档且包含另一个文档不包含的第二标题字段对应的第三正文内容;
控制模块,用于控制以第一显示方式显示所述第一差异信息和所述第二差异信息;其中,所述第一文档与所述第二文档中相同内容以第二显示方式显示,所述第一显示方式与所述第二显示方式不同。
8.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一所述的文档比对方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至6中任一项所述的文档比对方法。
10.一种计算机程序产品,可直接加载到计算机的内部存储器,并含有软件代码,所述计算机程序经由计算机载入并执行后能够实现如权利要求1至6中任一项所述的文档比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698798.1A CN113254598B (zh) | 2021-06-23 | 2021-06-23 | 文档比对方法、装置、服务器、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110698798.1A CN113254598B (zh) | 2021-06-23 | 2021-06-23 | 文档比对方法、装置、服务器、介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254598A CN113254598A (zh) | 2021-08-13 |
CN113254598B true CN113254598B (zh) | 2024-02-20 |
Family
ID=77189348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110698798.1A Active CN113254598B (zh) | 2021-06-23 | 2021-06-23 | 文档比对方法、装置、服务器、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254598B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901780B (zh) * | 2021-09-07 | 2024-09-10 | 交控科技股份有限公司 | 文件比对方法、装置、电子设备和存储介质 |
CN115525739B (zh) * | 2022-10-08 | 2024-08-02 | 招商局智融供应链服务有限公司 | 供应链金融智能查重方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382184A (zh) * | 2020-05-25 | 2020-07-07 | 浙江明度智控科技有限公司 | 一种对药品文档进行校验的方法和药品文档校验系统 |
CN111737965A (zh) * | 2020-05-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 文档的比对方法、装置、电子设备和可读存储介质 |
CN112307737A (zh) * | 2020-09-27 | 2021-02-02 | 泰山信息科技有限公司 | 一种基于动态规划技术的复杂文档比较方法 |
CN112926299A (zh) * | 2021-03-29 | 2021-06-08 | 杭州天谷信息科技有限公司 | 一种文本比对方法、合同审阅方法、审核系统 |
-
2021
- 2021-06-23 CN CN202110698798.1A patent/CN113254598B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382184A (zh) * | 2020-05-25 | 2020-07-07 | 浙江明度智控科技有限公司 | 一种对药品文档进行校验的方法和药品文档校验系统 |
CN111737965A (zh) * | 2020-05-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 文档的比对方法、装置、电子设备和可读存储介质 |
CN112307737A (zh) * | 2020-09-27 | 2021-02-02 | 泰山信息科技有限公司 | 一种基于动态规划技术的复杂文档比较方法 |
CN112926299A (zh) * | 2021-03-29 | 2021-06-08 | 杭州天谷信息科技有限公司 | 一种文本比对方法、合同审阅方法、审核系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113254598A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chung | BizPro: Extracting and categorizing business intelligence factors from textual news articles | |
CN110956739A (zh) | 一种票据识别方法及装置 | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
US8156010B2 (en) | Multimodal context marketplace | |
CN113254598B (zh) | 文档比对方法、装置、服务器、介质及产品 | |
US20120221441A1 (en) | Identifying and using bibliographical references in electronic books | |
CN110597816A (zh) | 数据处理方法、装置、计算机设备和计算机可读存储介质 | |
CN108197099A (zh) | 一种文本信息提取方法及计算机可读存储介质 | |
CN109670824A (zh) | 电子账本的生成方法、装置、设备及存储介质 | |
Amilahaq et al. | Digital platform of zakat management organization for young adults in indonesia | |
CN112506981A (zh) | 一种线上培训服务推送方法和装置 | |
CN114357020A (zh) | 业务场景数据提取方法、装置、计算机设备及存储介质 | |
CN111932413A (zh) | 案件要素提取方法、装置、设备及介质 | |
CN110858326A (zh) | 模型训练及获取附加特征数据的方法、装置、设备及介质 | |
CN110297953A (zh) | 产品信息推荐方法、装置、计算机设备以及存储介质 | |
JP2002099613A (ja) | 税金申告相談装置 | |
CN103488676A (zh) | 基于社交正则化协同话题回归的标签推荐系统及方法 | |
CN115687790A (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN108711073A (zh) | 用户分析方法、装置及终端 | |
US11379929B2 (en) | Advice engine | |
CN109344386B (zh) | 文本内容标识方法、装置、设备及计算机可读存储介质 | |
EP1320053A2 (en) | Information delivering service system | |
CN111127102A (zh) | 平台积分交易方法、装置、电子设备及存储介质 | |
US20130218587A1 (en) | Coverage Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |