CN112507709B - 文档匹配方法以及电子设备、存储装置 - Google Patents
文档匹配方法以及电子设备、存储装置 Download PDFInfo
- Publication number
- CN112507709B CN112507709B CN202011581558.5A CN202011581558A CN112507709B CN 112507709 B CN112507709 B CN 112507709B CN 202011581558 A CN202011581558 A CN 202011581558A CN 112507709 B CN112507709 B CN 112507709B
- Authority
- CN
- China
- Prior art keywords
- segment
- text
- key words
- category
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000012634 fragment Substances 0.000 claims abstract description 99
- 230000004927 fusion Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- BGRDGMRNKXEXQD-UHFFFAOYSA-N Maleic hydrazide Chemical compound OC1=CC=C(O)N=N1 BGRDGMRNKXEXQD-UHFFFAOYSA-N 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文档匹配方法以及电子设备、存储装置,其中,文档匹配方法包括:获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。上述方案,能够提高文档匹配的准确性。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种文档匹配方法以及电子设备、存储装置。
背景技术
随着电子信息化不断发展,电子文档已逐渐替代纸质文档,广泛应用于日常办公、档案管理、案件卷宗等诸多场景。在文档整理过程中,通常需要针对某一份文档中某一文本片段,在其他文档中匹配与其相关的文本片段,以此来实现相关文本片段的关联。以工程归档为例,在工程归档的整理过程中,通常需要针对某一份工程文档(如,设计文档、施工文档、监理文档等)中某一文本片段(如,设备耗材的相关文本),在其他工程文本中匹配与其相关的文本片段,以此来检查各阶段工程是否一致。有鉴于此,如何提高文档匹配的准确性成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种文档匹配方法以及电子设备、存储装置,能够提高文档匹配的准确性。
为了解决上述问题文本,本申请第一方面提供了一种文档匹配方法,包括:获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;预设范围包括:关键词语所在的文档;分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段;基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
为了解决上述问题文本,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的文档匹配方法。
为了解决上述问题文本,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文档匹配方法。
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
附图说明
图1是本申请文档匹配方法一实施例的流程示意图;
图2是证据文书一实施例的示意图;
图3是证据文书另一实施例的示意图;
图4是证据文书又一实施例的示意图;
图5是本申请文档匹配方法一实施例的状态示意图;
图6是文档匹配模型一实施例的框架示意图;
图7是图1中步骤S12一实施例的流程示意图;
图8是获取第一重要度和第二重要度一实施例的状态示意图;
图9是本申请电子设备一实施例的框架示意图;
图10是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文档匹配方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取多份文档。
本公开实施例中,多份文档的具体类型可以根据实际应用情况进行设置。例如,在工程项目管理场景中,多份文档可以包括但不限于:可研文档、设计文档、施工文档、监理文档、验收文档等等,在此不做限定;或者,在证据文书梳理场景中,多份文档可以是证据文书,具体可以包括但不限于:案件办理过程中涉及的起诉意见书、案发经过等法律办案文书,证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等言辞类文书,扣押清单、搜查笔录等非言辞类证据等等,在此不做限定。上述应用场景仅仅是实际应用过程中可能涉及到若干场景,在此不再一一举例。
本公开实施例中,多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语。需要说明的是,参考文档为上述多份文档中的锚定文档,以上述工程项目管理场景为例,在将设计文档作为参考文档的情况下,可以将设计文档锚定,以便后续在可研文档、施工文档、监理文档、验收文档等待匹配文档中与设计文档进行匹配检索;或者,以上述证据文书梳理场景为例,在将起诉意见书作为参考文档的情况下,可以将起诉意见书锚定,以便后续在案发经过、证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等待匹配文档中与起诉意见书进行匹配检索。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,同一文档内所包含的若干文本片段可以分别涉及不同主题。以上述工程项目管理场景为例,文档内所包含的若干文本片段可以涉及如下主题:工程简介、设备辅料、造价等;或者,以上述证据文书梳理场景为例,上述文本片段具体可以为案情文本,上述主题具体可以为案情,即一份证据文书内所包含的若干文本片段可以分别涉及不同案情。请结合参阅图2,图2是证据文书一实施例的示意图,具体地,图2具体是法律办案文书一实施例的示意图。如图2所示,图2中左图表示起诉意见书,有图表示案发经过,两份文档中,以序号①标注的矩形框内为文本片段,起诉意见书中矩形框内文本片段与案发经过中矩形框内文本片段均涉及“偷盗电瓶车”案情。请继续参阅图3,吐是证据文本另一实施例的示意图,具体地,图3是言辞类证据文书一实施例的示意图。如图3所示,从左至右分别是嫌疑人张XX的询问笔录,嫌疑人李XX的讯问笔录,受害人王XX的询问笔录,三份文档中,以序号①标注的矩形框内为文本片段,三份文档中矩形框内文本片段均涉及“偷盗电瓶车”案情,此外,嫌疑人张XX的讯问笔录中还存在文本片段“还是那天10号下午,……,卖了200元,我们分了”,该文本片段不同于以序号①标注的矩形框内的文本片段,其涉及“偷盗轮胎”案情;而嫌疑人李XX的讯问笔录中也存在相应文本片段“第二次也是在当天下午,……,张XX进去偷了一个轮胎”,该文本片段不同于以序号①标注的矩形框内的文本片段,其涉及“偷盗轮胎”案情。请继续参阅图4,图4是证据文书又一实施例的示意图,具体地,图4是非言辞类证据一实施例的示意图。如图4所示,左图表示扣押清单,有图表示搜查笔录,两份文档中以序号①标注的矩形框内文本片段均涉及“偷盗电瓶车”案情。此外,扣押清单中还存在文本片段“n汽车备胎韩泰牌1黑色”,不同于上述以序号①标注的矩形框内文本片段,其涉及案情“偷盗轮胎”。需要说明的是,上述图2至图4所列举的文档仅仅是实际应用过程中可能涉及的文档,并不因此而限定实际应用中所涉及的文档种类及文档内容,具体可以根据实际应用情况进行设置,在此不再一一举例。
在另一个实施场景中,在多个文档为证据文书的情况下,上述若干种类可以包括但不限于:案情要素类、文本实体类、案情经过类、地点解析类等,在此不做限定。上述方式,在文档为证据文书的情况下,将类别设置为包括:案情要素类、文本实体类、案情经过类、地点解析类,能够从不同维度、不同词语粒度等多角度定义关键词语,从而能够有利于提高后续匹配的准确性。
在一个具体的实施场景中,对于案情要素类可以细分为:作案时间类、作案地点类、赃物类、嫌疑人同伙类等,在此不做限定。请结合参阅图2左图起诉意见书,以序号①标记的矩形框内文本片段中,“2016年8月10日”为作案时间类、“张XX、李XX”为嫌疑人同伙类、“XX市XX区XX镇XX路XX弄XX号楼楼口处”为作案地点类、“王XX”为作案地点类、“一辆红色雅迪电动车”为赃物类,其他证据文书可以以此类推,在此不再一一举例。需要说明的是,案情要素类具体可以根据案由进行设置,如对于盗窃案由可以设置上述作案时间等细分种类,而对于商业纠纷案由可以设置合同签订时间、合同金额、合同生效时间、甲乙方等细分种类,其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,对于文本实体类可以细分为:时间类、地点类、物品类、人名类等,在此不做限定。需要说明的是,区别于前述案情要素类,文本实体类仅案情无关,仅表示文本自然属性。仍以图2左图意见起诉书为例,“2016年8月10日”可以为时间类,“张XX、李XX”可以为人名类,“XX市XX区XX镇XX路XX弄XX号楼楼口处”可以为地点类,“一辆红色雅迪电动车”可以为物品类,其他情况可以以此类推,在此不再一一举例。也就是说,某一关键词语既可以是文本实体类,也可以是案情要素类。
在又一个具体的实施场景中,案情经过类是指证据文书中描述整个作案经过的连续文本片段,本公开实施例中,文档中每一文本片段整体均属于案情经过类。仍以图2左图意见起诉书为例,以序号①标注的矩形框内文本片段(即,“经依法侦查查明:……经鉴定价值1000元”)属于案情经过类。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,地点解析类可以细分为:省类、市类、区/县类、乡镇类、相对位置类、地点名类等,在此不做限定。仍以图2左图意见起诉书为例,以序号①标注的矩形框内文本片段中“XX市XX区XX镇XX路XX弄XX号楼楼口处”中的“XX市”属于市类、“XX区”属于区/县类、“XX镇”属于乡镇类,以此类推。通过将地点解析类细分为上述细粒度类别,能够有利于视线地点的精确匹配。
在又一个实施场景中,文本片段中的关键词语以及关键词语的类别可以是诸如BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)等模型对文本片段进行识别得到的,或者,文本片段中的关键词语以及关键词语的类别也可以是采用诸如正则表达式等逻辑规则对文本片段进行识别得到的。
在一个具体的实施场景中,为了提高关键词语以及关键词语的类别的准确性,以文档是证据文书为例,对于起诉意见书、案发经过等法律办案文书,或者对于证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等言辞类文书,或者对于搜查笔录,可以采用模型对文本片段进行识别,得到关键词语以及关键词语的类别。
在另一个具体的实施场景中,为了提高关键词语以及关键词语的类别的准确性,仍以文档是证据文书为例,对于扣押清单等表格类证据,可以采用上述逻辑规则对文本片段进行识别,得到关键词语以及关键词语的类别。
在又一个实施场景中,为了提高文档匹配的效率,还可以将识别关键词语以及关键词语的类别单独部署于某一服务器中,并将后续获取重要度、匹配度以及选择目标片段等也分别单独不属于某一服务器中,从而能够有利于实现任务分布式的部署,大大降低负荷集中可能造成延迟、堵塞等风险,进而有利于提高文档匹配效率。
步骤S12:利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度。
本公开实施例中,预设范围包括:关键词语所在的文档。请结合参阅图3左图嫌疑人张XX的讯问笔录,该文档中存在两个文本片段(即案情描述1和案情描述2),对于案情描述1存在类别为“作案时间”的关键词语“2016年8月10日”,对于案情描述2存在类别为“作案时间”的关键词语“10号下午”,则可以利用关键词语“2016年8月10日”和关键词语“10号下午”在证据文书“嫌疑人张XX的讯问笔录”中的统计情况,获取文本片段“案情描述1”中关键词语“2016年8月10日”的重要度以及文本片段“案情描述2”中关键词语“10号下午”的重要度。其他文档可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于统计,可以将待匹配文档内若干文本片段所包含各个类别的关键词语进行整理。具体可以参阅表1,表1是类别与文档的对应关系表,如表1所示,“√”表示存在对应类别的关键词语,“-”表示不存在对应类别的关键词语。例如,待匹配文档1内文本片段2中存在“作案时间类”、“作案地点类”、“嫌疑人同伙类”、“时间”、“地点”、“人名”等类别的关键词语,不存在“赃物类”、“物品”等类别的关键词语,以此类推,在此不再一一举例。
表1类别与文档的对应关系表
在另一个实施场景中,上述统计情况具体可以包括每一种类别的关键词语中,在其所在文档内不匹配的关键词语对数,且不匹配的关键词语对数越多表明该种类别的关键词语在匹配过程中的重要度越高。例如,某一待匹配文档包含3个文本片段,文本片段1中“作案时间类”关键词语为2012年8月13日,文本片段2中“作案时间类”关键词语为2012年9月15日,文本片段3中“作案时间类”关键词语为2013年3月7日,由此可见,该待匹配文本中包含3个不匹配的关键词语对,且这3个文本片段中“作案时间类”关键词语互不相同,故此“作案时间类”关键词语在该待匹配文本内文本片段的匹配过程中尤其重要,故可以设置较大的重要度;反之,上述待匹配文本中3个文本片段中还包括“作案地点类”关键词语,如文本片段1中“作案地点类”关键词语为A路与B路交叉口,文本片段2中“作案地点类”关键词语为A路与B路交叉口,而文本片段3中仅包含上述“作案时间类”关键词语,由此可见,该待匹配文本中“作案地点类”关键词语完全相同,故此,“作案地点类”关键词语在该待匹配文本内文本片段的匹配过程中参考价值较低,故可以设置较小的重要度。其他情况可以以此类推,在此不再一一举例。此外,根据不匹配的关键词语对,计算文本片段中各类别关键词语的重要度的具体计算过程,可以参阅下述公开实施例中相关描述,在此暂不赘述。
在又一个实施场景中,预设范围包括:关键词语所在的文本片段。具体地,对于每一种类的关键词语,在其所在的文本片段中出现次数越多,该文本片段中该类别的关键词语重要度越高。例如,某一待匹配文档包含3个文本片段,文本片段1中“作案时间类”关键词语包括:2012年8月13日、8月13日、13日下午,而文本片段2中“作案时间类”关键词语包括:2012年9月15日,文本片段3中“作案时间类”关键词语包括:2013年3月7日,由此可见,在文本片段1中“作案时间类”关键词语共出现3次,而文本片段2中“作案时间类”关键词语仅出现1次,文本片段3中“作案时间类”关键词语也仅出现1次,故在文本片段1中“作案时间类”关键词语的重要度较高,而在文本片段2中“作案时间类”关键词语的重要度较低,在文本片段3中“作案时间类”关键词语的重要度也较低。此外,根据上述出现次数,文本片段中各类别的关键词语的重要度的计算过程,可以参阅下述公开实施例中相关描述,在此暂不赘述。
在又一个实施场景中,上述预设范围可以包括:关键词语所在的文档,以及关键词语所在的文本片段,在预设范围为关键词语所在的文本片段的情况下,可以根据出现次数,文本片段中各类别的关键词语的重要度,为了便于区别,可以将该重要度称为第一重要度wf,i,其中,i表示第i种类别,类似地,在预设范围为关键词语所在的文档的情况下,可以根据不匹配的关键词语对,计算文本片段中各类别关键词语的重要度,为了便于区别,可以将该重要度称为第二重要度wd,i,其中,i表示第i种类别。在此基础上,文本片段中第i种类别关键词语的重要度可以为第i种类别对应的第一重要度wf,i和第i种类别对应的第二重要度wd,i之和;或者,文本片段中第i种类别关键词语的重要度可以为第i种类别对应的第一重要度wf,i和第i种类别对应的第二重要度wd,i之积,在此不做限定。
步骤S13:分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度。
本公开实施例中,参考片段为参考文档中一个文本片段。
在一个实施场景中,参考片段具体可以由用户指定,请结合参阅图3,用户可以指定嫌疑人张XX的讯问笔录中文本片段“案情描述1”为参考片段;或者,用户也可以指定嫌疑人李XX的讯问笔录中以序号①标注的矩形框内文本片段为参考片段,在此不做限定。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,也可以根据预设规则,从参考文档中选择一个文本片段作为参考片段。预设规则可以包括:从参考文档中依序选择一个文本片段作为参考片段,在此不做限定。请继续结合参阅3,可以先从参考文档“嫌疑人张XX的讯问笔录”中选择文本片段“案情描述1”作为参考片段,在利用该参考片段与待匹配文本内若干文本片段进行匹配之后,可以继续从参考文档“嫌疑人张XX的讯问笔录”中选择文本片段“案情描述2”作为参考片段,从而继续利用该参考片段与待匹配文本内若干文本片段进行匹配,以此类推,在此不再一一举例。
在一个实施场景中,参考文档内参考片段和待匹配文本内文本片段两者中同类别关键词语之间的匹配度具体可以采用如下方式得到:利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度,并利用两个关键词语各自所对应的语义表示,得到两个关键词语之间的第二匹配度,从而可以将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。上述方式,通过从字符、语义两个角度分别获取两个关键词语之间的第一匹配度、第二匹配度,并将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度,从而能够降低由于近义词、同义词等词语多样性表述可能发生匹配出错的概率,进而能够有利于提高匹配度的准确性,能够有利于进一步提升后续目标片段的召回。需要说明的是,目标片段表示待匹配文档中与参考片段涉及相同主题的文本片段。
在一个具体的实施场景中,在基于字符获取第一匹配度的过程中,具体可以采用包括但不限于:BM25、N-gram、最大公共子串等,在此不做限定。其中,BM25是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,其具体算法流程在此不再赘述;N-gram是一种基于统计语言模型的算法,其基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个片段序列称为gram,其具体算法流程在此不再赘述;最大公共子串是寻找两个或多个已知字符串最长的子串,其具体算法流程在此不再赘述。例如,对于关键词语“电动自行车”和“电动代步车”,两者在字符层面具有较高的匹配度。
在另一个具体的实施场景中,在基于字符获取第一匹配度的过程中,为了进一步提高匹配准确性,还可以基于领域同义词语知识库对关键词语进行转换,得到关键词语的标准词语,再将两个关键词语分别所对应的关键词语进行匹配,得到两者之间的第一匹配度。领域同义词语知识库具体可以包括若干组词语组合,每组词语组合可以包括一个标准词语和若干个该标准词语的同义词语,例如,词语组合“电动自行车,电动代步车、电摩托、电瓶车、电动助力车”在此其中,标准词语为“电动自行车”,其同义词语包括:电动代步车、电摩托、电瓶车、电动助力车,其他情况可以以此类推,在此不再一一举例。在两个关键词语分别为“电摩托”和“电瓶车”的情况下,可以将“电摩托”转换为其标准词语“电动自行车”,并将“电瓶车”转换为其标准词语“电动自行车”,从而可以确定两个关键词语“电摩托”和“电瓶车”相互匹配。
在又一个具体的实施场景中,在基于语义获取第二匹配度的过程中,可以利用预训练的词向量,将两个关键词语分别进行向量映射,分别得到两个关键词语的语义表示,在此基础上,可以利用两个关键词语的语义表示之间的相似度(如,余弦相似度),得到两者之间的第二匹配度。
在又一个具体的实施场景中,为了便于后续处理,在两个关键词语匹配的情况下,可以将两者的匹配度设置为1,在两个关键词语不匹配的情况下,可以将两者之间的匹配度设置为0。例如,对于关键词语“电摩托”和“电瓶车”,可以将两者之间的匹配度设置为1;而对于关键词语“电摩托”和“脚踏车”,可以将两者之间的匹配度设置为0,其他情况可以以此类推,在此不再一一举例。
步骤S14:基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段。
具体地,可以利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性。在此基础上,可以基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段。上述方式,通过利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性,从而基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段,能够有利于提高所选择的候选片段的准确性。此外,通过选择候选片段,能够有利于提高文档匹配的效率。
在一个具体的实施场景中,可以利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性。请结合参阅表1,对于待匹配文档1而言,可以获取文本片段1中“作案时间类”、“作案地点类”、……、“人名类”等各类别关键词语的重要度,并利用上述各种类别的关键词语与参考文本中同类别的关键词语之间的匹配度对对应类别的关键词语的重要度进行加权求和,得到文本片段1与参考文本涉及相同主题的可能性,其他情况可以以此类推,在此不再一一举例。为了便于描述,可以将第i种类别的关键词语的重要度记为wi,第i种类别的关键词语对应的匹配度记为pi,则文本片段与参考片段涉及相同主题的可能性P可以表示为:
上述公式(1)中,N表示类别总数。
在另一个具体的实施场景中,为了进一步提高选择候选片段的准确性,还可以先利用参考片段中各个类别的关键词语的重要度对文本片段中对应类别的关键词语的重要度进行更新,在此基础上,再利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性。具体地,可以将参考片段中各个类别的关键词语的重要度乘以(或者加上)文本片段中对应类别的关键词语的重要度,从而更新文本片段中对应类别的关键词语的重要度。例如,参考文本中第i种类别关键词语的重要度w′i可以乘以(或加上)待匹配文本中第j个文本片段中第i种类别关键词语的重要度wi,从而可以更新该待匹配文本中第j个文本片段中第i种类别关键词语的重要度。
需要说明的是,尽管在现实场景中,文本片段之间可能存在信息不平衡的情况,即某一文本片段(如,前述包含“作案时间类”和“作案地点类”两种类别关键词语的文本片段1、文本片段2)可能包含较为丰富的信息,而另一文本片段(如,前述仅包含“作案时间类”关键词语的文本片段3)可能包含较少的信息,然而由于包含较少信息的文本片段中可能包含重要度较高的关键词语,故该文本片段与参考片段涉及相同主题的可能性也较高,故能够大大缓解信息不平衡给文档匹配造成的影响。
在又一个具体的实施场景中,在得到前述可能性之后,可以按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段。具体地,预设序位可以根据实际应用情况进行设置,如可以设置为2、3、4等等,在此不做限定。上述方式,通过按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段,能够有利于提高文档匹配的准确性和鲁棒性。
步骤S15:利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
请结合参阅图5,图5是本申请文档匹配方法一实施例的状态示意图。如图5所示,在得到多份文档之后,先获取关键词语以及关键词语的类别,在此基础上,得到各种类别关键词语的重要度和匹配度,从而在待匹配文档的文本片段中选择得到候选片段,然后,可以将参考片段的第一语义表示和候选片段的第二语义表示输入文档匹配模型,确定与参考片段涉及相同主题的目标片段。
在一个实施场景中,在将第一以表示和第二语义表示输入文档匹配模型之后,可以得到各个候选片段分别与参考片段之间的相关分值,从而可以基于相关分值,确定与参考片段涉及相同主题的目标片段。如,可以选择最高的相关分值所对应的候选片段,作为与参考片段涉及相同主题的目标片段。
在另一个实施场景中,请结合参阅图6,图6是文档匹配模型一实施例的框架示意图。如图6所示,在将第一语义表示和第二语义表示输入文档匹配模型之前,还可以基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,进而利用第一融合表示与各个候选片段的第二融合表示,得到参考片段与对应候选片段之间的相关分值,最终可以基于相关分值,确定与参考片段涉及相同主题的目标片段。具体地,第一语义表示和第二语义表示可以通过预训练向量映射得到的,如通过BERT模型预训练得到的词向量,可以映射得到参考片段中各个词语的词向量,并将参考片段中各个词语的词向量的组合,作为参考片段的第一语义表示,以及将候选片段中各个词语的词向量的组合,作为候选片段的第二语义表示,在此不再赘述。上述方式,通过基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,在此基础上预测参考片段与对应候选片段之间的相关分值,并基于相关分值,确定与参考片段涉及相同主题的目标片段,能够在文档匹配过程中,融合文本片段级的语义信息、字符匹配级的语义信息等多种粒度语义信息,从而能够有利于提高文档匹配的准确性。
在一个具体的实施场景中,具体可以统计各个候选片段中与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,从而可以基于最大数量和/或最小数量,得到匹配特征表示。例如,在文档匹配过程中,共包括N个(如,10个)候选片段,在这N个候选片段中,第j个候选片段与参考片段之间匹配度满足预设条件的关键词语共有Sj种类别,从而可以从Sj(其中,j∈[1,N])中提取最大值max和/或最小值min,以此来得到匹配特征表示[max,min]。此外,为了进一步丰富匹配特征表示,还可以基于上述最大值和/或最小值,以及各个候选片段与参考片段之间匹配度满足预设条件的关键词语的原始数量,得到匹配特征表示。仍以上述N个候选片段为例,匹配特征还可以表示为[max,min,S1,S2,…,Sj,…,SN]。上述预设条件具体可以包括:匹配度大于预设阈值(如,0),在此不做限定。上述方式,通过统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,并基于最大数量和/或最小数量,得到匹配特征表示,能够有利于基于候选片段与参考片段关于各种类别关键词语的匹配情况,构建得到字符匹配级别的语义信息,从而能够有利于进一步提高文档匹配的准确性。
在另一个具体的实施场景中,请继续结合参阅图6,文档匹配模型中可以包含与参考片段对应的第一编码网络,以及与候选片段对应的第二编码网络,从而可以利用第一编码网络对第一语义表示进行编码,得到第一编码表示,并利用第二编码网络对与其对应的候选片段的第二语义表示进行编码,得到第二编码表示,进而可以将第一编码表示和匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示和匹配特征表示进行拼接,得到第二融合表示。具体地,上述第一编码网络和第二编码网络可以包括但不限于:BERT等,在此不做限定。上述方式,通过利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示,并分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示,从而将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示,能够有利于降低语义融合的复杂度。
在又一个具体的实施场景中,请继续结合参阅图6,图6中圆形所示的操作表示计算第一融合表示和第二融合表示之间的余弦相似度,再得到各个候选片段分别与参考片段之间的余弦相似度之后,可以利用softmax函数对上述各个余弦相似度进行归一化处理,得到对应候选片段与参考片段之间的相关得分。
在又一个具体的实施场景中,为了提高候选推荐模型的准确性,还可以预先利用样本参考片段以及样本候选片段对候选推荐模型进行训练。此外,上述样本候选片段分别标注有与样本参考片段之间的标注相关得分,为了便于描述可以将第k个样本候选片段与样本参考片段之间的标注相似度记为yk。在此基础上,可以将样本参考片段的第一样本语义表示和各个样本候选片段的第二样本语义表示输入候选推荐模型,预测得到样本参考片段与对应样本候选片段之间的预测相似度,为了便于描述可以将第k个样本候选片段与样本参考片段之间的预测相似度记为zk,故可以进一步对上述标注相似度yk进行归一化,得到第k个样本候选片段sk与样本参考片段之间的实际相关得分p(sk),并可以进一步对上述预测相似度zk进行归一化,得到第k个样本候选片段sk与样本参考片段之间的预测相关得分
上述公式(2)和公式(3)中,m表示样本候选片段的总个数。在此基础上,可以利用交叉熵损失函数处理上述实际相关得分p(sk)和预测相关得分得到文档匹配模型的损失值,从而可以利用该损失值,调整文档匹配模型的网络参数。为了便于描述,损失值可以表示为Lrank(pn):
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
请参阅图7,图7是图1中步骤S12一实施例的流程示意图。具体可以包括如下步骤:
步骤S71:分别将各个类别,作为当前类别。
请结合参阅前述公开实施例中表1,在文档为证据文书的情况下,可以分别将“作案时间类”、“作案地点类”等诸多类别分别作为当前类别,其他情况可以以此类推,在此不再一一举例。
步骤S72:在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数。
在一个实施场景中,可以利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度,以及利用两个关键词语各自对应的语义表示,得到两个关键词语之间的第二匹配度,从而可以将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在另一个实施场景中,预设条件具体可以包括:匹配度不小于预设阈值,即在当前类别的关键词语中,可以统计匹配度小于预设阈值的关键词语对数。预设阈值具体可以根据实际情况进行设置。例如,在匹配度仅包含0(表示不匹配)和1(表示匹配)两种数值的情况下,预设阈值可以设置为1;或者,在匹配度为取值范围为0至1的数值区间的情况下,预设阈值可以设置为0.7、0.8等,在此不做限定。此外,需要说明的是,在统计匹配度不满足预设条件的关键词语对数时,其统计范围包括关键词语所在的文档,即对于文本片段中各种类别的关键词语而言,可以在其所在文档内且属于当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数。
步骤S73:利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度。
本公开实施例中,不满足预设条件的关键词语对数越多,重要度越高,反之,不满足预设条件的关键词语对数越少,重要度越低。为了便于描述,上述利用不满足预设条件的关键词语对数所得到文本片段中当前类别i的关键词语的重要度可以记为wd,i,具体可以表示为:
上述公式(5)中,e为自然常数,Ui表示满足预设条件的关键词语对数,n表示待匹配文档内所包含的文本片段的数量,c表示区间调节系数,c的取值越大,重要度wd,i的变化区间越大。请结合参阅图8,图8是获取第一重要度和第二重要度一实施例的状态示意图。如图8所示,待匹配文档包括文本片段1、文本片段2和文本片段3,文本片段1包含“作案时间类”关键词语“13日下午”、“8月13日”和“2018年8月13日”,文本片段2包含“作案时间类”关键词语“2012年9月15日”,文本片段3包含“作案时间类”关键词语“2013年3月7日”,由于文本片段1中“作案时间类”关键词语“13日下午”、“8月13日”和“2018年8月13日”表示的是同一时间概念,故可以认为待匹配文档中“作案时间类”关键词语共包含3个,而由于这3个关键词语互不匹配,故可以将上述公式(5)中Ui取值为0,此外,由于待匹配文档中共包含3个文本片段,故n取值为3,最终可以得到该待匹配文档中“作案时间类”关键词语的重要度为ec。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,如前述公开实施例所述,预设范围还可以包括:关键词语所在的文本片段,在此基础上,可以在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,从而利用出现次数,得到文本片段中当前类别的关键词语的重要度,为了与前述重要度wd,i进行区分,可以将上述利用出现次数得到的重要度称为第一重要度wf,i,将前述重要度wd,i称为第二重要度,最终可以利用文本片段中当前类别的关键词语的第一重要度wf,i和第二重要度wd,i,得到文本片段中当前类别的关键词语的重要度。例如,可以将第一重要度wf,i和第二重要度wd,i相乘(或者相加),得到文本片段中当前类别的关键词语的重要度。上述方式,通过将预设范围设置为进一步包括关键词语所在的文本片段,从而在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,进而利用出现次数,得到文本片段中当前类别的关键词语的第一重要度,并利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度,在此基础上,再利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度,能够从文本片段内部维度以及待匹配文本中跨文本片段维度共同确定各种类别的关键词语的重要度,能够有利于提高重要度的准确性。
在一个具体的实施场景中,第i种类别的关键词语的第一重要度wf,i可以表示为:
上述公式(6)中,ni表示第i种类别的关键词语在其所在的文本片段中的出现次数,∑knk表示文本片段中各种类别的关键词语出现总次数,m表示平滑系数,具体可以根据实际应用需要进行设置,例如可以设置为5等,在此不做限定。请继续结合参阅图8,如在计算文本片段1中“作案时间类”关键词语的第一重要度时,可以获取“作案时间类”关键词语在文本片段1中的出现次数为3次,并统计文本片段1中各种类别关键词语的出现总次数,代入上述公式(6),即可得到文本片段1中“作案时间类”关键词语的第一重要度。其他情况可以以此类推,在此不再一一举例。
区别于前述实施例,通过分别将各个类别,作为当前类别,从而在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数,进而利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度,且不满足预设条件的关键词语对数越多,重要度越高,从而能够通过计算各种类别的关键词语的重要度,大大缓解信息不平衡给文档匹配造成的影响。
请参阅图9,图9是本申请电子设备90一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92,存储器91中存储有程序指令,处理器92用于执行程序指令以实现上述任一文档匹配方法实施例中的步骤。具体地,电子设备90可以包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器、手机等,在此不做限定。
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一文档匹配方法实施例中的步骤。处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由集成电路芯片共同实现。
本公开实例中,处理器92用于获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;处理器92用于利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;预设范围包括:关键词语所在的文档;处理器92用于分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段;处理器92用于基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;处理器92用于利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
在一些公开实施例中,处理器92用于分别将各个类别,作为当前类别;处理器92用于在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数;处理器92用于利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度;其中,不满足预设条件的关键词语对数越多,重要度越高。
区别于前述实施例,通过分别将各个类别,作为当前类别,从而在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数,进而利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度,且不满足预设条件的关键词语对数越多,重要度越高,从而能够通过计算各种类别的关键词语的重要度,大大缓解信息不平衡给文档匹配造成的影响。
在一些公开实施例中,处理器92用于利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度;以及,处理器92用于利用两个关键词语各自所对应的语义表示,得到两个关键词语之间的第二匹配度;处理器92用于将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。
区别于前述实施例,通过从字符、语义两个角度分别获取两个关键词语之间的第一匹配度、第二匹配度,并将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度,从而能够降低由于近义词、同义词等词语多样性表述可能发生匹配出错的概率,进而能够有利于提高匹配度的准确性,能够有利于进一步提升后续目标片段的召回。需要说明的是,目标片段表示待匹配文档中与参考片段涉及相同主题的文本片段。
在一些公开实施例中,预设范围还包括:关键词语所在的文本片段,处理器92用于在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数;处理器92用于利用出现次数,得到文本片段中当前类别的关键词语的第一重要度;处理器92用于利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度;处理器92用于利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度。
区别于前述实施例,通过将预设范围设置为进一步包括关键词语所在的文本片段,从而在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,进而利用出现次数,得到文本片段中当前类别的关键词语的第一重要度,并利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度,在此基础上,再利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度,能够从文本片段内部维度以及待匹配文本中跨文本片段维度共同确定各种类别的关键词语的重要度,能够有利于提高重要度的准确性。
在一些公开实施例中,处理器92用于利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性;处理器92用于基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段。
区别于前述实施例,通过利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性,从而基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段,能够有利于提高所选择的候选片段的准确性。此外,通过选择候选片段,能够有利于提高文档匹配的效率。
在一些公开实施例中,处理器92用于利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性;和/或,处理器92用于按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段。
区别于前述实施例,通过利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性,能够快速地综合各个类别的关键词语的匹配度和重要度,且能够大大缓解信息不平衡给文档匹配造成的影响;而按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段,能够有利于“粗选”得到可能性较高的文本片段作为后续“精选”的候选片段,有利于提高文档匹配的效率。
在一些公开实施例中,处理器92用于基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示;处理器92用于将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示;处理器92用于利用第一融合表示与各个候选片段的第二融合表示,得到参考片段与对应候选片段之间的相关分值;处理器92用于基于相关分值,确定与参考片段涉及相同主题的目标片段。
区别于前述实施例,通过基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,在此基础上预测参考片段与对应候选片段之间的相关分值,并基于相关分值,确定与参考片段涉及相同主题的目标片段,能够在文档匹配过程中,融合文本片段级的语义信息、字符匹配级的语义信息等多种粒度语义信息,从而能够有利于提高文档匹配的准确性。
在一些公开实施例中,处理器92用于统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量;处理器92用于基于最大数量和/或最小数量,得到匹配特征表示。
区别于前述实施例,通过统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,并基于最大数量和/或最小数量,得到匹配特征表示,能够有利于基于候选片段与参考片段关于各种类别关键词语的匹配情况,构建得到字符匹配级别的语义信息,从而能够有利于进一步提高文档匹配的准确性。
在一些公开实施例中,处理器92用于利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示;以及,处理器92用于分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示;处理器92用于将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示。
区别于前述实施例,通过利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示,并分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示,从而将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示,能够有利于降低语义融合的复杂度。
在一些公开实施例中,文档为证据文书,类别包括:案情要素类、文本实体类、案情经过类、地点解析类;和/或,文档为证据文书,文本片段为案情文本,主题为案情。
区别于前述实施例,通过将文档设置为证据文书,且类别设置为包括:案情要素类、文本实体类、案情经过类、地点解析类,能够适用于证据文本的文档匹配,且从不同维度、不同词语粒度等多角度定义关键词语,从而能够有利于提高后续匹配的准确性;而将文档设置为证据文书,文本片段设置为案情文本,主题设置为案情,能够有利于在待匹配文档中匹配到与参考文本同案情的案情文本。
请参阅图10,图10是本申请存储装置100一实施例的框架示意图。存储装置100存储有能够被处理器运行的程序指令101,程序指令101用于实现上述任一文档匹配方法实施例中的步骤。
上述方案,能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (11)
1.一种文档匹配方法,其特征在于,包括:
获取多份文档;所述多份文档包括参考文档和待匹配文档,所述文档内包含若干文本片段,所述文本片段内含有若干种类别的关键词语;
利用各个类别的关键词语在预设范围内的统计情况,获取所述文本片段中对应类别的关键词语的重要度;所述预设范围包括:所述关键词语所在的文档;
分别针对所述待匹配文档内各个所述文本片段,获取各个类别的关键词语与所述参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,所述参考片段为所述参考文档中一个所述文本片段;
基于所述文本片段中各个类别的关键词语的重要度和匹配度,选择若干所述文本片段作为候选片段;
利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段;
其中,所述利用各个类别的关键词语在预设范围内的统计情况,获取所述文本片段中对应类别的关键词语的重要度,包括:
分别将各个所述类别,作为当前类别;
在所述当前类别的关键词语中,统计所述匹配度不满足预设条件的关键词语对数;
利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度;
其中,不满足所述预设条件的关键词语对数越多,所述重要度越高。
2.根据权利要求1所述的方法,其特征在于,两个所述关键词语之间的匹配度的获取步骤包括:
利用两个所述关键词语各自所包含的字符,得到两个所述关键词语之间的第一匹配度;以及,
利用两个所述关键词语各自所对应的语义表示,得到两个所述关键词语之间的第二匹配度;
将所述第一匹配度、所述第二匹配度中的最大值,作为两个所述关键词语之间的匹配度。
3.根据权利要求1所述的方法,其特征在于,所述预设范围还包括:所述关键词语所在的文本片段;在所述利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度之前,所述方法还包括:
在所述当前类别的关键词语所在的文本片段中,统计所述关键词语的出现次数;
利用所述出现次数,得到所述文本片段中所述当前类别的关键词语的第一重要度;
所述利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度,包括:
利用不满足所述预设条件的关键词语对数,得到所述文档中所述当前类别的关键词语的第二重要度;
利用所述文本片段中所述当前类别的关键词语的第一重要度和第二重要度,得到所述文本片段中所述当前类别的关键词语的重要度。
4.根据权利要求1所述的方法,其特征在于,所述基于所述文本片段中各个类别的关键词语的重要度和匹配度,选择若干所述文本片段作为候选片段,包括:
利用所述文本片段中各个类别的关键词语的重要度和匹配度,获取对应所述文本片段与所述参考片段涉及相同所述主题的可能性;
基于各个所述文本片段与所述参考片段涉及相同所述主题的可能性,选择若干所述文本片段作为所述候选片段。
5.根据权利要求4所述的方法,其特征在于,所述利用所述文本片段中各个类别的关键词语的重要度和匹配度,获取对应所述文本片段与所述参考片段涉及相同所述主题的可能性,包括:
利用所述文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应所述文本片段与所述参考片段涉及相同所述主题的可能性;
和/或,所述基于各个所述文本片段与所述参考片段涉及相同所述主题的可能性,选择若干所述文本片段作为所述候选片段,包括:
按照所述可能性由高到低的顺序,选择位于前预设序位的文本片段,作为所述候选片段。
6.根据权利要求1所述的方法,其特征在于,在所述利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段之前,所述方法还包括:
基于所述待匹配文档内所述文本片段与所述参考片段间关于所述关键词语的匹配度,得到所述参考片段与所述候选片段的匹配特征表示;
所述利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段,包括:
将所述第一语义表示和所述匹配特征表示进行融合,得到第一融合表示,并将所述第二语义表示和所述匹配特征表示进行融合,得到第二融合表示;
利用所述第一融合表示与各个所述候选片段的第二融合表示,得到所述参考片段与对应所述候选片段之间的相关分值;
基于所述相关分值,确定与所述参考片段涉及相同主题的目标片段。
7.根据权利要求6所述的方法,其特征在于,所述基于所述待匹配文档内所述文本片段与所述参考片段间关于所述关键词语的匹配度,得到所述参考片段与所述候选片段的匹配特征表示,包括:
统计各个所述候选片段与所述参考片段之间所述匹配度满足预设条件的关键词语的最大数量和/或最小数量;
基于所述最大数量和/或所述最小数量,得到所述匹配特征表示。
8.根据权利要求6所述的方法,其特征在于,所述将所述第一语义表示和所述匹配特征表示进行融合,得到第一融合表示,并将所述第二语义表示和所述匹配特征表示进行融合,得到第二融合表示,包括:
利用与所述参考片段对应的第一编码网络对所述第一语义表示进行编码,得到第一编码表示;以及,
分别利用与各个候选片段对应的第二编码网络对对应所述候选片段的第二语义表示进行编码,得到第二编码表示;
将所述第一编码表示与所述匹配特征表示进行拼接,得到所述第一融合表示,并将所述第二编码表示与所述匹配特征表示进行拼接,得到所述第二融合表示。
9.根据权利要求1所述的方法,其特征在于,所述文档为证据文书,所述类别包括:案情要素类、文本实体类、案情经过类、地点解析类;
和/或,所述文档为证据文书,所述文本片段为案情文本,所述主题为案情。
10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的文档匹配方法。
11.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的文档匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581558.5A CN112507709B (zh) | 2020-12-28 | 2020-12-28 | 文档匹配方法以及电子设备、存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581558.5A CN112507709B (zh) | 2020-12-28 | 2020-12-28 | 文档匹配方法以及电子设备、存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507709A CN112507709A (zh) | 2021-03-16 |
CN112507709B true CN112507709B (zh) | 2024-05-24 |
Family
ID=74951621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011581558.5A Active CN112507709B (zh) | 2020-12-28 | 2020-12-28 | 文档匹配方法以及电子设备、存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507709B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971207A (zh) * | 2021-11-05 | 2022-01-25 | 讯飞智元信息科技有限公司 | 文档关联方法及装置、电子设备和存储介质 |
CN115906170B (zh) * | 2022-12-02 | 2023-12-15 | 北京金安道大数据科技有限公司 | 应用于存储集群的安全防护方法及ai系统 |
CN118377887B (zh) * | 2024-06-24 | 2024-09-24 | 阿里云飞天(杭州)云计算技术有限公司 | 自动问答方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893533A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种文本匹配方法及装置 |
CN108182182A (zh) * | 2017-12-27 | 2018-06-19 | 传神语联网网络科技股份有限公司 | 翻译数据库中文档匹配方法、装置及计算机可读存储介质 |
CN110598200A (zh) * | 2018-06-13 | 2019-12-20 | 北京百度网讯科技有限公司 | 语义识别方法及装置 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | 中国移动通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
CN111931477A (zh) * | 2020-09-29 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645317B2 (en) * | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
-
2020
- 2020-12-28 CN CN202011581558.5A patent/CN112507709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893533A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种文本匹配方法及装置 |
CN108182182A (zh) * | 2017-12-27 | 2018-06-19 | 传神语联网网络科技股份有限公司 | 翻译数据库中文档匹配方法、装置及计算机可读存储介质 |
CN110598200A (zh) * | 2018-06-13 | 2019-12-20 | 北京百度网讯科技有限公司 | 语义识别方法及装置 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | 中国移动通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
CN111931477A (zh) * | 2020-09-29 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、电子设备以及存储介质 |
Non-Patent Citations (4)
Title |
---|
Ting Zhang等.Multiresolution Graph Attention Networks for Relevance Matching.CIKM '18: Proceedings of the 27th ACM International Conference on Information and Knowledge Management.2018,全文. * |
基于主题词匹配频数的搜索引擎结果聚类算法;胡诗未;李晓峰;徐伟;;计算机工程与科学;20110615(第06期);全文 * |
基于关键词加权的法律文本主题模型研究;张扬武;李国和;王立梅;;计算机与数字工程;20190520(第05期);全文 * |
基于词库匹配的网络文本分类及预测;杨雨诗;何博侠;周鑫;刘慧丽;葛方丽;;计算机与现代化;20171015(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507709A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507709B (zh) | 文档匹配方法以及电子设备、存储装置 | |
CN111695033B (zh) | 企业舆情分析方法、装置、电子设备及介质 | |
CN109033229B (zh) | 问答处理方法和装置 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
WO2020077896A1 (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN111538827B (zh) | 基于内容和图神经网络的判例推荐方法、装置及存储介质 | |
WO2020140373A1 (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
WO2021204017A1 (zh) | 文本意图识别方法、装置以及相关设备 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
US20220366295A1 (en) | Pre-search content recommendations | |
CN109933644B (zh) | 一种字符串匹配方法及装置 | |
US20230177626A1 (en) | Systems and methods for determining structured proceeding outcomes | |
CN114661861B (zh) | 文本匹配方法及装置、存储介质、终端 | |
US20200226154A1 (en) | Methods and text summarization systems for data loss prevention and autolabelling | |
CN110569350A (zh) | 法条推荐方法、设备和存储介质 | |
Emon et al. | Sentiment analysis of bengali online reviews written with english letter using machine learning approaches | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN117709358A (zh) | 保险智能问答系统的对话应答方法、装置、设备和介质 | |
CN112765966B (zh) | 联想词去重方法及装置、计算机可读存储介质和电子设备 | |
CN108536791A (zh) | 基于神经网络的搜索方法、设备及存储介质 | |
WO2020253353A1 (zh) | 预设用户的资源获取资质生成方法及相关设备 | |
CN117278273A (zh) | 基于bert和lstm的sql注入攻击的检测方法 | |
CN110851560A (zh) | 信息检索方法、装置及设备 | |
Cao et al. | Intention classification in multiturn dialogue systems with key sentences mining | |
CN112883232B (zh) | 一种资源搜索方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |