CN112507709A - 文档匹配方法以及电子设备、存储装置 - Google Patents

文档匹配方法以及电子设备、存储装置 Download PDF

Info

Publication number
CN112507709A
CN112507709A CN202011581558.5A CN202011581558A CN112507709A CN 112507709 A CN112507709 A CN 112507709A CN 202011581558 A CN202011581558 A CN 202011581558A CN 112507709 A CN112507709 A CN 112507709A
Authority
CN
China
Prior art keywords
segment
text
category
document
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011581558.5A
Other languages
English (en)
Inventor
段纪丁
杜倩云
王永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Original Assignee
Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd filed Critical Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority to CN202011581558.5A priority Critical patent/CN112507709A/zh
Publication of CN112507709A publication Critical patent/CN112507709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Abstract

本申请公开了一种文档匹配方法以及电子设备、存储装置,其中,文档匹配方法包括:获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。上述方案,能够提高文档匹配的准确性。

Description

文档匹配方法以及电子设备、存储装置
技术领域
本申请涉及信息处理技术领域,特别是涉及一种文档匹配方法以及电子设备、存储装置。
背景技术
随着电子信息化不断发展,电子文档已逐渐替代纸质文档,广泛应用于日常办公、档案管理、案件卷宗等诸多场景。在文档整理过程中,通常需要针对某一份文档中某一文本片段,在其他文档中匹配与其相关的文本片段,以此来实现相关文本片段的关联。以工程归档为例,在工程归档的整理过程中,通常需要针对某一份工程文档(如,设计文档、施工文档、监理文档等)中某一文本片段(如,设备耗材的相关文本),在其他工程文本中匹配与其相关的文本片段,以此来检查各阶段工程是否一致。有鉴于此,如何提高文档匹配的准确性成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种文档匹配方法以及电子设备、存储装置,能够提高文档匹配的准确性。
为了解决上述问题文本,本申请第一方面提供了一种文档匹配方法,包括:获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;预设范围包括:关键词语所在的文档;分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段;基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
为了解决上述问题文本,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的文档匹配方法。
为了解决上述问题文本,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文档匹配方法。
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
附图说明
图1是本申请文档匹配方法一实施例的流程示意图;
图2是证据文书一实施例的示意图;
图3是证据文书另一实施例的示意图;
图4是证据文书又一实施例的示意图;
图5是本申请文档匹配方法一实施例的状态示意图;
图6是文档匹配模型一实施例的框架示意图;
图7是图1中步骤S12一实施例的流程示意图;
图8是获取第一重要度和第二重要度一实施例的状态示意图;
图9是本申请电子设备一实施例的框架示意图;
图10是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文档匹配方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取多份文档。
本公开实施例中,多份文档的具体类型可以根据实际应用情况进行设置。例如,在工程项目管理场景中,多份文档可以包括但不限于:可研文档、设计文档、施工文档、监理文档、验收文档等等,在此不做限定;或者,在证据文书梳理场景中,多份文档可以是证据文书,具体可以包括但不限于:案件办理过程中涉及的起诉意见书、案发经过等法律办案文书,证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等言辞类文书,扣押清单、搜查笔录等非言辞类证据等等,在此不做限定。上述应用场景仅仅是实际应用过程中可能涉及到若干场景,在此不再一一举例。
本公开实施例中,多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语。需要说明的是,参考文档为上述多份文档中的锚定文档,以上述工程项目管理场景为例,在将设计文档作为参考文档的情况下,可以将设计文档锚定,以便后续在可研文档、施工文档、监理文档、验收文档等待匹配文档中与设计文档进行匹配检索;或者,以上述证据文书梳理场景为例,在将起诉意见书作为参考文档的情况下,可以将起诉意见书锚定,以便后续在案发经过、证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等待匹配文档中与起诉意见书进行匹配检索。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,同一文档内所包含的若干文本片段可以分别涉及不同主题。以上述工程项目管理场景为例,文档内所包含的若干文本片段可以涉及如下主题:工程简介、设备辅料、造价等;或者,以上述证据文书梳理场景为例,上述文本片段具体可以为案情文本,上述主题具体可以为案情,即一份证据文书内所包含的若干文本片段可以分别涉及不同案情。请结合参阅图2,图2是证据文书一实施例的示意图,具体地,图2具体是法律办案文书一实施例的示意图。如图2所示,图2中左图表示起诉意见书,有图表示案发经过,两份文档中,以序号①标注的矩形框内为文本片段,起诉意见书中矩形框内文本片段与案发经过中矩形框内文本片段均涉及“偷盗电瓶车”案情。请继续参阅图3,吐是证据文本另一实施例的示意图,具体地,图3是言辞类证据文书一实施例的示意图。如图3所示,从左至右分别是嫌疑人张XX的询问笔录,嫌疑人李XX的讯问笔录,受害人王XX的询问笔录,三份文档中,以序号①标注的矩形框内为文本片段,三份文档中矩形框内文本片段均涉及“偷盗电瓶车”案情,此外,嫌疑人张XX的讯问笔录中还存在文本片段“还是那天10号下午,……,卖了200元,我们分了”,该文本片段不同于以序号①标注的矩形框内的文本片段,其涉及“偷盗轮胎”案情;而嫌疑人李XX的讯问笔录中也存在相应文本片段“第二次也是在当天下午,……,张XX进去偷了一个轮胎”,该文本片段不同于以序号①标注的矩形框内的文本片段,其涉及“偷盗轮胎”案情。请继续参阅图4,图4是证据文书又一实施例的示意图,具体地,图4是非言辞类证据一实施例的示意图。如图4所示,左图表示扣押清单,有图表示搜查笔录,两份文档中以序号①标注的矩形框内文本片段均涉及“偷盗电瓶车”案情。此外,扣押清单中还存在文本片段“n汽车备胎韩泰牌1黑色”,不同于上述以序号①标注的矩形框内文本片段,其涉及案情“偷盗轮胎”。需要说明的是,上述图2至图4所列举的文档仅仅是实际应用过程中可能涉及的文档,并不因此而限定实际应用中所涉及的文档种类及文档内容,具体可以根据实际应用情况进行设置,在此不再一一举例。
在另一个实施场景中,在多个文档为证据文书的情况下,上述若干种类可以包括但不限于:案情要素类、文本实体类、案情经过类、地点解析类等,在此不做限定。上述方式,在文档为证据文书的情况下,将类别设置为包括:案情要素类、文本实体类、案情经过类、地点解析类,能够从不同维度、不同词语粒度等多角度定义关键词语,从而能够有利于提高后续匹配的准确性。
在一个具体的实施场景中,对于案情要素类可以细分为:作案时间类、作案地点类、赃物类、嫌疑人同伙类等,在此不做限定。请结合参阅图2左图起诉意见书,以序号①标记的矩形框内文本片段中,“2016年8月10日”为作案时间类、“张XX、李XX”为嫌疑人同伙类、“XX市XX区XX镇XX路XX弄XX号楼楼口处”为作案地点类、“王XX”为作案地点类、“一辆红色雅迪电动车”为赃物类,其他证据文书可以以此类推,在此不再一一举例。需要说明的是,案情要素类具体可以根据案由进行设置,如对于盗窃案由可以设置上述作案时间等细分种类,而对于商业纠纷案由可以设置合同签订时间、合同金额、合同生效时间、甲乙方等细分种类,其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,对于文本实体类可以细分为:时间类、地点类、物品类、人名类等,在此不做限定。需要说明的是,区别于前述案情要素类,文本实体类仅案情无关,仅表示文本自然属性。仍以图2左图意见起诉书为例,“2016年8月10日”可以为时间类,“张XX、李XX”可以为人名类,“XX市XX区XX镇XX路XX弄XX号楼楼口处”可以为地点类,“一辆红色雅迪电动车”可以为物品类,其他情况可以以此类推,在此不再一一举例。也就是说,某一关键词语既可以是文本实体类,也可以是案情要素类。
在又一个具体的实施场景中,案情经过类是指证据文书中描述整个作案经过的连续文本片段,本公开实施例中,文档中每一文本片段整体均属于案情经过类。仍以图2左图意见起诉书为例,以序号①标注的矩形框内文本片段(即,“经依法侦查查明:……经鉴定价值1000元”)属于案情经过类。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,地点解析类可以细分为:省类、市类、区/县类、乡镇类、相对位置类、地点名类等,在此不做限定。仍以图2左图意见起诉书为例,以序号①标注的矩形框内文本片段中“XX市XX区XX镇XX路XX弄XX号楼楼口处”中的“XX市”属于市类、“XX区”属于区/县类、“XX镇”属于乡镇类,以此类推。通过将地点解析类细分为上述细粒度类别,能够有利于视线地点的精确匹配。
在又一个实施场景中,文本片段中的关键词语以及关键词语的类别可以是诸如BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)等模型对文本片段进行识别得到的,或者,文本片段中的关键词语以及关键词语的类别也可以是采用诸如正则表达式等逻辑规则对文本片段进行识别得到的。
在一个具体的实施场景中,为了提高关键词语以及关键词语的类别的准确性,以文档是证据文书为例,对于起诉意见书、案发经过等法律办案文书,或者对于证人证言、被害人陈述、犯罪嫌疑人陈述与辩解等言辞类文书,或者对于搜查笔录,可以采用模型对文本片段进行识别,得到关键词语以及关键词语的类别。
在另一个具体的实施场景中,为了提高关键词语以及关键词语的类别的准确性,仍以文档是证据文书为例,对于扣押清单等表格类证据,可以采用上述逻辑规则对文本片段进行识别,得到关键词语以及关键词语的类别。
在又一个实施场景中,为了提高文档匹配的效率,还可以将识别关键词语以及关键词语的类别单独部署于某一服务器中,并将后续获取重要度、匹配度以及选择目标片段等也分别单独不属于某一服务器中,从而能够有利于实现任务分布式的部署,大大降低负荷集中可能造成延迟、堵塞等风险,进而有利于提高文档匹配效率。
步骤S12:利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度。
本公开实施例中,预设范围包括:关键词语所在的文档。请结合参阅图3左图嫌疑人张XX的讯问笔录,该文档中存在两个文本片段(即案情描述1和案情描述2),对于案情描述1存在类别为“作案时间”的关键词语“2016年8月10日”,对于案情描述2存在类别为“作案时间”的关键词语“10号下午”,则可以利用关键词语“2016年8月10日”和关键词语“10号下午”在证据文书“嫌疑人张XX的讯问笔录”中的统计情况,获取文本片段“案情描述1”中关键词语“2016年8月10日”的重要度以及文本片段“案情描述2”中关键词语“10号下午”的重要度。其他文档可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于统计,可以将待匹配文档内若干文本片段所包含各个类别的关键词语进行整理。具体可以参阅表1,表1是类别与文档的对应关系表,如表1所示,“√”表示存在对应类别的关键词语,“-”表示不存在对应类别的关键词语。例如,待匹配文档1内文本片段2中存在“作案时间类”、“作案地点类”、“嫌疑人同伙类”、“时间”、“地点”、“人名”等类别的关键词语,不存在“赃物类”、“物品”等类别的关键词语,以此类推,在此不再一一举例。
表1类别与文档的对应关系表
Figure BDA0002865339720000081
在另一个实施场景中,上述统计情况具体可以包括每一种类别的关键词语中,在其所在文档内不匹配的关键词语对数,且不匹配的关键词语对数越多表明该种类别的关键词语在匹配过程中的重要度越高。例如,某一待匹配文档包含3个文本片段,文本片段1中“作案时间类”关键词语为2012年8月13日,文本片段2中“作案时间类”关键词语为2012年9月15日,文本片段3中“作案时间类”关键词语为2013年3月7日,由此可见,该待匹配文本中包含3个不匹配的关键词语对,且这3个文本片段中“作案时间类”关键词语互不相同,故此“作案时间类”关键词语在该待匹配文本内文本片段的匹配过程中尤其重要,故可以设置较大的重要度;反之,上述待匹配文本中3个文本片段中还包括“作案地点类”关键词语,如文本片段1中“作案地点类”关键词语为A路与B路交叉口,文本片段2中“作案地点类”关键词语为A路与B路交叉口,而文本片段3中仅包含上述“作案时间类”关键词语,由此可见,该待匹配文本中“作案地点类”关键词语完全相同,故此,“作案地点类”关键词语在该待匹配文本内文本片段的匹配过程中参考价值较低,故可以设置较小的重要度。其他情况可以以此类推,在此不再一一举例。此外,根据不匹配的关键词语对,计算文本片段中各类别关键词语的重要度的具体计算过程,可以参阅下述公开实施例中相关描述,在此暂不赘述。
在又一个实施场景中,预设范围包括:关键词语所在的文本片段。具体地,对于每一种类的关键词语,在其所在的文本片段中出现次数越多,该文本片段中该类别的关键词语重要度越高。例如,某一待匹配文档包含3个文本片段,文本片段1中“作案时间类”关键词语包括:2012年8月13日、8月13日、13日下午,而文本片段2中“作案时间类”关键词语包括:2012年9月15日,文本片段3中“作案时间类”关键词语包括:2013年3月7日,由此可见,在文本片段1中“作案时间类”关键词语共出现3次,而文本片段2中“作案时间类”关键词语仅出现1次,文本片段3中“作案时间类”关键词语也仅出现1次,故在文本片段1中“作案时间类”关键词语的重要度较高,而在文本片段2中“作案时间类”关键词语的重要度较低,在文本片段3中“作案时间类”关键词语的重要度也较低。此外,根据上述出现次数,文本片段中各类别的关键词语的重要度的计算过程,可以参阅下述公开实施例中相关描述,在此暂不赘述。
在又一个实施场景中,上述预设范围可以包括:关键词语所在的文档,以及关键词语所在的文本片段,在预设范围为关键词语所在的文本片段的情况下,可以根据出现次数,文本片段中各类别的关键词语的重要度,为了便于区别,可以将该重要度称为第一重要度wf,i,其中,i表示第i种类别,类似地,在预设范围为关键词语所在的文档的情况下,可以根据不匹配的关键词语对,计算文本片段中各类别关键词语的重要度,为了便于区别,可以将该重要度称为第二重要度wd,i,其中,i表示第i种类别。在此基础上,文本片段中第i种类别关键词语的重要度可以为第i种类别对应的第一重要度wf,i和第i种类别对应的第二重要度wd,i之和;或者,文本片段中第i种类别关键词语的重要度可以为第i种类别对应的第一重要度wf,i和第i种类别对应的第二重要度wd,i之积,在此不做限定。
步骤S13:分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度。
本公开实施例中,参考片段为参考文档中一个文本片段。
在一个实施场景中,参考片段具体可以由用户指定,请结合参阅图3,用户可以指定嫌疑人张XX的讯问笔录中文本片段“案情描述1”为参考片段;或者,用户也可以指定嫌疑人李XX的讯问笔录中以序号①标注的矩形框内文本片段为参考片段,在此不做限定。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,也可以根据预设规则,从参考文档中选择一个文本片段作为参考片段。预设规则可以包括:从参考文档中依序选择一个文本片段作为参考片段,在此不做限定。请继续结合参阅3,可以先从参考文档“嫌疑人张XX的讯问笔录”中选择文本片段“案情描述1”作为参考片段,在利用该参考片段与待匹配文本内若干文本片段进行匹配之后,可以继续从参考文档“嫌疑人张XX的讯问笔录”中选择文本片段“案情描述2”作为参考片段,从而继续利用该参考片段与待匹配文本内若干文本片段进行匹配,以此类推,在此不再一一举例。
在一个实施场景中,参考文档内参考片段和待匹配文本内文本片段两者中同类别关键词语之间的匹配度具体可以采用如下方式得到:利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度,并利用两个关键词语各自所对应的语义表示,得到两个关键词语之间的第二匹配度,从而可以将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。上述方式,通过从字符、语义两个角度分别获取两个关键词语之间的第一匹配度、第二匹配度,并将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度,从而能够降低由于近义词、同义词等词语多样性表述可能发生匹配出错的概率,进而能够有利于提高匹配度的准确性,能够有利于进一步提升后续目标片段的召回。需要说明的是,目标片段表示待匹配文档中与参考片段涉及相同主题的文本片段。
在一个具体的实施场景中,在基于字符获取第一匹配度的过程中,具体可以采用包括但不限于:BM25、N-gram、最大公共子串等,在此不做限定。其中,BM25是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,其具体算法流程在此不再赘述;N-gram是一种基于统计语言模型的算法,其基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,每一个片段序列称为gram,其具体算法流程在此不再赘述;最大公共子串是寻找两个或多个已知字符串最长的子串,其具体算法流程在此不再赘述。例如,对于关键词语“电动自行车”和“电动代步车”,两者在字符层面具有较高的匹配度。
在另一个具体的实施场景中,在基于字符获取第一匹配度的过程中,为了进一步提高匹配准确性,还可以基于领域同义词语知识库对关键词语进行转换,得到关键词语的标准词语,再将两个关键词语分别所对应的关键词语进行匹配,得到两者之间的第一匹配度。领域同义词语知识库具体可以包括若干组词语组合,每组词语组合可以包括一个标准词语和若干个该标准词语的同义词语,例如,词语组合“电动自行车,电动代步车、电摩托、电瓶车、电动助力车”在此其中,标准词语为“电动自行车”,其同义词语包括:电动代步车、电摩托、电瓶车、电动助力车,其他情况可以以此类推,在此不再一一举例。在两个关键词语分别为“电摩托”和“电瓶车”的情况下,可以将“电摩托”转换为其标准词语“电动自行车”,并将“电瓶车”转换为其标准词语“电动自行车”,从而可以确定两个关键词语“电摩托”和“电瓶车”相互匹配。
在又一个具体的实施场景中,在基于语义获取第二匹配度的过程中,可以利用预训练的词向量,将两个关键词语分别进行向量映射,分别得到两个关键词语的语义表示,在此基础上,可以利用两个关键词语的语义表示之间的相似度(如,余弦相似度),得到两者之间的第二匹配度。
在又一个具体的实施场景中,为了便于后续处理,在两个关键词语匹配的情况下,可以将两者的匹配度设置为1,在两个关键词语不匹配的情况下,可以将两者之间的匹配度设置为0。例如,对于关键词语“电摩托”和“电瓶车”,可以将两者之间的匹配度设置为1;而对于关键词语“电摩托”和“脚踏车”,可以将两者之间的匹配度设置为0,其他情况可以以此类推,在此不再一一举例。
步骤S14:基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段。
具体地,可以利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性。在此基础上,可以基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段。上述方式,通过利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性,从而基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段,能够有利于提高所选择的候选片段的准确性。此外,通过选择候选片段,能够有利于提高文档匹配的效率。
在一个具体的实施场景中,可以利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性。请结合参阅表1,对于待匹配文档1而言,可以获取文本片段1中“作案时间类”、“作案地点类”、……、“人名类”等各类别关键词语的重要度,并利用上述各种类别的关键词语与参考文本中同类别的关键词语之间的匹配度对对应类别的关键词语的重要度进行加权求和,得到文本片段1与参考文本涉及相同主题的可能性,其他情况可以以此类推,在此不再一一举例。为了便于描述,可以将第i种类别的关键词语的重要度记为wi,第i种类别的关键词语对应的匹配度记为pi,则文本片段与参考片段涉及相同主题的可能性P可以表示为:
Figure BDA0002865339720000121
上述公式(1)中,N表示类别总数。
在另一个具体的实施场景中,为了进一步提高选择候选片段的准确性,还可以先利用参考片段中各个类别的关键词语的重要度对文本片段中对应类别的关键词语的重要度进行更新,在此基础上,再利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性。具体地,可以将参考片段中各个类别的关键词语的重要度乘以(或者加上)文本片段中对应类别的关键词语的重要度,从而更新文本片段中对应类别的关键词语的重要度。例如,参考文本中第i种类别关键词语的重要度w′i可以乘以(或加上)待匹配文本中第j个文本片段中第i种类别关键词语的重要度wi,从而可以更新该待匹配文本中第j个文本片段中第i种类别关键词语的重要度。
需要说明的是,尽管在现实场景中,文本片段之间可能存在信息不平衡的情况,即某一文本片段(如,前述包含“作案时间类”和“作案地点类”两种类别关键词语的文本片段1、文本片段2)可能包含较为丰富的信息,而另一文本片段(如,前述仅包含“作案时间类”关键词语的文本片段3)可能包含较少的信息,然而由于包含较少信息的文本片段中可能包含重要度较高的关键词语,故该文本片段与参考片段涉及相同主题的可能性也较高,故能够大大缓解信息不平衡给文档匹配造成的影响。
在又一个具体的实施场景中,在得到前述可能性之后,可以按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段。具体地,预设序位可以根据实际应用情况进行设置,如可以设置为2、3、4等等,在此不做限定。上述方式,通过按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段,能够有利于提高文档匹配的准确性和鲁棒性。
步骤S15:利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
请结合参阅图5,图5是本申请文档匹配方法一实施例的状态示意图。如图5所示,在得到多份文档之后,先获取关键词语以及关键词语的类别,在此基础上,得到各种类别关键词语的重要度和匹配度,从而在待匹配文档的文本片段中选择得到候选片段,然后,可以将参考片段的第一语义表示和候选片段的第二语义表示输入文档匹配模型,确定与参考片段涉及相同主题的目标片段。
在一个实施场景中,在将第一以表示和第二语义表示输入文档匹配模型之后,可以得到各个候选片段分别与参考片段之间的相关分值,从而可以基于相关分值,确定与参考片段涉及相同主题的目标片段。如,可以选择最高的相关分值所对应的候选片段,作为与参考片段涉及相同主题的目标片段。
在另一个实施场景中,请结合参阅图6,图6是文档匹配模型一实施例的框架示意图。如图6所示,在将第一语义表示和第二语义表示输入文档匹配模型之前,还可以基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,进而利用第一融合表示与各个候选片段的第二融合表示,得到参考片段与对应候选片段之间的相关分值,最终可以基于相关分值,确定与参考片段涉及相同主题的目标片段。具体地,第一语义表示和第二语义表示可以通过预训练向量映射得到的,如通过BERT模型预训练得到的词向量,可以映射得到参考片段中各个词语的词向量,并将参考片段中各个词语的词向量的组合,作为参考片段的第一语义表示,以及将候选片段中各个词语的词向量的组合,作为候选片段的第二语义表示,在此不再赘述。上述方式,通过基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,在此基础上预测参考片段与对应候选片段之间的相关分值,并基于相关分值,确定与参考片段涉及相同主题的目标片段,能够在文档匹配过程中,融合文本片段级的语义信息、字符匹配级的语义信息等多种粒度语义信息,从而能够有利于提高文档匹配的准确性。
在一个具体的实施场景中,具体可以统计各个候选片段中与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,从而可以基于最大数量和/或最小数量,得到匹配特征表示。例如,在文档匹配过程中,共包括N个(如,10个)候选片段,在这N个候选片段中,第j个候选片段与参考片段之间匹配度满足预设条件的关键词语共有Sj种类别,从而可以从Sj(其中,j∈[1,N])中提取最大值max和/或最小值min,以此来得到匹配特征表示[max,min]。此外,为了进一步丰富匹配特征表示,还可以基于上述最大值和/或最小值,以及各个候选片段与参考片段之间匹配度满足预设条件的关键词语的原始数量,得到匹配特征表示。仍以上述N个候选片段为例,匹配特征还可以表示为[max,min,S1,S2,…,Sj,…,SN]。上述预设条件具体可以包括:匹配度大于预设阈值(如,0),在此不做限定。上述方式,通过统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,并基于最大数量和/或最小数量,得到匹配特征表示,能够有利于基于候选片段与参考片段关于各种类别关键词语的匹配情况,构建得到字符匹配级别的语义信息,从而能够有利于进一步提高文档匹配的准确性。
在另一个具体的实施场景中,请继续结合参阅图6,文档匹配模型中可以包含与参考片段对应的第一编码网络,以及与候选片段对应的第二编码网络,从而可以利用第一编码网络对第一语义表示进行编码,得到第一编码表示,并利用第二编码网络对与其对应的候选片段的第二语义表示进行编码,得到第二编码表示,进而可以将第一编码表示和匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示和匹配特征表示进行拼接,得到第二融合表示。具体地,上述第一编码网络和第二编码网络可以包括但不限于:BERT等,在此不做限定。上述方式,通过利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示,并分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示,从而将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示,能够有利于降低语义融合的复杂度。
在又一个具体的实施场景中,请继续结合参阅图6,图6中圆形所示的操作表示计算第一融合表示和第二融合表示之间的余弦相似度,再得到各个候选片段分别与参考片段之间的余弦相似度之后,可以利用softmax函数对上述各个余弦相似度进行归一化处理,得到对应候选片段与参考片段之间的相关得分。
在又一个具体的实施场景中,为了提高候选推荐模型的准确性,还可以预先利用样本参考片段以及样本候选片段对候选推荐模型进行训练。此外,上述样本候选片段分别标注有与样本参考片段之间的标注相关得分,为了便于描述可以将第k个样本候选片段与样本参考片段之间的标注相似度记为yk。在此基础上,可以将样本参考片段的第一样本语义表示和各个样本候选片段的第二样本语义表示输入候选推荐模型,预测得到样本参考片段与对应样本候选片段之间的预测相似度,为了便于描述可以将第k个样本候选片段与样本参考片段之间的预测相似度记为zk,故可以进一步对上述标注相似度yk进行归一化,得到第k个样本候选片段sk与样本参考片段之间的实际相关得分p(sk),并可以进一步对上述预测相似度zk进行归一化,得到第k个样本候选片段sk与样本参考片段之间的预测相关得分
Figure BDA0002865339720000161
Figure BDA0002865339720000162
Figure BDA0002865339720000163
上述公式(2)和公式(3)中,m表示样本候选片段的总个数。在此基础上,可以利用交叉熵损失函数处理上述实际相关得分p(sk)和预测相关得分
Figure BDA0002865339720000164
得到文档匹配模型的损失值,从而可以利用该损失值,调整文档匹配模型的网络参数。为了便于描述,损失值可以表示为Lrank(pn):
Figure BDA0002865339720000165
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
请参阅图7,图7是图1中步骤S12一实施例的流程示意图。具体可以包括如下步骤:
步骤S71:分别将各个类别,作为当前类别。
请结合参阅前述公开实施例中表1,在文档为证据文书的情况下,可以分别将“作案时间类”、“作案地点类”等诸多类别分别作为当前类别,其他情况可以以此类推,在此不再一一举例。
步骤S72:在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数。
在一个实施场景中,可以利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度,以及利用两个关键词语各自对应的语义表示,得到两个关键词语之间的第二匹配度,从而可以将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在另一个实施场景中,预设条件具体可以包括:匹配度不小于预设阈值,即在当前类别的关键词语中,可以统计匹配度小于预设阈值的关键词语对数。预设阈值具体可以根据实际情况进行设置。例如,在匹配度仅包含0(表示不匹配)和1(表示匹配)两种数值的情况下,预设阈值可以设置为1;或者,在匹配度为取值范围为0至1的数值区间的情况下,预设阈值可以设置为0.7、0.8等,在此不做限定。此外,需要说明的是,在统计匹配度不满足预设条件的关键词语对数时,其统计范围包括关键词语所在的文档,即对于文本片段中各种类别的关键词语而言,可以在其所在文档内且属于当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数。
步骤S73:利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度。
本公开实施例中,不满足预设条件的关键词语对数越多,重要度越高,反之,不满足预设条件的关键词语对数越少,重要度越低。为了便于描述,上述利用不满足预设条件的关键词语对数所得到文本片段中当前类别i的关键词语的重要度可以记为wd,i,具体可以表示为:
Figure BDA0002865339720000181
上述公式(5)中,e为自然常数,Ui表示满足预设条件的关键词语对数,n表示待匹配文档内所包含的文本片段的数量,c表示区间调节系数,c的取值越大,重要度wd,i的变化区间越大。请结合参阅图8,图8是获取第一重要度和第二重要度一实施例的状态示意图。如图8所示,待匹配文档包括文本片段1、文本片段2和文本片段3,文本片段1包含“作案时间类”关键词语“13日下午”、“8月13日”和“2018年8月13日”,文本片段2包含“作案时间类”关键词语“2012年9月15日”,文本片段3包含“作案时间类”关键词语“2013年3月7日”,由于文本片段1中“作案时间类”关键词语“13日下午”、“8月13日”和“2018年8月13日”表示的是同一时间概念,故可以认为待匹配文档中“作案时间类”关键词语共包含3个,而由于这3个关键词语互不匹配,故可以将上述公式(5)中Ui取值为0,此外,由于待匹配文档中共包含3个文本片段,故n取值为3,最终可以得到该待匹配文档中“作案时间类”关键词语的重要度为ec。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,如前述公开实施例所述,预设范围还可以包括:关键词语所在的文本片段,在此基础上,可以在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,从而利用出现次数,得到文本片段中当前类别的关键词语的重要度,为了与前述重要度wd,i进行区分,可以将上述利用出现次数得到的重要度称为第一重要度wf,i,将前述重要度wd,i称为第二重要度,最终可以利用文本片段中当前类别的关键词语的第一重要度wf,i和第二重要度wd,i,得到文本片段中当前类别的关键词语的重要度。例如,可以将第一重要度wf,i和第二重要度wd,i相乘(或者相加),得到文本片段中当前类别的关键词语的重要度。上述方式,通过将预设范围设置为进一步包括关键词语所在的文本片段,从而在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,进而利用出现次数,得到文本片段中当前类别的关键词语的第一重要度,并利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度,在此基础上,再利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度,能够从文本片段内部维度以及待匹配文本中跨文本片段维度共同确定各种类别的关键词语的重要度,能够有利于提高重要度的准确性。
在一个具体的实施场景中,第i种类别的关键词语的第一重要度wf,i可以表示为:
Figure BDA0002865339720000191
上述公式(6)中,ni表示第i种类别的关键词语在其所在的文本片段中的出现次数,∑knk表示文本片段中各种类别的关键词语出现总次数,m表示平滑系数,具体可以根据实际应用需要进行设置,例如可以设置为5等,在此不做限定。请继续结合参阅图8,如在计算文本片段1中“作案时间类”关键词语的第一重要度时,可以获取“作案时间类”关键词语在文本片段1中的出现次数为3次,并统计文本片段1中各种类别关键词语的出现总次数,代入上述公式(6),即可得到文本片段1中“作案时间类”关键词语的第一重要度。其他情况可以以此类推,在此不再一一举例。
区别于前述实施例,通过分别将各个类别,作为当前类别,从而在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数,进而利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度,且不满足预设条件的关键词语对数越多,重要度越高,从而能够通过计算各种类别的关键词语的重要度,大大缓解信息不平衡给文档匹配造成的影响。
请参阅图9,图9是本申请电子设备90一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92,存储器91中存储有程序指令,处理器92用于执行程序指令以实现上述任一文档匹配方法实施例中的步骤。具体地,电子设备90可以包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器、手机等,在此不做限定。
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一文档匹配方法实施例中的步骤。处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由集成电路芯片共同实现。
本公开实例中,处理器92用于获取多份文档;多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语;处理器92用于利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度;预设范围包括:关键词语所在的文档;处理器92用于分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段;处理器92用于基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段;处理器92用于利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段。
上述方案,通过获取多份文档,且多份文档包括参考文档和待匹配文档,文档内包含若干文本片段,文本片段内含有若干种类别的关键词语,从而利用各个类别的关键词语在预设范围内的统计情况,获取文本片段中对应类别的关键词语的重要度,且预设范围包括:关键词语所在的文档,故该重要度能够反映对应类别的关键词语在其所在文档内的重要性,并且分别针对待匹配文档内各个文本片段,获取各个类别的关键词语与参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,参考片段为参考文档中一个文本片段,进而基于文本片段中各个类别的关键词语的重要度和匹配度,选择若干文本片段作为候选片段,在此基础上,再利用参考片段的第一语义表示和候选片段的第二语义表示,在候选片段中确定与参考片段涉及相同主题的目标片段,故能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
在一些公开实施例中,处理器92用于分别将各个类别,作为当前类别;处理器92用于在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数;处理器92用于利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度;其中,不满足预设条件的关键词语对数越多,重要度越高。
区别于前述实施例,通过分别将各个类别,作为当前类别,从而在当前类别的关键词语中,统计匹配度不满足预设条件的关键词语对数,进而利用不满足预设条件的关键词语对数,得到文本片段中当前类别的关键词语的重要度,且不满足预设条件的关键词语对数越多,重要度越高,从而能够通过计算各种类别的关键词语的重要度,大大缓解信息不平衡给文档匹配造成的影响。
在一些公开实施例中,处理器92用于利用两个关键词语各自所包含的字符,得到两个关键词语之间的第一匹配度;以及,处理器92用于利用两个关键词语各自所对应的语义表示,得到两个关键词语之间的第二匹配度;处理器92用于将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度。
区别于前述实施例,通过从字符、语义两个角度分别获取两个关键词语之间的第一匹配度、第二匹配度,并将第一匹配度、第二匹配度中的最大值,作为两个关键词语之间的匹配度,从而能够降低由于近义词、同义词等词语多样性表述可能发生匹配出错的概率,进而能够有利于提高匹配度的准确性,能够有利于进一步提升后续目标片段的召回。需要说明的是,目标片段表示待匹配文档中与参考片段涉及相同主题的文本片段。
在一些公开实施例中,预设范围还包括:关键词语所在的文本片段,处理器92用于在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数;处理器92用于利用出现次数,得到文本片段中当前类别的关键词语的第一重要度;处理器92用于利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度;处理器92用于利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度。
区别于前述实施例,通过将预设范围设置为进一步包括关键词语所在的文本片段,从而在当前类别的关键词语所在的文本片段中,统计关键词语的出现次数,进而利用出现次数,得到文本片段中当前类别的关键词语的第一重要度,并利用不满足预设条件的关键词语对数,得到文档中当前类别的关键词语的第二重要度,在此基础上,再利用文本片段中当前类别的关键词语的第一重要度和第二重要度,得到文本片段中当前类别的关键词语的重要度,能够从文本片段内部维度以及待匹配文本中跨文本片段维度共同确定各种类别的关键词语的重要度,能够有利于提高重要度的准确性。
在一些公开实施例中,处理器92用于利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性;处理器92用于基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段。
区别于前述实施例,通过利用文本片段中各个类别的关键词语的重要度和匹配度,获取对应文本片段与参考片段涉及相同主题的可能性,从而基于各个文本片段与参考片段涉及相同主题的可能性,选择若干文本片段作为候选片段,能够有利于提高所选择的候选片段的准确性。此外,通过选择候选片段,能够有利于提高文档匹配的效率。
在一些公开实施例中,处理器92用于利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性;和/或,处理器92用于按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段。
区别于前述实施例,通过利用文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应文本片段与参考片段涉及相同主题的可能性,能够快速地综合各个类别的关键词语的匹配度和重要度,且能够大大缓解信息不平衡给文档匹配造成的影响;而按照可能性由高到低的顺序,选择位于前预设序位的文本片段,作为候选片段,能够有利于“粗选”得到可能性较高的文本片段作为后续“精选”的候选片段,有利于提高文档匹配的效率。
在一些公开实施例中,处理器92用于基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示;处理器92用于将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示;处理器92用于利用第一融合表示与各个候选片段的第二融合表示,得到参考片段与对应候选片段之间的相关分值;处理器92用于基于相关分值,确定与参考片段涉及相同主题的目标片段。
区别于前述实施例,通过基于待匹配文档内文本片段与参考片段间关于关键词语的匹配度,得到参考文本与候选片段的匹配特征表示,从而将第一语义表示和匹配特征表示进行融合,得到第一融合表示,并将第二语义表示和匹配特征表示进行融合,得到第二融合表示,在此基础上预测参考片段与对应候选片段之间的相关分值,并基于相关分值,确定与参考片段涉及相同主题的目标片段,能够在文档匹配过程中,融合文本片段级的语义信息、字符匹配级的语义信息等多种粒度语义信息,从而能够有利于提高文档匹配的准确性。
在一些公开实施例中,处理器92用于统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量;处理器92用于基于最大数量和/或最小数量,得到匹配特征表示。
区别于前述实施例,通过统计各个候选片段与参考片段之间匹配度满足预设条件的关键词语的最大数量和/或最小数量,并基于最大数量和/或最小数量,得到匹配特征表示,能够有利于基于候选片段与参考片段关于各种类别关键词语的匹配情况,构建得到字符匹配级别的语义信息,从而能够有利于进一步提高文档匹配的准确性。
在一些公开实施例中,处理器92用于利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示;以及,处理器92用于分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示;处理器92用于将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示。
区别于前述实施例,通过利用与参考片段对应的第一编码网络对第一语义表示进行编码,得到第一编码表示,并分别利用与各个候选片段对应的第二编码网络对对应候选片段的第二语义表示进行编码,得到第二编码表示,从而将第一编码表示与匹配特征表示进行拼接,得到第一融合表示,并将第二编码表示与匹配特征表示进行拼接,得到第二融合表示,能够有利于降低语义融合的复杂度。
在一些公开实施例中,文档为证据文书,类别包括:案情要素类、文本实体类、案情经过类、地点解析类;和/或,文档为证据文书,文本片段为案情文本,主题为案情。
区别于前述实施例,通过将文档设置为证据文书,且类别设置为包括:案情要素类、文本实体类、案情经过类、地点解析类,能够适用于证据文本的文档匹配,且从不同维度、不同词语粒度等多角度定义关键词语,从而能够有利于提高后续匹配的准确性;而将文档设置为证据文书,文本片段设置为案情文本,主题设置为案情,能够有利于在待匹配文档中匹配到与参考文本同案情的案情文本。
请参阅图10,图10是本申请存储装置100一实施例的框架示意图。存储装置100存储有能够被处理器运行的程序指令101,程序指令101用于实现上述任一文档匹配方法实施例中的步骤。
上述方案,能够结合各个类别的关键词语的重要度和匹配度两个维度,有利于更加全面地衡量各个文本片段与参考片段之间涉及相同主题的可能性,且也有利于大大降低由于各个文本片段之间的信息不平衡而导致匹配出错的概率。故此,能够提高文档匹配的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种文档匹配方法,其特征在于,包括:
获取多份文档;所述多份文档包括参考文档和待匹配文档,所述文档内包含若干文本片段,所述文本片段内含有若干种类别的关键词语;
利用各个类别的关键词语在预设范围内的统计情况,获取所述文本片段中对应类别的关键词语的重要度;所述预设范围包括:所述关键词语所在的文档;
分别针对所述待匹配文档内各个所述文本片段,获取各个类别的关键词语与所述参考文档内参考片段中对应类别的关键词语之间的匹配度;其中,所述参考片段为所述参考文档中一个所述文本片段;
基于所述文本片段中各个类别的关键词语的重要度和匹配度,选择若干所述文本片段作为候选片段;
利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段。
2.根据权利要求1所述的方法,其特征在于,所述利用各个类别的关键词语在预设范围内的统计情况,获取所述文本片段中对应类别的关键词语的重要度,包括:
分别将各个所述类别,作为当前类别;
在所述当前类别的关键词语中,统计所述匹配度不满足预设条件的关键词语对数;
利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度;
其中,不满足所述预设条件的关键词语对数越多,所述重要度越高。
3.根据权利要求2所述的方法,其特征在于,两个所述关键词语之间的匹配度的获取步骤包括:
利用两个所述关键词语各自所包含的字符,得到两个所述关键词语之间的第一匹配度;以及,
利用两个所述关键词语各自所对应的语义表示,得到两个所述关键词语之间的第二匹配度;
将所述第一匹配度、所述第二匹配度中的最大值,作为两个所述关键词语之间的匹配度。
4.根据权利要求2所述的方法,其特征在于,所述预设范围还包括:所述关键词语所在的文本片段;在所述利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度之前,所述方法还包括:
在所述当前类别的关键词语所在的文本片段中,统计所述关键词语的出现次数;
利用所述出现次数,得到所述文本片段中所述当前类别的关键词语的第一重要度;
所述利用不满足所述预设条件的关键词语对数,得到所述文本片段中所述当前类别的关键词语的重要度,包括:
利用不满足所述预设条件的关键词语对数,得到所述文档中所述当前类别的关键词语的第二重要度;
利用所述文本片段中所述当前类别的关键词语的第一重要度和第二重要度,得到所述文本片段中所述当前类别的关键词语的重要度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述文本片段中各个类别的关键词语的重要度和匹配度,选择若干所述文本片段作为候选片段,包括:
利用所述文本片段中各个类别的关键词语的重要度和匹配度,获取对应所述文本片段与所述参考片段涉及相同所述主题的可能性;
基于各个所述文本片段与所述参考片段涉及相同所述主题的可能性,选择若干所述文本片段作为所述候选片段。
6.根据权利要求5所述的方法,其特征在于,所述利用所述文本片段中各个类别的关键词语的重要度和匹配度,获取对应所述文本片段与所述参考片段涉及相同所述主题的可能性,包括:
利用所述文本片段中各个类别的关键词语的匹配度对对应类别的关键词语的重要度进行加权求和,得到对应所述文本片段与所述参考片段涉及相同所述主题的可能性;
和/或,所述基于各个所述文本片段与所述参考片段涉及相同所述主题的可能性,选择若干所述文本片段作为所述候选片段,包括:
按照所述可能性由高到低的顺序,选择位于前预设序位的文本片段,作为所述候选片段。
7.根据权利要求1所述的方法,其特征在于,在所述利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段之前,所述方法还包括:
基于所述待匹配文档内所述文本片段与所述参考片段间关于所述关键词语的匹配度,得到所述参考文本与所述候选片段的匹配特征表示;
所述利用所述参考片段的第一语义表示和所述候选片段的第二语义表示,在所述候选片段中确定与所述参考片段涉及相同主题的目标片段,包括:
将所述第一语义表示和所述匹配特征表示进行融合,得到第一融合表示,并将所述第二语义表示和所述匹配特征表示进行融合,得到第二融合表示;
利用所述第一融合表示与各个所述候选片段的第二融合表示,得到所述参考片段与对应所述候选片段之间的相关分值;
基于所述相关分值,确定与所述参考片段涉及相同主题的目标片段。
8.根据权利要求7所述的方法,其特征在于,所述基于所述待匹配文档内所述文本片段与所述参考片段间关于所述关键词语的匹配度,得到所述参考文本与所述候选片段的匹配特征表示,包括:
统计各个所述候选片段与所述参考片段之间所述匹配度满足预设条件的关键词语的最大数量和/或最小数量;
基于所述最大数量和/或所述最小数量,得到所述匹配特征表示。
9.根据权利要求7所述的方法,其特征在于,所述将所述第一语义表示和所述匹配特征表示进行融合,得到第一融合表示,并将所述第二语义表示和所述匹配特征表示进行融合,得到第二融合表示,包括:
利用与所述参考片段对应的第一编码网络对所述第一语义表示进行编码,得到第一编码表示;以及,
分别利用与各个候选片段对应的第二编码网络对对应所述候选片段的第二语义表示进行编码,得到第二编码表示;
将所述第一编码表示与所述匹配特征表示进行拼接,得到所述第一融合表示,并将所述第二编码表示与所述匹配特征表示进行拼接,得到所述第二融合表示。
10.根据权利要求1所述的方法,其特征在于,所述文档为证据文书,所述类别包括:案情要素类、文本实体类、案情经过类、地点解析类;
和/或,所述文档为证据文书,所述文本片段为案情文本,所述主题为案情。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的文档匹配方法。
12.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至10任一项所述的问文档匹配方法。
CN202011581558.5A 2020-12-28 2020-12-28 文档匹配方法以及电子设备、存储装置 Pending CN112507709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581558.5A CN112507709A (zh) 2020-12-28 2020-12-28 文档匹配方法以及电子设备、存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581558.5A CN112507709A (zh) 2020-12-28 2020-12-28 文档匹配方法以及电子设备、存储装置

Publications (1)

Publication Number Publication Date
CN112507709A true CN112507709A (zh) 2021-03-16

Family

ID=74951621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581558.5A Pending CN112507709A (zh) 2020-12-28 2020-12-28 文档匹配方法以及电子设备、存储装置

Country Status (1)

Country Link
CN (1) CN112507709A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906170A (zh) * 2022-12-02 2023-04-04 杨磊 应用于存储集群的安全防护方法及ai系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
US20180032606A1 (en) * 2016-07-26 2018-02-01 Qualtrics, Llc Recommending topic clusters for unstructured text documents
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN110598200A (zh) * 2018-06-13 2019-12-20 北京百度网讯科技有限公司 语义识别方法及装置
CN110929498A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN111931477A (zh) * 2020-09-29 2020-11-13 腾讯科技(深圳)有限公司 文本匹配方法、装置、电子设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
US20180032606A1 (en) * 2016-07-26 2018-02-01 Qualtrics, Llc Recommending topic clusters for unstructured text documents
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN110598200A (zh) * 2018-06-13 2019-12-20 北京百度网讯科技有限公司 语义识别方法及装置
CN110929498A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN111931477A (zh) * 2020-09-29 2020-11-13 腾讯科技(深圳)有限公司 文本匹配方法、装置、电子设备以及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TING ZHANG等: "Multiresolution Graph Attention Networks for Relevance Matching", CIKM \'18: PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 17 October 2018 (2018-10-17) *
张扬武;李国和;王立梅;: "基于关键词加权的法律文本主题模型研究", 计算机与数字工程, no. 05, 20 May 2019 (2019-05-20) *
杨雨诗;何博侠;周鑫;刘慧丽;葛方丽;: "基于词库匹配的网络文本分类及预测", 计算机与现代化, no. 10, 15 October 2017 (2017-10-15) *
胡诗未;李晓峰;徐伟;: "基于主题词匹配频数的搜索引擎结果聚类算法", 计算机工程与科学, no. 06, 15 June 2011 (2011-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906170A (zh) * 2022-12-02 2023-04-04 杨磊 应用于存储集群的安全防护方法及ai系统
CN115906170B (zh) * 2022-12-02 2023-12-15 北京金安道大数据科技有限公司 应用于存储集群的安全防护方法及ai系统

Similar Documents

Publication Publication Date Title
CN111538827B (zh) 基于内容和图神经网络的判例推荐方法、装置及存储介质
CN106991085B (zh) 一种实体的简称生成方法及装置
CN110598086B (zh) 文章推荐方法、装置、计算机设备及存储介质
US20230177626A1 (en) Systems and methods for determining structured proceeding outcomes
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN110083774B (zh) 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN112507709A (zh) 文档匹配方法以及电子设备、存储装置
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN115858939A (zh) 一种同行召回方法、系统及存储介质
CN114818686A (zh) 基于人工智能的文本推荐方法及相关设备
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN115017267A (zh) 无监督的语义检索方法、装置及计算机可读存储介质
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN114579766A (zh) 知识图谱构建方法、装置、设备、存储介质和程序产品
CN113836261A (zh) 一种专利文本新颖性/创造性预测方法及装置
CN113688633A (zh) 一种提纲确定方法及装置
CN113626618A (zh) 基于跨篇章事件提取的案件串联方法、装置及相关组件
CN113392184A (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN113220843A (zh) 确定信息关联关系的方法、装置、存储介质和设备
CN114661858A (zh) 法律文书中存疑法条的识别方法、装置及相关设备
CN112395406A (zh) 庭审笔录的检索方法及装置
CN113850085B (zh) 企业的等级评估方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination