CN110532456B - 案件查询方法、装置、计算机设备和存储介质 - Google Patents
案件查询方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110532456B CN110532456B CN201910645163.8A CN201910645163A CN110532456B CN 110532456 B CN110532456 B CN 110532456B CN 201910645163 A CN201910645163 A CN 201910645163A CN 110532456 B CN110532456 B CN 110532456B
- Authority
- CN
- China
- Prior art keywords
- case
- queried
- matched
- cases
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 202
- 238000000605 extraction Methods 0.000 claims abstract description 75
- 238000004590 computer program Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 230000011218 segmentation Effects 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000006378 damage Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理领域,特别涉及数据查询,也即一种案件查询方法、装置、计算机设备和存储介质。方法包括:接收待查询案件并获取待匹配案件,计算待查询案件对应的词语特征向量;获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量;根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量;对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件所关联的初级近似案件;识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件。采用本方法能够从而提高案件查询的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种案件查询方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,用户可以通过网络从计算机上获取到不同信息,例如,用户可以根据当前出现的法律案件查询到相似的案件。
传统地,查询不同的案件之间是否有关联时是人工逐一对案件进行分析,从而确定案件是否为近似案件,而当案件数量较大时,通过人工对案件进行查询分析耗费时间长,导致查询效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高查询效率的案件查询方法、装置、计算机设备和存储介质。
一种案件查询方法,所述方法包括:
接收待查询案件并获取待匹配案件,计算所述待查询案件对应的词语特征向量;
获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量;
根据所述词语特征向量与所述信息特征向量生成所述待查询案件关联的目标关联向量;
对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,根据所述语义哈希码从所述待匹配案件中查询与所述待查询案件所关联的初级近似案件;
识别所述待查询案件的语义,根据所述待查询案件的语义特征从所述初级近似案件中选取目标近似案件。
在一个实施例中,所述计算所述待查询案件对应的词语特征向量,包括:
将所述待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与所述待查询案件对应的特征词语;
将所述案件关键词与所述特征词语进行匹配得到匹配结果,根据所述匹配结果计算所述案件关键词在所述待查询案件中的词频;查询所述待匹配案件的案件数量,根据所述待匹配案件的案件数量以及所述特征词语,计算所述案件关键词对应的特征权重;
根据所述词频与评价权重,计算所述待查询案件所对应的词语特征向量。
在一个实施例中,所述根据所述语义哈希码查询与所述待查询案件所关联的初级近似案件,包括:
获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量;
将所述语义哈希码与所述待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件进行提取作为第一初级近似子案件;
获取所述第一初级近似子案件的第一数量,将所述第一数量与所述预设数量进行比较;
当所述第一数量小于所述预设数量时,则计算所述第一数量与所述预设数量的差值;
根据所述差值,从所述待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与所述第二初级近似子案件作为初级近似案件。
在一个实施例中,所述获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量,包括:
获取所述待查询案件的信息提取逻辑,并提取所述待查询案件包含的案件语句;
根据所述信息提取逻辑,对所述案件语句添加信息类别标签;
根据所述信息类别标签生成信息特征向量。
在一个实施例中,所述对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:
获取所述目标关联向量包含的元素,根据所述元素获取元素参考值;
根据所述元素参考值,将所述目标关联向量中的元素按照预设值进行替换得到语义哈希码。
在一个实施例中,所述根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件,包括:
提取所述初级近似案件中的第一待匹配语义特征,并提取所述待查询案件的第二待匹配语义特征;
将所述第一待匹配语义特征与所述第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度;
当所述语义相似度高于阈值时,则将包含所述第一待匹配语义特征的所述初级近似案件作为目标近似案件。
一种文档查询装置,所述装置包括:
获取模块,用于接收待查询案件并获取待匹配案件,并计算所述待查询案件对应的词语特征向量;
计算模块,用于获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量;
生成模块,用于根据所述词语特征向量与所述信息特征向量生成所述待查询案件关联的目标关联向量;
转换模块,用于对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,根据所述语义哈希码从所述待匹配案件中查询与所述待查询案件所关联的初级近似案件;
选取模块,用于识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件。
在一个实施例中,所述获取模块,包括;
分词单元,用于将所述待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与所述待查询案件对应的特征词语;
词频计算单元,用于将所述案件关键词与所述特征词语进行匹配得到匹配结果,根据所述匹配结果计算所述案件关键词在所述待查询案件中的词频;
特征权重计算单元,用于查询所述待匹配案件的案件数量,根据所述待匹配案件的案件数量以及所述特征词语,计算所述案件关键词对应的特征权重;
词语特征向量计算单元,用于根据所述词频与评价权重,计算所述待查询案件所对应的词语特征向量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述案件查询方法,无需人工逐一对相关案件进行查询,只需接收待查询案件并获取待匹配案件,并计算待查询案件对应的词语特征向量,进而获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量,根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量,进而对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件所关联的初级近似案件,进而识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件,从而提高案件查询的效率。
附图说明
图1为一个实施例中案件查询方法的应用场景图;
图2为一个实施例中案件查询方法的流程示意图;
图3为一个实施例中词语特征向量计算步骤的流程示意图;
图4为一个实施例中案件查询装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文档查询方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。服务器104从终端102接收待查询案件,并获取到预存储的待匹配案件,进而服务器104计算待查询案件对应的词语特征向量,进而服务器104获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量,服务器104根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量,服务器104对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件关联的初级近似案件,进而服务器104识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文档从查询方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:接收待查询案件并获取待匹配案件,并计算待查询案件对应的词语特征向量。
具体地,待查询案件是指终端输入的需要进行查询近似案件的相关案件,可以是,终端将待查询案件输入至服务器,服务器查询与待查询案件有近似的案件过程以及判决结果等的案件。词语特征向量是指按照待查询案件中包含的关键词以及预设的特征词语进行计算得到的向量。待匹配案件是指预存储在服务器中的用于从中选择得到最终的目标近似案件的所有案件,且待匹配案件是服务器接收到从而进行存储的处理完成的案件,如在需要进行仲裁过程中,已处理完成的相关案件。
具体地,终端输入待查询案件,从而终端将待查询案件发送至服务器,进而服务器可以获取到预先存储的,需要从中选取到最终的目标近似案件的所有案件,也即获取到预先存储的处理完成的所有案件,服务器接收到待查询案件时,查询待查询案件中包含的关键词,进而根据关键词,计算每个关键词在待查询案件中的目标权重,也即每个关键词在待查询案件中的重要程度,进而将服务器根据不同关键词得到的目标权重进行组合得到词语特征向量。需要说明的是,目标权重是指关键词对于待查询案件中的评价重要度的权重。
S204:获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量。
具体地,信息提取逻辑是指从待查询案件中按照预存储的信息,从待查询案件中提取到对应的信息的规则逻辑,例如,可以是,可以根据信息提取逻辑查询待查询案件中是否包含有相应的案件信息,如案件类型,案件损伤等。信息特征向量是指按照信息提取逻辑,判断待查询案件中相关信息,根据相关信息生成的向量。具体地,服务器获取到信息提取逻辑,进而服务器将待查询案件按照信息提取逻辑提取到相关信息,进而根据按照信息提取逻辑提取到的相关信息计算待查询案件关联的信息特征向量。
可以是,服务器获取到信息提取逻辑,根据信息提取逻辑,查询待查询案件包含的案件关键语句,进而查询案件关键语句中是否有与信息提取逻辑相对应的信息,根据是否有对应的信息,获取到所关联的向量元素,从而将不同的向量元素进行组合得到信息特征向量。
例如,服务器获取到信息提取逻辑,信息提取逻辑是查询是否发生交易行为,是否有人身损害两种信息,进而服务器查询待查询案件包含的案件关键语句,并根据案件关键语句是否有交易行为或者人身损害两个信息,从而获取到两个信息分别对应的预设的向量元素,组成以上两个信息所对应的信息特征向量。
需要说明的是,服务器还可以将待查询案件输入到训练完成的信息分析模型中进行判断,进而判断待查询案件中包含的信息,进而根据是否包含信息,获取到是否包含信息所对应的向量元素,并根据向量元素生成信息特征向量,其中,信息分析模型是指训练完成的,可以表示待查询案件以及包含的相应信息的关系的模型,也即可以直接根据待查询案件查询到包含的信息。
S206:根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量。
具体地,目标关联向量是指对词语特征向量以及信息特征向量进行组合并且降维得到的相关向量。具体地,当服务器获取到词语特征向量与信息特征向量时,则将词语特征向量与信息特征向量进行组合,从而得到高维组合向量,进而对高维组合向量进行降维处理得到目标关联向量。可以是,当服务器获取到词语特征向量与信息特征向量时,则将词语特征向量与信息特征向量进行组合,如将信息特征向量中包含的元素添加至词语特征向量的元素,得到高维组合向量,进而将高维组合向量提输入至训练完成的降维模型中,对高维组合向量进行重构并提取出预设的中间结果作为降维结果,该降维结果即为目标关联向量。
S208:对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件所关联的初级近似案件。
具体地,语义哈希码是指对目标关联向量中不同的元素进行处理,使得目标关联向量中的元素组合成相应的二进制码。初级近似案件是指根据语义哈希码选择得到的相近似的案件。
具体地,服务器得到目标关联向量时,则获取到对应的处理逻辑,根据处理逻辑,查询目标关联向量中的不同元素对应的替换值,进而采用替换值对不同元素进行替换,从而将替换得到的结果作为语义哈希码,进而服务器获取到语义哈希码时,则获取到相关的待匹配案件,并提取待匹配案件的待匹配哈希码,从而将语义哈希码与待匹配哈希码进行匹配,根据匹配结果从待匹配案件中选取到对应初级近似案件。其中,根据语义哈希码查询到初级近似案件可以是将语义哈希码与待匹配案件的待匹配哈希码进行匹配,选取预设数量的、且匹配程度高于预设值的待匹配哈希码对应的待匹配案件作为初级近似案件。
S210:识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件。
具体地,目标近似案件是指最终选择得到的与待查询案件近似的案件。具体地,当服务器获取到初级近似案件时,则提取初级案件的案件语句,进而提取待查询案件的案件语句,根据提取到的待查询案件的案件语句得到待查询案件的语义,进而根据初级案件的案件语句得到初级案件的语义,将待查询案件的语义以及初级案件的语义进行匹配得到匹配结果,从而根据匹配结果从初级近似案件中选取目标近似案件。可以是,服务器获取到初级近似案件时,则提取初级案件的案件语句,进而提取待查询案件的案件语句,将初级案件的案件语句以及待查询案件的案件语句分别进行语义匹配,从而得到语义匹配的匹配度,进而得到不同的案件语句的语义匹配的匹配度,从而根据不同语义匹配的匹配度,计算得到待查询案件与不同的初级近似案件的语义相似度,从而服务器选取语义相似度超过预设值的初级近似案件作为目标近似案件。其中,根据不同语义匹配的匹配度计算待查询案件与不同的初级近似案件的语义相似度时可以是将不同语句的语义匹配的匹配度进行相加,或者获取到不同语句的语义匹配的匹配度的匹配权重,将匹配权重与匹配度相乘得到不同乘积,将不同乘积求和得到语义相似度。需要说明的是,服务器得到不同案件的语义可以是识别相应的语义特征,识别相应的语义特征可以采用对应的识别模型进行识别,也即识别模型可以是训练完成的,根据输入的语句输出确定的语义特征。
本实施例中,无需人工查询不同的案件,从而选取到与待查询案件相似的案件,从而可以提高案件的查询效率,且在查询时,为了进一步提高查询的效率,则将待查询案件转换为对应的目标关联向量,但由于目标关联向量为降维的向量,则转换为语义哈希码进行查询,从而可以提高查询的准确性,且查询时,当按照语义哈希码查询得到初级近似案件时,采用语义查询得到目标近似案件,进一步提高查询准确性。
在一个实施例中,请参见图3,提供一词语特征向量计算步骤的流程示意图,词语特征向量计算步骤,也即计算所述待查询案件对应的词语特征向量,包括:将待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与待查询案件对应的特征词语;将案件关键词与特征词语进行匹配得到匹配结果,根据匹配结果计算案件关键词在待查询案件中的词频;;获取待匹配案件,并查询待匹配案件的案件数量,根据待匹配案件的案件数量以及特征词语,计算关键词对应的特征权重;根据词频与评价权重,计算待查询案件所对应的词语特征向量。
具体地,案件关键词是指包含在待查询案件中采用分词逻辑进行拆分得到的不同词语。特征词语是指服务器预存储的,且在案件中出现的频率较多以及较重要的词语。特征权重是指评价案件关键词在待查询案件中的重要的程度的指标。待匹配案件是指预存储在服务器中的用于从中选择得到最终的目标近似案件的所有案件。
具体地,服务器获取到待查询案件对应的分词逻辑,服务器采用分词逻辑对待查询案件进行分词得到分词后的待查询案件,进而将分词后的待查询案件与实体数据库中存储的实体词语数据进行匹配,当匹配成功时,将匹配成功的分词后的待查询案件作为案件关键词,将该案件关键词进行提取,服务器获取到预存储的特征词语,当服务器获取到案件关键词与特征词语时,由于特征词语表示在案件中较为重要且出现频率较多的词语,因此,也即查询案件关键词中的特征词语进行计算,因此,服务器将案件关键词与特征词语进行匹配,将匹配成功的案件关键词进行提取,进而服务器统计到匹配成功的案件关键词在待查询案件中出现的次数作为词频,进而服务器获取到预存储的待匹配案件,也即服务器获取到预先进行存储的处理完成的案件,并且统计待匹配案件的案件数量,进而服务器统计包含有匹配成功的案件关键词的待匹配案件的包含数量,进而根据包含数量以及案件数量,计算得到匹配成功的案件关键词的特征权重,进而服务器根据上述得到的词频和特征权重,进行计算,得到词语特征向量中的元素,将得到的不同元素进行组合得到词语特征向量。其中,包含数量是指服务器统计包含有匹配成功的案件关键词的待匹配案件的数量,也即是包含有匹配成功的案件关键词的待匹配案件的数量。可以是,服务器获取到分词逻辑,按照分词逻辑将待查询案件进行分词得到不同的分词序列,进而计算每个分词序列对应的拆分正确率,将拆分正确率最高的分词序列作为分词后的待查询案件,其中,计算拆分正确率可以是服务器查询不同的分词序列中包含的分词词组对应的词语概率,计算所有的词语概率的乘积作为拆分正确率,进而服务器将分词后的待查询案件与实体数据库中存储的实体词语数据进行匹配,当匹配成功时,将匹配成功的分词后的待查询案件作为案件关键词,也即是对连词或者虚词等无实际含义的词语进行过滤,进而获取到预存储的特征词语,将分词后的待查询案件与特征词语进行匹配,当匹配成功时,则将匹配成功的案件关键词进行提取,可以是,匹配成功有一万个案件关键词,则先计算第一个匹配成功的案件关键词在待查询案件中出现的次数作为词频,进而服务器获取到待匹配案件,查询待匹配案件的案件数量,进而查询包含有第一个匹配成功的案件关键词的待匹配案件的数量作为包含数量,进而根据案件数量以及包含数量,计算第一个匹配成功的案件关键词的特征权重,进而计算第一个匹配成功的案件关键词的词频与特征权重的乘积,该乘积即为词语特征向量中第一维元素,且采用相同的方法,计算一万个匹配成功的案件关键词的对应的元素,将所有的元素进行组合作为词语特征向量。其中,计算特征权重可以采用公式(1)进行计算:
其中,N表示待匹配案件的案件数量,n(qi)表示包含了匹配成功的案件关键词的待匹配案件的包含数量qi表示不同的匹配成功的案件关键词。
需要说明的是,计算词语特征向量还可以是服务器将待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取到案件关键词,并获取与查询案件对应的特征词语,进而案件关键词与特征词语进行匹配,当案件关键词与特征向量未匹配成功时,则获取到预设的元素值作为词语特征向量中与未匹配成功的案件关键词对应的元素,预设的元素值可以是0等。而当匹配成功时,则将匹配成功的案件关键词计算待查询案件中的词频,并获取待匹配案件,查询待匹配案件的案件数量,以及包含有匹配成功的案件关键词的包含数量,根据上述公式,计算匹配成功的案件关键词对应的特征权重,进而根据词频与特征权重,计算匹配成功的案件关键词作为词语特征向量中的元素,因此,将未匹配成功的案件关键词得到的元素,以及匹配成功的案件关键词得到的元素进行组合得到词语特征向量。
本实施例中,服务器计算得到的词语特征向量准确,且由相应的特征词语作为参考,使得得到的词语特征向量更加全面,使得后续查找目标近似案件准确。
在一个实施例中,根据所述语义哈希码查询与所述待查询案件所关联的初级近似案件,包括:获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量;将语义哈希码与待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件;获取第一初级近似子案件的第一数量,将第一数量与预设数量进行比较;当第一数量小于预设数量时,则计算第一数量与预设数量的差值;根据差值,从待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与第二初级近似子案件作为初级近似案件。
具体地,待匹配哈希码是指与待匹配案件进行向量化,并将得到的向量中的元素进行处理,从而得到的二进制码。具体地,由于待查询案件为了查询效率高以及准确性高,则生成了语义哈希码,因此,服务器将预存储的待匹配案件转换为对应的待匹配案件向量,也即计算待匹配案件对应的词语特征向量以及待匹配案件对应的信息特征向量,进而根据待匹配案件对应的词语特征向量以及待匹配案件对应的信息特征向量生成待匹配案件向量,服务器对待匹配案件进行处理得到待匹配哈希码,匹配哈希码可以是将待匹配案件向量中不同元素采用预设值进行替换生成的。
服务器获取到初级近似案件的预设数量,也即是需要从待匹配案件中选取到的初级近似案件的数量,进而服务器将语义哈希码分别与得到不同的待匹配哈希码进行匹配,服务器将语义哈希码与得到不同的待匹配哈希码进行匹配可以是,将每一位语义哈希码与对应位的待匹配哈希码进行匹配,当匹配成功时,也即语义哈希码与待匹配哈希码完全一致时,则将完全一致的待匹配哈希码对应的待匹配案件作为第一初级近似案件,并统计第一初级近似案件的第一数量,服务器将第一数量与预设数量进行比较,当第一数量大于等于预设数量时,则将第一初级近似子案件作为初级近似案件,且当第一数量大于预设数量时,则将所有的第一初级近似子案件均作为初级近似案件;当第一数量小于预设数量时,则服务器计算第一数量与预设数量的差值,进而服务器计算将待匹配哈希码与语义哈希码进行匹配,服务器将匹配时与语义哈希码中只有一位不同的待匹配哈希码进行提取,进而将与语义哈希码只有一位不同的待匹配哈希码对应的待匹配案件作为补充近似子案件,进而统计补充近似子案件的补充案件数量,并将补充案件数量与差值进行比较,当补充案件数量的差值大于等于差值时,则将补充近似子案件作为第二初级近似子案件,并将第一初级近似子案件与第二初级近似子案件进行提取作为初级近似子案件,若补充近似子案件的数量仍小于差值时,则再获取与语义哈希码相差两位的案件,进行统计与语义哈希码相差两位的案件的数量,直至所有选择得到的案件的数量达到预设数量。
本实施例中,服务器获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量,将语义哈希码与待匹配哈希码进行匹配,当匹配成功时,则将待匹配哈希码对应的待匹配案件进行提取作为第一初级近似子案件,当获取第一初级近似子案件的第一数量,将第一数量与预设数量进行比较,当第一数量小于预设数量时,则计算第一数量与预设数量的差值,根据差值从待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与第二初级近似子案件作为初级近似案件,从而保证选取的初级近似案件更加全面,保证筛选得到的目标近似案件准确。
在一个实施例中,获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量,包括:获取待查询案件的信息提取逻辑,并提取待查询案件包含的案件语句;根据信息提取逻辑,对案件语句添加信息类别标签;根据信息类别标签生成信息特征向量。
具体地,信息类别标签是指根据信息提取逻辑相对应的信息的标识,也即根据该信息标识,可以获取到预设值作为信息特征向量中的元素,进而将该元素进行组合作为信息特征向量。具体地,服务器获取到待查询案件的信息提取逻辑,进而服务器从待查询案件中将待查询案件的案件语句进行提取,可以是,服务器获取到预设标识符,提取预设标识符之间的数据作为案件语句,进而服务器根据信息提取逻辑,查询案件语句是否与信息提取逻辑匹配,当匹配时,则将案件语句添加对应的信息类别标签,服务器对语句添加了信息类别标签时,按照信息类别标签,获取到对应的元素值,将元素值进行组合得到信息特征向量。
可以是,服务器获取到待查询案件的信息提取逻辑,如提取逻辑为是否为交易行为,是否有人身伤害,是否在公共场所等信息提取逻辑,进而服务器从待查询案件将包含的案件语句进行提取,也即服务器检测不同的标识符,如标点符号,将检测到的标点符号之间的数据进行提取作为案件语句,进而按照信息提取逻辑,查询到案件语句是否涉及到相应的信息提取逻辑,当涉及到对应的信息提取逻辑时,则添加有信息类别标签,如交易行为标签,未涉及人身伤害标签,场所为公共场所标签,因此,服务器得到了添加有不同的信息类别标签的待查询案件,进而服务器获取到与信息提取逻辑数量对应的维度的初始向量,服务器查询信息类别标签,根据信息类别标签,将每一维元素按照预设值进行设置,从而生成信息特征向量,如当信息类别标签表示为信息提取逻辑中判断为是时,则设置的预设值为1,如是交易行为,则对应维度的元素设置为1,当信息类别标签表示为信息提取逻辑中判断为否时,如不是交易行为,则设置的预设值为0,因此得到信息特征向量。
需要说明的是,服务器还可以将待查询案件中的案件语句进行提取,进而将案件语句输入至训练完成的评价模型中,进而通过评价模型提取到案件语句的关键词特征,根据关键词特征,输出对应的信息类别标签,根据信息类别标签,生成信息特征向量。其中,评价模型是指可以判断案件语句与信息标签之间关系的模型。
本实施例中,服务器获取到待查询案件的信息提取逻辑,并提取待查询案件包含的案件语句,根据信息提取逻辑,对案件语句添加信息类别标签,进而服务器查询信息类别标签,根据信息类别标签生成信息特征向量,生成信息特征向量简单易行,效率高,从而提高查询目标近似案件的效率。
在一个实施例中,对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:获取目标关联向量包含的元素,根据元素获取元素参考值;根据元素参考值,将目标关联向量中的元素按照预设值进行替换得到语义哈希码。
具体地,元素参考值是指按照该值可以采用不同的预设值对目标关联向量中的元素值进行替换,元素参考值可以是元素的中位数,可以是元素的平均值等。当服务器生成目标关联向量时,则可以根据目标关联向量中包含的不同的元素生成对应的语义哈希码,也即服务器获取到目标关联向量包含的不同元素,进而查询元素参考值的类型,根据元素参考值的类型采用不同元素计算得到不同元素参考值,进而服务器分别将每一维元素与元素参考值进行比较,当包含在目标关联向量中的元素超过元素参考值时,则服务器获取到第一预设值,将超过元素参考值的元素采用第一预设值进行替换,进而当包含在目标关联向量中的元素未超过元素参考值时,则服务器获取到第二预设值,将未超过元素参考值的元素采用第二预设值进行替换,服务器将采用第一预设值与第二预设值进行替换得到语义哈希码。
例如,当服务器获取到目标关联向量时,则计算目标关联向量的元素参考值,如查询到元素参考值为元素中位数时,则服务器计算得到元素中位数,进而服务器分别将每一维元素与元素中位数进行比较,当包含在目标关联向量中的元素的值超过元素中位数时,则服务器获取到第一预设值,如第一预设值为1,将超过元素中位数的元素采用第一预设值进行替换,进而当包含在目标关联向量中的元素未超过元素中位数时,则服务器获取到第二预设值,如第二预设值为0,将未超过元素中位数的元素采用第二预设值进行替换,服务器将采用第一预设值与第二预设值进行替换得到语义哈希码。另外,当获取到元素参考值为元素平均数时,则服务器先计算所有元素的平均数,进而再采用相同的步骤对不同元素进行替换得到语义哈希码。
本实施例中,服务器可以根据元素参考值,对目标关联向量中的元素按照预设值进行替换得到语义哈希码,生成语义哈希码效率高。
在一个实施例中,识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件,包括:提取初级近似案件中的第一待匹配语义特征,并提取待查询案件的第二待匹配语义特征;将第一待匹配语义特征与第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度;当语义相似度高于阈值时,则将包含第一待匹配语义特征的初级近似案件作为目标近似案件。
具体地,第一待匹配语义特征是指包含在初级近似案件中的,且为语义分析模型进行语义判断时所采用的特征值,如为相应的特征关键词等。第二待匹配语义特征是指包含在待查询案件中的,且为语义分析模型判断时所采用的特征值,如相应的包含在待查询案件中关键词等。语义相似度是待查询案件以及初级近似案件根据语义判断的相似度。语义分析模型是指可以根据所需的特征值,计算得到包含特征值的相关数据之间的相似度的模型。
具体地,当服务器获取到初级近似案件时,还可以进一步进行查询,从而得到目标近似案件,且进一步查询可以时查询相关的语义。当服务器获取到初级近似案件时,则从初级近似案件中提取对应的第一待匹配语义特征,进而从待查询案件中提取到第二待匹配语义特征,进而服务器将第一待匹配语义特征与第二待匹配语义特征输入至训练得到的语义分析模型中,通过语义分析模型,根据第一待匹配语义特征与第二待匹配语义特征计算得到语义相似度,进而服务器获取到阈值,将语义相似度与阈值进行比较,当语义相似度高于阈值时,则服务器查询语义相似度对应的第一待匹配语义特征以及第二待匹配语义特征,进而将包含第一待匹配语义特征的初级近似案件作为目标近似案件。
本实施例中,服务器可以根据得到的初级近似案件可以进一步查询目标近似案件,且查询过程中可以采用语义进行查询,使得查询目标近似案件准确。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种案件查询装置400,包括:获取模块410、计算模块420、生成模块430、转换模块440和选取模块450,其中:
获取模块410,用于接收待查询案件并获取待匹配案件,并计算所述待查询案件对应的词语特征向量;
计算模块420,用于获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量;
生成模块430,用于根据所述词语特征向量与所述信息特征向量生成所述待查询案件关联的目标关联向量;
转换模块440,用于对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,根据所述语义哈希码从所述待匹配案件中查询与所述待查询案件所关联的初级近似案件;
选取模块450,用于识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件。
在一个实施例中,所述获取模块410,包括;
分词单元,用于将所述待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与所述待查询案件对应的特征词语;
词频计算单元,用于将案件关键词与特征词语进行匹配得到匹配结果,根据匹配结果计算案件关键词在待查询案件中的词频;
特征权重计算单元,用于查询所述待匹配案件的案件数量,根据所述待匹配案件的案件数量以及所述特征词语,计算所述案件关键词对应的特征权重;
词语特征向量计算单元,用于根据所述词频与评价权重,计算所述待查询案件所对应的词语特征向量。
在一个实施例中,选取模块450,包括:
第一获取单元,用于获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量;
匹配单元,用于将所述语义哈希码与所述待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件;
比较单元,用于获取所述第一近似初级子案件的第一数量,将所述第一数量与所述预设数量进行比较;
差值计算单元,用于当所述第一数量小于所述预设数量时,则计算所述第一数量与所述预设数量的差值;
选取单元,用于根据所述差值,从所述待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与所述第二初级近似子案件作为初级近似案件。
在一个实施例中,计算模块420,包括:
语句提取单元,用于获取所述待查询案件的信息提取逻辑,并提取所述待查询案件包含的案件语句;
添加单元,用于根据所述信息提取逻辑,对所述案件语句添加信息类别标签;
向量生成单元,用于根据所述信息类别标签生成信息特征向量。
在一个实施例中,转换模块440,包括:
第二获取单元,用于获取所述目标关联向量包含的元素,根据所述元素获取元素参考值;
替换单元,用于根据所述元素参考值,将所述目标关联向量中的元素按照预设值进行替换得到语义哈希码。
在一个实施例中,选取模块450,包括:
特征提取单元,用于提取所述初级近似案件中的第一待匹配语义特征,并提取所述待查询案件的第二待匹配语义特征;
输入单元,用于将所述第一待匹配语义特征与所述第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度;
选取单元,用于当所述语义相似度高于阈值时,则将包含所述第一待匹配语义特征的所述初级近似案件作为目标近似案件。
关于案件查询装置的具体限定可以参见上文中对于案件查询方法的限定,在此不再赘述。上述案件查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储案件查询数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种案件查询方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收待查询案件并获取待匹配案件,计算待查询案件对应的词语特征向量。获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量。根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量。对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件所关联的初级近似案件。识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件。
在一个实施例中,处理器执行计算机程序时实现计算待查询案件对应的词语特征向量,包括:将待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与待查询案件对应的特征词语。将案件关键词与特征词语进行匹配得到匹配结果,根据匹配结果计算案件关键词在待查询案件中的词频。。查询待匹配案件的案件数量,根据待匹配案件的案件数量以及特征词语,计算案件关键词对应的特征权重。根据词频与评价权重,计算待查询案件所对应的词语特征向量。
在一个实施例中,处理器执行计算机程序时实现根据语义哈希码查询与待查询案件所关联的初级近似案件,包括:获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量。将语义哈希码与待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件。获取第一初级近似子案件的第一数量,将第一数量与预设数量进行比较。当第一数量小于预设数量时,则计算第一数量与预设数量的差值。根据差值,从待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与第二初级近似子案件作为初级近似案件。
在一个实施例中,处理器执行计算机程序时实现获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量,包括:获取待查询案件的信息提取逻辑,并提取待查询案件包含的案件语句。根据信息提取逻辑,对案件语句添加信息类别标签。根据信息类别标签生成信息特征向量。
在一个实施例中,处理器执行计算机程序时实现对目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:获取目标关联向量包含的元素,根据元素获取元素参考值。根据元素参考值,将目标关联向量中的元素按照预设值进行替换得到语义哈希码。
在一个实施例中,处理器执行计算机程序时实现识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件,包括:提取初级近似案件中的第一待匹配语义特征,并提取待查询案件的第二待匹配语义特征。将第一待匹配语义特征与第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度。当语义相似度高于阈值时,则将包含第一待匹配语义特征的初级近似案件作为目标近似案件。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收待查询案件并获取待匹配案件,计算待查询案件对应的词语特征向量。获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量。根据词语特征向量与信息特征向量生成待查询案件关联的目标关联向量。对目标关联向量中不同维度的元素进行转换得到语义哈希码,根据语义哈希码从待匹配案件中查询与待查询案件所关联的初级近似案件。识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件。
在一个实施例中,计算机程序被处理器执行时实现计算待查询案件对应的词语特征向量,包括:将待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与待查询案件对应的特征词语。将案件关键词与特征词语进行匹配得到匹配结果,根据匹配结果计算案件关键词在待查询案件中的词频。。查询待匹配案件的案件数量,根据待匹配案件的案件数量以及特征词语,计算案件关键词对应的特征权重。根据词频与评价权重,计算待查询案件所对应的词语特征向量。
在一个实施例中,计算机程序被处理器执行时实现根据语义哈希码查询与待查询案件所关联的初级近似案件,包括:获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量。将语义哈希码与待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件。获取第一初级近似子案件的第一数量,将第一数量与预设数量进行比较。当第一数量小于预设数量时,则计算第一数量与预设数量的差值。根据差值,从待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与第二初级近似子案件作为初级近似案件。
在一个实施例中,计算机程序被处理器执行时实现获取待查询案件关联的信息提取逻辑,根据信息提取逻辑计算待查询案件关联的信息特征向量,包括:获取待查询案件的信息提取逻辑,并提取待查询案件包含的案件语句。根据信息提取逻辑,对案件语句添加信息类别标签。根据信息类别标签生成信息特征向量。
在一个实施例中,计算机程序被处理器执行时实现对目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:获取目标关联向量包含的元素,根据元素获取元素参考值。根据元素参考值,将目标关联向量中的元素按照预设值进行替换得到语义哈希码。
在一个实施例中,计算机程序被处理器执行时实现识别待查询案件的语义,根据待查询案件的语义从初级近似案件中选取目标近似案件,包括:提取初级近似案件中的第一待匹配语义特征,并提取待查询案件的第二待匹配语义特征。将第一待匹配语义特征与第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度。当语义相似度高于阈值时,则将包含第一待匹配语义特征的初级近似案件作为目标近似案件。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种案件查询方法,所述方法包括:
接收待查询案件并获取待匹配案件,将所述待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与所述待查询案件对应的特征词语;
将所述案件关键词与所述特征词语进行匹配得到匹配结果,根据所述匹配结果计算所述案件关键词在所述待查询案件中的词频;
查询所述待匹配案件的案件数量,根据所述待匹配案件的案件数量以及所述特征词语,计算所述案件关键词对应的特征权重;
根据所述词频与所述特征权重,计算所述待查询案件所对应的词语特征向量;所述词语特征向量为按照待查询案件中包含的关键词以及预设的特征词语进行计算得到的向量;
获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量;所述信息特征向量为按照信息提取逻辑,提取待查询案件中相关信息,根据相关信息生成的向量;
根据所述词语特征向量与所述信息特征向量生成所述待查询案件关联的目标关联向量;
对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,根据所述语义哈希码从所述待匹配案件中查询与所述待查询案件所关联的初级近似案件;
识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语义哈希码查询与所述待查询案件所关联的初级近似案件,包括:
获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量;
将所述语义哈希码与所述待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件;
获取所述第一初级近似子案件的第一数量,将所述第一数量与所述预设数量进行比较;
当所述第一数量小于所述预设数量时,则计算所述第一数量与所述预设数量的差值;
根据所述差值,从所述待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与所述第二初级近似子案件作为初级近似案件。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量,包括:
获取所述待查询案件的信息提取逻辑,并提取所述待查询案件包含的案件语句;
根据所述信息提取逻辑,对所述案件语句添加信息类别标签;
根据所述信息类别标签生成信息特征向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,包括:
获取所述目标关联向量包含的元素,根据所述元素获取元素参考值;
根据所述元素参考值,将所述目标关联向量中的元素按照预设值进行替换得到语义哈希码。
5.根据权利要求1所述的方法,其特征在于,所述识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件,包括:
提取所述初级近似案件中的第一待匹配语义特征,并提取所述待查询案件的第二待匹配语义特征;
将所述第一待匹配语义特征与所述第二待匹配语义特征输入至训练得到的语义分析模型中进行计算得到语义相似度;
当所述语义相似度高于阈值时,则将包含所述第一待匹配语义特征的所述初级近似案件作为目标近似案件。
6.一种文档查询装置,其特征在于,所述装置包括:
获取模块,用于接收待查询案件并获取待匹配案件,将所述待查询案件进行分词得到分词后的待查询案件,从分词后的待查询案件中提取案件关键词,并获取与所述待查询案件对应的特征词语;将所述案件关键词与所述特征词语进行匹配得到匹配结果,根据所述匹配结果计算所述案件关键词在所述待查询案件中的词频;查询所述待匹配案件的案件数量,根据所述待匹配案件的案件数量以及所述特征词语,计算所述案件关键词对应的特征权重;根据所述词频与所述特征权重,计算所述待查询案件所对应的词语特征向量;所述词语特征向量为按照待查询案件中包含的关键词以及预设的特征词语进行计算得到的向量;
计算模块,用于获取所述待查询案件关联的信息提取逻辑,根据所述信息提取逻辑计算所述待查询案件关联的信息特征向量;所述信息特征向量为按照信息提取逻辑,提取待查询案件中相关信息,根据相关信息生成的向量;
生成模块,用于根据所述词语特征向量与所述信息特征向量生成所述待查询案件关联的目标关联向量;
转换模块,用于对所述目标关联向量中不同维度的元素进行转换得到语义哈希码,根据所述语义哈希码从所述待匹配案件中查询与所述待查询案件所关联的初级近似案件;
选取模块,用于识别所述待查询案件的语义,根据所述待查询案件的语义从所述初级近似案件中选取目标近似案件。
7.根据权利要求6所述的装置,其特征在于,所述选取模块,包括:
第一获取单元,用于获取待匹配案件的待匹配哈希码,并获取与初级近似案件对应的预设数量;
匹配单元,用于将所述语义哈希码与所述待匹配哈希码进行匹配,当匹配成功时,则将匹配成功的待匹配哈希码对应的待匹配案件作为第一初级近似子案件;
比较单元,用于获取所述第一初级近似子案件的第一数量,将所述第一数量与所述预设数量进行比较;
差值计算单元,用于当所述第一数量小于所述预设数量时,则计算所述第一数量与所述预设数量的差值;
选取单元,用于根据所述差值,从所述待匹配案件中选取第二初级近似子案件,将第一初级近似子案件与所述第二初级近似子案件作为初级近似案件。
8.根据权利要求6所述的装置,其特征在于,所述计算模块,包括:
语句提取单元,用于获取所述待查询案件的信息提取逻辑,并提取所述待查询案件包含的案件语句;
添加单元,用于根据所述信息提取逻辑,对所述案件语句添加信息类别标签;
向量生成单元,用于根据所述信息类别标签生成信息特征向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514576 | 2019-06-14 | ||
CN2019105145762 | 2019-06-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532456A CN110532456A (zh) | 2019-12-03 |
CN110532456B true CN110532456B (zh) | 2023-06-27 |
Family
ID=68660277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910645163.8A Active CN110532456B (zh) | 2019-06-14 | 2019-07-17 | 案件查询方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532456B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535933B (zh) * | 2021-06-01 | 2023-07-25 | 科大讯飞股份有限公司 | 案例检索方法及装置和电子设备、存储装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016066012A (ja) * | 2014-09-25 | 2016-04-28 | 日本電信電話株式会社 | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN109871429A (zh) * | 2019-01-31 | 2019-06-11 | 郑州轻工业学院 | 融合Wikipedia分类及显式语义特征的短文本检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11063966B2 (en) * | 2017-06-15 | 2021-07-13 | Crowdstrike, Inc. | Data-graph information retrieval using automata |
-
2019
- 2019-07-17 CN CN201910645163.8A patent/CN110532456B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016066012A (ja) * | 2014-09-25 | 2016-04-28 | 日本電信電話株式会社 | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム |
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN109871429A (zh) * | 2019-01-31 | 2019-06-11 | 郑州轻工业学院 | 融合Wikipedia分类及显式语义特征的短文本检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110532456A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413730B (zh) | 文本信息匹配度检测方法、装置、计算机设备和存储介质 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
US11232141B2 (en) | Method and device for processing an electronic document | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN110348214B (zh) | 对恶意代码检测的方法及系统 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN113255370B (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
CN110008250B (zh) | 基于数据挖掘的社保数据处理方法、装置和计算机设备 | |
CN111160017A (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN110737818B (zh) | 网络发布数据处理方法、装置、计算机设备和存储介质 | |
CN111178949B (zh) | 服务资源匹配参考数据确定方法、装置、设备和存储介质 | |
CN110135888B (zh) | 产品信息推送方法、装置、计算机设备和存储介质 | |
CN109829302B (zh) | Android恶意应用家族分类方法、装置与电子设备 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110781677B (zh) | 药品信息匹配处理方法、装置、计算机设备和存储介质 | |
US20160147867A1 (en) | Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN110532456B (zh) | 案件查询方法、装置、计算机设备和存储介质 | |
CN112749539B (zh) | 文本匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN109471717B (zh) | 样本库拆分方法、装置、计算机设备及存储介质 | |
CN114077685A (zh) | 一种图像检索方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |