CN110532229B - 证据文件检索方法、装置、计算机设备和存储介质 - Google Patents
证据文件检索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110532229B CN110532229B CN201910645277.2A CN201910645277A CN110532229B CN 110532229 B CN110532229 B CN 110532229B CN 201910645277 A CN201910645277 A CN 201910645277A CN 110532229 B CN110532229 B CN 110532229B
- Authority
- CN
- China
- Prior art keywords
- evidence
- label
- file
- content
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000009434 installation Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据分析领域,特别涉及一种证据文件检索方法、装置、计算机设备和存储介质。所述方法包括:接收输入的检索请求,检索请求携带有案由内容和请求内容;根据语义识别技术从案由内容中提炼出案由关键字,并从请求内容中提炼出请求关键字;从预设的文件数据库中检索得到包含案由关键字和请求关键字的证据文件,并为证据文件标注证据标签,证据标签是用于表征证据文件的主题内容的标签;输出标注好证据标签的证据文件。采用本方法能够有效地提高检索结果的可利用性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种证据文件检索方法、装置、计算机设备和存储介质。
背景技术
随着生活水平的提高,人们的法律意识也逐渐提高,在这个网络技术高度发展和智能终端被广泛应用时代,用户可以通过手机或电脑等智能终端实现越来越多的功能;对于面对一些法律疑问的用户,线上检索与自己疑问相关的证据文件也变得可行。
传统地,用户对于证据文书的检索是基于用户输入的内容与证据文件之间的关联进行的,然而通过此方式检索得到的证据文件需要用户再对搜索到的文书自行分析,在用户需要利用此证据文件进行说理或者进行进一步检索时,其可利用性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高检索结果的可利用性的证据文件检索方法、装置、计算机设备和存储介质。
一种证据文件检索方法,所述方法包括:
接收输入的检索请求,所述检索请求携带有案由内容和请求内容;
根据语义识别技术从所述案由内容中提炼出案由关键字,并从所述请求内容中提炼出请求关键字;
从预设的文件数据库中检索得到包含所述案由关键字和所述请求关键字的证据文件,并为所述证据文件标注证据标签,所述证据标签是用于表征所述证据文件的主题内容的标签;
输出标注好所述证据标签的所述证据文件。
在其中一个实施例中,所述为所述证据文件标注证据标签,包括:
识别所述证据文件中的证据项;
获取证据项分类标准,并根据所述证据项分类标准判断所述证据项所属的证据类型;
根据设定好的证据类型和证据标签的映射关系获取与所述证据类型对应的证据标签;
将所述证据标签添加到所述证据文件中。
在其中一个实施例中,所述为所述证据文件标注证据标签,包括:
将所述证据文件输入训练好的标签模型中得到所述证据文件对应的证据标签,所述标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;
将所述证据标签添加到所述证据文件中。
在其中一个实施例中,所述将所述证据标签添加到所述证据文件中之前,还包括:
获取所述证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据所述决策权重对所述证据标签进行排序;
所述将所述证据标签添加到所述证据文件中,包括:
将所述证据标签与所述证据标签对应的决策权重按照排序后的顺序依次添加到所述证据文件中。
在其中一个实施例中,所述获取所述证据类型的历史案件中证据标签对应的历史判决结果的决策权重之后,还包括:
将所述决策权重不低于预设值的所述证据标签划分为核心标签,将所述决策权重低于预设值的所述证据标签划分为非核心标签;
所述将所述证据标签与所述证据标签对应的决策权重按照排序后的顺序依次添加到所述证据文件中,包括:
将所述核心标签和所述非核心标签以不同的标注方式按照排序后的顺序依次添加到所述证据文件中。
在其中一个实施例中,所述接收输入的检索请求,包括:
接收检索字段,获取根据检索历史得到的与所述第一检索字段对应的预测查询内容字段;
显示所述预测查询内容;
接收与所述显示的预测查询内容对应的选择指令;
根据所述选择指令将选择的预测查询内容与所述检索字段,进行拼接得到所述检索请求。
在其中一个实施例中,所述输出标注好所述证据标签的所述证据文件之后,还包括:
接收根据所述证据文件输入的当前证据,并识别所述当前证据的证据类型;
根据所述当前证据的证据类型对应的历史判决结果计算所述当前证据对应的胜诉率;
输出所述胜诉率。
一种证据文件检索装置,所述装置包括:
请求接收模块,用于接收输入的检索请求,所述检索请求携带有案由内容和请求内容;
关键字提取模块,用于根据语义识别技术从所述案由内容中提炼出案由关键字,并从所述请求内容中提炼出请求关键字;
标签标注模块,用于从预设的文件数据库中检索得到包含所述案由关键字和所述请求关键字的证据文件,并为所述证据文件标注证据标签,所述证据标签是用于表征所述证据文件的主题内容的标签;
输出模块,用于输出标注好所述证据标签的所述证据文件。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述证据文件检索方法、装置、计算机设备和存储介质,通过语义识别技术分别对检索请求中案由内容和请求内容的关键字的提炼,能够从预设的文件数据库中检索到更符合用户需求的证据文件;且为检索到的证据文件标注好用于说理和分析的证据标签,为用户快速提供说理和参考依据,有效地提高了检索结果的可利用性。
附图说明
图1为一个实施例中证据文件检索方法的应用场景图;
图2为一个实施例中证据文件检索方法的流程示意图;
图3为另一个实施例中胜诉分析方式的流程示意图;
图4为一个实施例中证据文件检索装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的证据文件检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。技术人员在服务器104端发布实现本申请证据文件检索方法的安装包,终端102可从服务器104上下载安装包并安装,在终端102上实现此证据文件检索方法。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种证据文件检索方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202,接收输入的检索请求,检索请求携带有案由内容和请求内容。
其中,检索请求是用户向终端输入的检索某一类型证据文件的请求,可以是在终端提供的检索栏中输入的一个句子或多个字段。本申请中的证据文件是记录历史仲裁或者庭审等形式发生的各类型法律案件,用于通过检索证据文件可作为其了解法律仲裁流程、分析当前面对的法律或仲裁等问题的依据和参考。
案由内容是包含案由关键字的输入语句,例如一个案子的起因、法律关系、争议焦点等信息。请求内容则是围绕案由内容需要检索的要求,可以是“争议点”、“定义”、“为什么”等等表明检索目的语句。
具体地,终端从服务器下载安装包后,可以在用户需要检索证据文件时,为用户提供一个搜索界面,用户可在搜索界面中输入检索某一类型证据文件检索请求,此检索请求中应携带有包含案由关键字的案由内容和表明检索目的的请求内容。
S204,根据语义识别技术从案由内容中提炼出案由关键字,并从请求内容中提炼出请求关键字。
其中,案由关键字是终端用于识别需要检索的证据文件的核心争议焦点、相关法律条文、法律关系的关键字;可以是案件类型,如离婚、财产纠纷、继承权纠纷等等;也可以是法律条文应用,如针对刑法某一条作出的判决等等。案由关键字应至少为一个,用户可根据其要检索的证据文件进行多个叠加检索。案由关键字与案由内容的区别是,案由内容可以是用户输入的较为口语化的语句,而案由关键字则是终端根据用户输入的案由内容来进行总结、判断、分析得到的用于检索数据库的关键字。
请求关键字是终端用于识别需要检索的证据文件与案由关键字相互关系的关键字,例如可以是“争议点”、“定义”、“为什么”等等表明检索目的语句。请求关键字与请求内容的区别是,请求内容可以是用户输入的较为口语化的语句,而请求关键字则是终端根据用户输入的案由内容来进行总结、判断、分析得到的用于检索数据库的关键字。
具体地,终端获取到用户输入的检索请求中的案由内容和请求内容后,分别根据语义识别技术,如NLP技术(Natural Language Processing自然语言处理技术)从案由内容和请求内容中提炼出用于检索的案由关键字和请求关键字。其中,技术人员也可以分别建立案由和请求对应的关键字库,检查输入的案由内容和请求内容中是否包含在关键字库中的部分,若有,则判断存在对应的关键字。
S206,从预设的文件数据库中检索得到包含案由关键字和请求关键字的证据文件,并为证据文件标注证据标签,证据标签是用于表征证据文件的主题内容的标签。
其中,预设的文件数据库是技术人员对大量的历史案件的证据文件进行分析、归类建立的数据库,终端可根据案由关键字和请求关键字从文件数据库中检索到对应的证据文件。
证据标签是技术人员根据证据文件中包含的证据设置的标签,其可以是一个字段,用于帮助用户分析此证据文件的内容。例如,标签可以是离婚、财产纠纷、继承权纠纷等等。
具体地,技术人员预先建议一个包含大量证据文件的文件数据库,当终端识别出案由关键字和请求关键字后,即接入此文件数据库,从中检索与案由关键字和请求关键字对应的证据文件;检索到证据文件后,终端识别此证据文件中包含的证据,为其添加对应的证据标签。
另外,当终端无法从文件数据库中检索到对应的文件时,可生成并显示一个检索失败的消息,告知用户其检索内容可能存在错误或者检索的内容不在本文件数据库中。同时,终端也可将此检索失败的消息发送至服务器,使得技术人员了解用户检索中出现的错误,通过拓展文件数据库和检索请求自动纠错的方式来纠正错误。
可选地,本申请中的文件数据库也可联网,从网络信息中爬取对应的证据文件作为检索的结果返回。
S208,输出标注好证据标签的证据文件。
具体地,终端输出与用户输入的检索请求对应的证据文件,并同时输出此证据文件中标注的证据标签。
上述证据文件检索方法,通过分别对检索请求中案由内容和请求内容的关键字提取,能够从预设的文件数据库中检索到更符合用户需求的证据文件;且为检索到的证据文件标注好用于说理和分析的证据标签,为用户快速提供说理和参考依据,有效地提高了检索结果的可利用性。
在一个实施例中,上述步骤S206为证据文件标注证据标签,可以包括:识别证据文件中的证据项;获取证据项分类标准,并根据证据项分类标准判断证据项所属的证据类型;根据设定好的证据类型和证据标签的映射关系获取与证据类型对应的证据标签;将证据标签添加到证据文件中。
其中,证据项是终端识别出证据文件中包含的证据,得到的证据的表示短语,例如在一个离婚案件的证据文件中,可以包含婚前协议、不动产证明、双方银行交易记录等等证据项。技术人员可以利用语义识别等方式从证据文件中识别出包含的证据项。
证据项分类标准是技术人员根据证据项的法律对应关系建立的证据项与其对应的证据类型之间的映射关系。
证据类型是根据识别出的证据项为其分类得到的类型,例如在上述离婚案件的证据文件中,可将识别出的婚前协议划分为协议类证据,而不动产证明和双方银行交易记录可划分为财产类证据等等。
具体地,终端在对检索到的证据文件标注证据标签时,其步骤为,终端先根据语义识别等方式从检索到的证据文件中识别出证据项,然后根据设定的证据项分类标准对证据项进行分类,得到证据类型,再根据证据类型为证据文件添加对应的证据标签,证据项是根据证据文件原文中包含的内容识别得到的,其反应的通常是一个案件的实际证据,而对证据项进行分类得到的证据类型则是概括了实际证据在一个案件判决中起作用的类型,最终生成便于用户显示和参阅的证据标签,添加到证据文件中。
进一步地,技术人员在定义证据类型和证据标签时,可以将其存储为不同的编码或者特征向量等形式,例如二进制编码等等,只在向用户显示时,再将编码转换为可阅读的文字形式,方便计算机识别和传输。
上述实施例中,通过证据项的识别、分类来判断检索到的证据文件中包含的证据标签。
在一个实施例中,上述步骤S206为证据文件标注证据标签,可以包括:将证据文件输入训练好的标签模型中得到证据文件对应的证据标签,标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;将证据标签添加到证据文件中。
具体地,在生成证据标签时,技术人员也可设置证据标签对应的段落和语句的识别规则进行整合,以大量历史文件作为训练样本,进行多次回归训练,得到能够根据输入的证据文件内容检测出其中包含的证据标签的标签模型,如深度神经网络模型等;终端检索到证据文件后,将证据文件输入标签模型后,即可根据模型自动判断出对应的证据标签,为证据文件进行标注。
上述实施例中,通过大数据分析训练出标签模型,能够更准确地分析证据文件中包含的证据标签。
在一个实施例中,上述步骤将证据标签添加到证据文件中之前,还可以包括:获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据决策权重对证据标签进行排序;上述步骤将证据标签添加到证据文件中,可以包括:将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中。
其中,历史判决结果是终端检索到的证据文件中包含的证据类型对应的相似案件的判决结果。决策权重是对同类型案件中一个证据类型对应的证据项对判决结果的影响程度,是对同类型的大量历史案件进行统计得到的,可以是一个量化值。
具体地,终端在检测到证据文件中包含的证据项对应的证据标签后,可根据证据标签对应的证据类型在同类型案件中对于判决结果的影响权重来为证据标签进行重要性排序,并根据排序结果显示。例如,对于离婚财产纠纷案件而言,当其中的一个证据类型为财产类证据,则终端可从文件数据库或者外接的其他数据库中获取离婚财产纠纷案件类型中财产类证据在历史判决结果中决定判决结果的决策权重,判定此证据类型的重要性。
上述实施例中,按照证据类型对应的历史判决结果中的决策权重来顺序显示证据文件中对应的证据标签,方便用户了解证据文件中的证据项,便于用户了解检索到的证据文件。
在一个实施例中,上述获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重之后,还可以包括:将决策权重不低于预设值的证据标签划分为核心标签,将决策权重低于预设值的证据标签划分为非核心标签;则上述将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中,可以包括:将核心标签和非核心标签以不同的标注方式按照排序后的顺序依次添加到证据文件中。
核心标签是此证据文件中对于判决结果影响程度较高的证据标签,而非核心标签则是此证据文件中对于判决结果影响程度较低的证据标签;技术人员可以根据经验或者历史判决分析得到一个决策权重的阈值,将决策权重高于阈值的证据标签设为核心标签,决策权重不高于阈值的证据标签设为非核心标签。终端将证据标签分为核心标签和非核心标签两类,每类标签标注方式不同,利于计算机显示和识别,如可以按照不同的编码方式,或标注为不同的字体颜色等等,每类标签同样按照决策权重排序后显示。
进一步地,终端向用户显示证据文件时,可采取缩略图或者标题的简略型显示方法,上述标注好的证据标签可以显示在获取的文件的缩略显示内容中,证据标签可以根据其对于案件决策的重要性分为核心标签和非核心标签,可将核心标签显示在前面,并按照其决策权重进行排序。可根据非核心标签的重要性,显示前面的若干个非核心标签,而省略剩下的非核心标签。
上述实施例中,为证据标签进行重要性排序和分类,便于用户快速了解检索到的证据文件中标注的证据标签的重要性。
在一个实施例中,上述步骤S202接收输入的检索请求,可以包括:接收检索字段,获取根据检索历史得到的与第一检索字段对应的预测查询内容字段;显示预测查询内容;接收与显示的预测查询内容对应的选择指令;
根据选择指令将选择的预测查询内容与检索字段,进行拼接得到检索请求。
检索字段是用户向终端输入的用于检索证据文件的内容,其可以为词组和短句。终端可以根据历史用户的检索记录中关于此检索字段的检索内容或与检索字段之间的语义关系为用户推荐可能的待搜索内容,即预测查询内容,终端在显示界面显示此预测查询内容,用户可在获取的相关字段中选择自己需要的字段作为确认字段,向终端下达选择指令,终端接收选择指令后将用户选择的预测查询内容与检索字段进行拼接得到检索请求。
上述实施例中,终端可以根据历史用户的检索记录或者检索字段之间的语义关系自动根据用户输入的检索字段来推荐预测查询内容,不需要用户输入全部的检索请求,实现智能输入,且推荐的相关字段能够有效避免用户输入的检索请求中存在不可识别的内容,达到一定的纠错效果,提高了检索的准确性。
在一个实施例中,请参见图3,上述步骤S208输出标注好证据标签的证据文件之后,还可以包括胜诉分析方式,具体包括:
S302,接收根据证据文件输入的当前证据,并识别当前证据的证据类型。
其中,当前证据是用户根据检索得到的证据文件和标注的证据标签,结合用户自身面临的纠纷现状输入的证据,可以是与证据标签对应的证据的描述语句。
具体地,用户在终端上获取了输出的证据文件后,可根据进一步的需求来输入与证据文件相关的当前证据,终端接收到当前证据之后,根据语义识别或者关键词识别技术来识别当前证据的证据类型;例如若一个用户检索得到的证据文件为关于离婚财产纠纷的证据文件,其中包含离婚、财产纠纷、抚养权纠纷等证据标签,用户可根据自身的纠纷现状,输入与这些标签对应的当前证据,例如是否存在婚前协议,其不动产证明的有效期、评估金额等等的描述,终端获取这些描述后,可识别出“存在婚前协议”为协议型证据;“不动产证明的有效期、评估金额”为财产型证据等等。
S304,根据当前证据的证据类型对应的历史判决结果计算当前证据对应的胜诉率。
具体地,终端根据当前证据的证据类型在大量的历史案件的判决结果中的决策权重和输入的多个当前证据的证据类型的相互作用,根据对历史案件分析为用户计算出满足输入的所有当前证据的案件的可能的胜诉率,此胜诉率可能是一个概率区间。
S306,输出胜诉率。
具体地,终端输出此胜诉率,为用户提供仲裁或诉讼参考。
上述实施例中,终端在输出检索到的证据文件后,还可根据用户根据证据文件输入的当前证据来为用户计算当前证据对应的胜诉率,为用户提供仲裁或诉讼参考。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种证据文件检索装置,包括:请求接收模块100、关键字提取模块200、标签标注模块300和输出模块400,其中:
请求接收模块100,用于接收输入的检索请求,检索请求携带有案由内容和请求内容。
关键字提取模块200,用于关键字提取模块,用于根据语义识别技术从案由内容中提炼出案由关键字,并从请求内容中提炼出请求关键字。
标签标注模块300,用于从预设的文件数据库中检索得到包含案由关键字和请求关键字的证据文件,并为证据文件标注证据标签,证据标签是用于表征证据文件的主题内容的标签。
输出模块400,用于输出标注好证据标签的证据文件。
在一个实施例中,上述标签标注模块300可以包括:
证据项识别单元,用于识别证据文件中的证据项。
类型判断单元,用于获取证据项分类标准,并根据证据项分类标准判断证据项所属的证据类型。
标签生成单元,用于根据设定好的证据类型和证据标签的映射关系获取与证据类型对应的证据标签。
标签添加单元,用于将证据标签添加到证据文件中。
在一个实施例中,上述标签标注模块300可以包括:
模型分析单元,用于将证据文件输入训练好的标签模型中得到证据文件对应的证据标签,标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型。
标签添加单元,用于将证据标签添加到证据文件中。
在一个实施例中,上述证据文件检索装置还可以包括:
标签排序模块,用于获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据决策权重对证据标签进行排序。
则上述标签添加单元,还可以用于将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中。
在一个实施例中,上述证据文件检索装置还可以包括:
标签分类模块,用于将决策权重不低于预设值的证据标签划分为核心标签,将决策权重低于预设值的证据标签划分为非核心标签。
则上述标签添加单元,还可以用于将核心标签和非核心标签以不同的标注方式按照排序后的顺序依次添加到证据文件中。
在一个实施例中,上述请求接收模块100可以包括:
字段接收单元,用于接收检索字段,获取根据检索历史得到的与第一检索字段对应的预测查询内容字段。
字段显示单元,用于显示预测查询内容。
字段确认单元,用于接收与显示的预测查询内容对应的选择指令。
请求生成单元,用于根据选择指令将选择的预测查询内容与检索字段,进行拼接得到检索请求。
在一个实施例中,上述证据文件检索装置还可以包括:
类型识别模块,用于接收根据证据文件输入的当前证据,并识别当前证据的证据类型。
胜诉率计算模块,用于根据当前证据的证据类型对应的历史判决结果计算当前证据对应的胜诉率。
胜诉率输出模块,用于输出胜诉率。
关于证据文件检索装置的具体限定可以参见上文中对于证据文件检索方法的限定,在此不再赘述。上述证据文件检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种证据文件检索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收输入的检索请求,检索请求携带有案由内容和请求内容;根据语义识别技术从案由内容中提炼出案由关键字,并从请求内容中提炼出请求关键字;从预设的文件数据库中检索得到包含案由关键字和请求关键字的证据文件,并为证据文件标注证据标签,证据标签是用于表征证据文件的主题内容的标签;输出标注好证据标签的证据文件。
在一个实施例中,处理器执行计算机程序时实现的为证据文件标注证据标签,包括:识别证据文件中的证据项;获取证据项分类标准,并根据证据项分类标准判断证据项所属的证据类型;根据设定好的证据类型和证据标签的映射关系获取与证据类型对应的证据标签;将证据标签添加到证据文件中。
在一个实施例中,处理器执行计算机程序时实现的为证据文件标注证据标签,包括:将证据文件输入训练好的标签模型中得到证据文件对应的证据标签,标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;将证据标签添加到证据文件中。
在一个实施例中,处理器执行计算机程序时实现的将证据标签添加到证据文件中之前,还包括:获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据决策权重对证据标签进行排序;处理器执行计算机程序时实现的将证据标签添加到证据文件中,包括:将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中。
在一个实施例中,处理器执行计算机程序时实现的获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重之后,还包括:将决策权重不低于预设值的证据标签划分为核心标签,将决策权重低于预设值的证据标签划分为非核心标签;;处理器执行计算机程序时实现的将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中,包括:将核心标签和非核心标签以不同的标注方式按照排序后的顺序依次添加到证据文件中。
在一个实施例中,处理器执行计算机程序时实现的接收输入的检索请求,包括:接收检索字段,获取根据检索历史得到的与第一检索字段对应的预测查询内容字段;显示预测查询内容;接收与显示的预测查询内容对应的选择指令;根据选择指令将选择的预测查询内容与检索字段,进行拼接得到检索请求。
在一个实施例中,处理器执行计算机程序时实现的输出标注好证据标签的证据文件之后,还包括:接收根据证据文件输入的当前证据,并识别当前证据的证据类型;根据当前证据的证据类型对应的历史判决结果计算当前证据对应的胜诉率;输出胜诉率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收输入的检索请求,检索请求携带有案由内容和请求内容;根据语义识别技术从案由内容中提炼出案由关键字,并从请求内容中提炼出请求关键字;从预设的文件数据库中检索得到包含案由关键字和请求关键字的证据文件,并为证据文件标注证据标签,证据标签是用于表征证据文件的主题内容的标签;输出标注好证据标签的证据文件。
在一个实施例中,计算机程序被处理器执行时实现的为证据文件标注证据标签,包括:识别证据文件中的证据项;获取证据项分类标准,并根据证据项分类标准判断证据项所属的证据类型;根据设定好的证据类型和证据标签的映射关系获取与证据类型对应的证据标签;将证据标签添加到证据文件中。在一个实施例中,计算机程序被处理器执行时实现的为证据文件标注证据标签,包括:将证据文件输入训练好的标签模型中得到证据文件对应的证据标签,标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;将证据标签添加到证据文件中。在一个实施例中,计算机程序被处理器执行时实现的将证据标签添加到证据文件中之前,还包括:获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据决策权重对证据标签进行排序;计算机程序被处理器执行时实现的将证据标签添加到证据文件中,包括:将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中。在一个实施例中,计算机程序被处理器执行时实现的获取证据类型的历史案件中证据标签对应的历史判决结果的决策权重之后,还包括:将决策权重不低于预设值的证据标签划分为核心标签,将决策权重低于预设值的证据标签划分为非核心标签;;计算机程序被处理器执行时实现的将证据标签与证据标签对应的决策权重按照排序后的顺序依次添加到证据文件中,包括:将核心标签和非核心标签以不同的标注方式按照排序后的顺序依次添加到证据文件。
在一个实施例中,计算机程序被处理器执行时实现的接收输入的检索请求,包括:接收检索字段,获取根据检索历史得到的与第一检索字段对应的预测查询内容字段;显示预测查询内容;接收与显示的预测查询内容对应的选择指令;根据选择指令将选择的预测查询内容与检索字段,进行拼接得到检索请求。
在一个实施例中,计算机程序被处理器执行时实现的输出标注好证据标签的证据文件之后,还包括:接收根据证据文件输入的当前证据,并识别当前证据的证据类型;根据当前证据的证据类型对应的历史判决结果计算当前证据对应的胜诉率;输出胜诉率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种证据文件检索方法,所述方法包括:
接收输入的检索请求,所述检索请求携带有案由内容和请求内容;
根据语义识别技术从所述案由内容中提炼出案由关键字,并从所述请求内容中提炼出请求关键字;
从预设的文件数据库中检索得到包含所述案由关键字和所述请求关键字的证据文件,并为所述证据文件标注证据标签,所述证据标签是用于表征所述证据文件的主题内容的标签;
输出标注好所述证据标签的所述证据文件;
其中,所述为所述证据文件标注证据标签,包括:
识别所述证据文件中的证据项;
获取证据项分类标准,并根据所述证据项分类标准判断所述证据项所属的证据类型;
根据设定好的证据类型和证据标签的映射关系获取与所述证据类型对应的证据标签;
将所述证据标签添加到所述证据文件中。
2.根据权利要求1所述的方法,其特征在于,所述为所述证据文件标注证据标签,包括:
将所述证据文件输入训练好的标签模型中得到所述证据文件对应的证据标签,所述标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;
将所述证据标签添加到所述证据文件中。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述证据标签添加到所述证据文件中之前,还包括:
获取所述证据类型的历史案件中证据标签对应的历史判决结果的决策权重,根据所述决策权重对所述证据标签进行排序;
所述将所述证据标签添加到所述证据文件中,包括:
将所述证据标签与所述证据标签对应的决策权重按照排序后的顺序依次添加到所述证据文件中。
4.根据权利要求3所述的方法,其特征在于,所述获取所述证据类型的历史案件中证据标签对应的历史判决结果的决策权重之后,还包括:
将所述决策权重不低于预设值的所述证据标签划分为核心标签,将所述决策权重低于预设值的所述证据标签划分为非核心标签;
所述将所述证据标签与所述证据标签对应的决策权重按照排序后的顺序依次添加到所述证据文件中,包括:
将所述核心标签和所述非核心标签以不同的标注方式按照排序后的顺序依次添加到所述证据文件中。
5.根据权利要求1所述的方法,其特征在于,所述接收输入的检索请求,包括:
接收检索字段,获取根据检索历史得到的与所述检索字段对应的预测查询内容字段;
显示所述预测查询内容;
接收与所述预测查询内容对应的选择指令;
根据所述选择指令将选择的预测查询内容与所述检索字段,进行拼接得到所述检索请求。
6.根据权利要求1所述的方法,其特征在于,所述输出标注好所述证据标签的所述证据文件之后,还包括:
接收根据所述证据文件输入的当前证据,并识别所述当前证据的证据类型;
根据所述当前证据的证据类型对应的历史判决结果计算所述当前证据对应的胜诉率;
输出所述胜诉率。
7.一种证据文件检索装置,其特征在于,所述装置包括:
请求接收模块,用于接收输入的检索请求,所述检索请求携带有案由内容和请求内容;
关键字提取模块,用于根据语义识别技术从所述案由内容中提炼出案由关键字,并从所述请求内容中提炼出请求关键字;
标签标注模块,用于从预设的文件数据库中检索得到包含所述案由关键字和所述请求关键字的证据文件,并为所述证据文件标注证据标签,所述证据标签是用于表征所述证据文件的主题内容的标签;
输出模块,用于输出标注好所述证据标签的所述证据文件;
其中,所述标签标注模块,包括:
证据项识别单元,用于识别证据文件中的证据项;
类型判断单元,用于获取证据项分类标准,并根据证据项分类标准判断证据项所属的证据类型;
标签生成单元,用于根据设定好的证据类型和证据标签的映射关系获取与证据类型对应的证据标签;
标签添加单元,用于将证据标签添加到证据文件中。
8.根据权利要求7所述的装置,其特征在于,所述标签标注模块包括:
模型分析单元,用于将证据文件输入训练好的标签模型中得到证据文件对应的证据标签,标签模型是利用对大量历史文件作为训练样本训练得到的、能够对输入的证据文件的内容进行内容分析得到证据文件对应的证据标签的模型;
标签添加单元,用于将证据标签添加到证据文件中。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515417 | 2019-06-14 | ||
CN2019105154174 | 2019-06-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532229A CN110532229A (zh) | 2019-12-03 |
CN110532229B true CN110532229B (zh) | 2023-06-20 |
Family
ID=68660642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910645277.2A Active CN110532229B (zh) | 2019-06-14 | 2019-07-17 | 证据文件检索方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532229B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737302A (zh) * | 2020-06-23 | 2020-10-02 | 中国银行股份有限公司 | 关键点信息查询方法及装置 |
CN112035440B (zh) * | 2020-09-01 | 2023-08-08 | 中国银行股份有限公司 | 知识库的管理方法、装置、电子设备和存储介质 |
CN113191123A (zh) * | 2021-04-08 | 2021-07-30 | 中广核工程有限公司 | 工程设计档案信息的标引方法、装置、计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316824A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 |
CN106815263A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律条文的搜索方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140339A (ja) * | 2000-10-31 | 2002-05-17 | Tonfuu:Kk | 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム |
EP2616927A4 (en) * | 2010-09-24 | 2017-02-22 | International Business Machines Corporation | Using ontological information in open domain type coercion |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
-
2019
- 2019-07-17 CN CN201910645277.2A patent/CN110532229B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316824A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 |
CN106815263A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律条文的搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110532229A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN110377632B (zh) | 诉讼结果预测方法、装置、计算机设备和存储介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN109858010A (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN112307770A (zh) | 敏感信息的检测方法、装置、电子设备及存储介质 | |
CN111190946A (zh) | 报告生成方法、装置、计算机设备和存储介质 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN110737824B (zh) | 内容查询方法和装置 | |
CN114840869A (zh) | 基于敏感度识别模型的数据敏感度识别方法及装置 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN118396786A (zh) | 合同文档审核方法和装置、电子设备及计算机可读存储介质 | |
CN110874326A (zh) | 测试用例生成方法、装置、计算机设备及存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114490996B (zh) | 意图识别方法、装置、计算机设备和存储介质 | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |