CN110704571B - 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 - Google Patents

庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN110704571B
CN110704571B CN201910756630.4A CN201910756630A CN110704571B CN 110704571 B CN110704571 B CN 110704571B CN 201910756630 A CN201910756630 A CN 201910756630A CN 110704571 B CN110704571 B CN 110704571B
Authority
CN
China
Prior art keywords
trial
original
text data
target
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910756630.4A
Other languages
English (en)
Other versions
CN110704571A (zh
Inventor
胡文成
戴广宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910756630.4A priority Critical patent/CN110704571B/zh
Publication of CN110704571A publication Critical patent/CN110704571A/zh
Application granted granted Critical
Publication of CN110704571B publication Critical patent/CN110704571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种庭审辅助处理方法、审判辅助处理方法、装置、设备及介质。该庭审辅助处理方法包括:在客户端上显示当前审判环节对应的审判提示文字,获取原始语音数据;对原始语音数据进行声纹识别,获取声纹识别结果,根据声纹识别结果确定对象标识;对原始语音数据进行文本翻译,获取原始文本数据,将对象标识和原始文本数据关联存储在标准法庭审理笔录模板的相应位置;基于原始文本数据查询判断是否存在在先文本数据;若是,对原始文本数据和在先文本数据进行语义分析,确定语义分析结果,根据语义分析结果对原始文本数据进行突出显示处理,显示与语义分析结果相对应的审判提示文字,以减轻书记员和法官在庭审过程中的工作量,以降低工作负担。

Description

庭审辅助处理方法、审判辅助处理方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种庭审辅助处理方法、审判辅助处理方法、装置、设备及介质。
背景技术
随着社会经济的发展与法治日趋完善,人民群众的司法需求日益增长,法院立案的案件越来越多。法官审理案件的案件量逐渐增加,存在工作量超负荷的问题,而且作为判案依据的法律法规不断更新,也使得法官判案的难度增大,工作量过大或者审判难度增大均容易导致法官判案出错率提升。在法庭审理案件过程中,需由书记员实时录入反映全部审判活动的真实情况的文字记载,即庭审笔录文件。庭审笔录反映案件审理的整个过程,是法官制作判决文书重要的前置文书材料,从庭审笔录中可以解析出很多重要的信息维度,比如:原告事实理由及诉讼请求、被告答辩意见、原告辩论意见和被告辩论意见等,这对于法官制作判决文书是很有价值的。随着法官审理案件的案件量逐渐增加,书记员参与庭审的案件量也逐渐增加,使得书记员的工作负荷大,而且通过书记员手动录入庭审信息的过程中,录入效率低。
有鉴于此,发明人经过深入研究,提出一种可有助于减轻司法工作人员(包括书记员和法官)在案件审判过程中的工作量的智能辅助审判系统和应用在该智能辅助审判系统上的智能辅助判案方法。
发明内容
本发明实施例提供一种庭审辅助处理方法、审判辅助处理方法、装置、设备及介质,以解决当前司法工作人员判案过程中工作量较大的问题。
一种庭审辅助处理方法,包括:
在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
对所述原始语音数据进行声纹识别,获取声纹识别结果,根据所述声纹识别结果确定所述原始语音数据对应的对象标识;
对所述原始语音数据进行文本翻译,获取与所述对象标识相对应的原始文本数据,将所述对象标识和所述原始文本数据关联存储在所述标准法庭审理笔录模板的相应位置;
基于所述原始文本数据查询在先文本数据库,判断是否存在与所述原始文本数据相对应的在先文本数据;
若存在所述在先文本数据,则对所述原始文本数据和所述在先文本数据进行语义分析,确定语义分析结果,根据所述语义分析结果对所述原始文本数据进行突出显示处理,显示与所述语义分析结果相对应的审判提示文字,重复执行所述获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
若不存在所述在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将所述庭审笔录文件存储在数据库中。
一种审判辅助处理方法,包括:
从数据库中获取待判案件对应的上述的庭审笔录文件,从所述庭审笔录文件中提取案件描述信息;
采用分词工具对所述案件描述信息进行分词,获取目标分词结果,所述目标分词结果包括多个目标分词;
基于每一所述目标分词查询所述关键词库,将所述关键词库中存储的与所述目标分词相匹配的原始关键词确定为目标关键词;
根据所述目标关键词查询所述案件类型信息库,获取与所述目标关键词相匹配的至少一个目标案件类型;
从先验知识库中获取与至少一个所述目标案件类型相匹配的先验知识;
对所述先验知识和所述案件描述信息进行向量化处理,获取先验文本向量和描述文本向量;
将所述先验文本向量和所述描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
一种庭审辅助处理装置,包括:
原始语音数据获取模块,用于在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
对象标识获取模块,用于对所述原始语音数据进行声纹识别,获取声纹识别结果,根据所述声纹识别结果确定所述原始语音数据对应的对象标识;
原始文本数据获取模块,用于对所述原始语音数据进行文本翻译,获取与所述对象标识相对应的原始文本数据,将所述对象标识和所述原始文本数据关联存储在所述标准法庭审理笔录模板的相应位置;
在先文本数据判断模块,用于基于所述原始文本数据查询在先文本数据库,判断是否存在与所述原始文本数据相对应的在先文本数据;
突出显示处理模块,用于若存在所述在先文本数据,则对所述原始文本数据和所述在先文本数据进行语义分析,确定语义分析结果,根据所述语义分析结果对所述原始文本数据进行突出显示处理,显示与所述语义分析结果相对应的审判提示文字,重复执行所述获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
笔录文件获取模块,用于若不存在所述在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将所述庭审笔录文件存储在数据库中。
一种审判辅助处理装置,包括:
案件描述信息获取模块,用于从数据库中获取待判案件对应的上述的庭审笔录文件,从所述庭审笔录文件中提取案件描述信息;
目标分词结果获取模块,用于采用分词工具对所述案件描述信息进行分词,获取目标分词结果,所述目标分词结果包括多个目标分词;
目标关键词确定模块,用于基于每一所述目标分词查询所述关键词库,将所述关键词库中存储的与所述目标分词相匹配的原始关键词确定为目标关键词;
目标案件类型确定模块,用于根据所述目标关键词查询所述案件类型信息库,获取与所述目标关键词相匹配的至少一个目标案件类型;
先验知识获取模块,用于从先验知识库中获取与至少一个所述目标案件类型相匹配的先验知识;
向量化处理模块,用于对所述先验知识和所述案件描述信息进行向量化处理,获取先验文本向量和描述文本向量;
判案建议结果获取模块,用于将所述先验文本向量和所述描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述庭审辅助处理方法的步骤;或者,所述处理器执行所述计算机程序时实现上述审判辅助处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述庭审辅助处理方法的步骤,或者,所述计算机程序被处理器执行时实现上述审判辅助处理方法的步骤。
上述庭审辅助处理方法、装置、计算机设备及存储介质,通过麦克风实时采集与当前审判环节对应的审判提示文字相对应的原始语音数据之后,根据对原始语音数据进行声纹识别的声纹识别结果,确定其对象标识,从而确定该原始语音数据对应的说话人身份;将原始语音数据文本翻译所获取的原始文本数据与对象标识关联存储在标准法庭审理笔录模板的相应位置,从而提高原始文本数据的录入效率,无需书记员逐字录入,减轻书记员的工作负担。在存在与原始文本数据相对应的在先文本数据时,根据原始文本数据与在先文本数据的语义分析结果,对原始文本数据进行突出显示处理,并显示与语义分析结果相对应的审判提示文字,可使法官在庭审过程中根据突出显示处理结果了解不同语义分析结果对应的特殊情况,有助于减少法官庭审过程中的工作量,从而降低工作负担,显示与该语义分析结果相对应的审判提示信息,有助于加快法庭庭审的庭审进度,提高庭审效率。
上述审判辅助处理方法、装置、计算机设备及存储介质,在从庭审笔录文件中快速提取出案件描述信息之后,通过对案件描述信息进行分词和关键词匹配处理,可快速获取其对应的目标关键词,利用该目标关键词确定相对应的至少一个目标案件类型,从而可实现从先验知识库中筛选与至少一个目标案件类型相匹配的先验知识,有助于减少后续处理过程的数据量,加快确定判案建议结果的效率。将先验知识和案件描述信息均进行向量化处理,以将处理得到的先验文本向量和描述文本向量输入到目标判案模型中,从而可快速获取对应的判案建议结果,以有助于减轻法官的工作量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中庭审辅助处理方法或审判辅助处理方法的一应用环境示意图;
图2是本发明一实施例中庭审辅助处理方法的一流程图;
图3是本发明一实施例中审判辅助处理方法的另一流程图;
图4是本发明一实施例中审判辅助处理方法的另一流程图;
图5是本发明一实施例中庭审辅助处理装置的一原理框图;
图6是本发明一实施例中审判辅助处理装置的一原理框图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的庭审辅助处理方法,该庭审辅助处理方法可应用如图1所示的应用环境中。具体地,该庭审辅助处理方法应用在智能辅助审判系统中,该智能辅助审判系统包括如图1所示的客户端、麦克风和服务器,客户端和麦克风均与服务器通过网络进行通信,通过实时录入庭审当事人在庭审过程中的语音数据,并转换在文字数据显示在客户端,从而减轻书记员的工作负荷,提高庭审笔录录入效率,并对文字数据进行语义分析,根据语义分析结果确定是否存在相互矛盾或者争议等情况,以便法官确定相应的引导问题,从而降低法官的工作负荷,降低出错概率并提高案件审判效率。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。该客户端是用于实现与庭审当事人进行人机交互的终端,该麦克风用于采集庭审当事人的语音数据的设备。本实施例中,法官所在的审判席、原告所在的原告席、被告所在的被告席和第三人所在的坐席上均设有客户端和麦克风,而书记员所在的坐席上设有客户端,证人所在的证人席上设有麦克风。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种庭审辅助处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与审判提示文字相对应的原始语音数据。
其中,标准法庭审理笔录模板一般包括开庭前准备、宣布开庭、法庭调查和法庭辩论等阶段,在法庭调查阶段具体包括当事人陈述、归纳争议焦点、围绕焦点举证质证、证人出庭作证、宣读鉴定意见和勘验笔录、申请鉴定等环节,每一环节均设有相应的引导话术。该引导话术一般为法官引导其他庭审当事人(如原告、被告或者证人)进行回复的引导问题对应的话术,如“首先由原告围绕你的诉讼请求向法庭陈述”等。审判提示文字是指该标准法庭审理笔录模板中与当前审判环节相对应的引导话术。其中,当前审判环节是指法庭审理案件过程中正在进行的环节,如当事人陈述或者其他环节。
原始语音数据是实时采集到的庭审当事人针对审判提示文字进行回复时采集到的语音数据。一般来说,法官在庭审过程中,会基于审判提示信息对庭审当事人(如原告、被告或者证人)进行引导或者提问,此时,庭审当事人需要进行回复,此时,麦克风采集到的语音数据为原始语音数据。本实施例中,该智能辅助审判系统包括与服务器相连的至少一个麦克风,每一麦克风对应的麦克风标识,该麦克风标识是用于唯一识别不同麦克风的标识。在麦克风实时采集原始语音数据时,其原始语音数据与相应的麦克风标识关联。
S202:对原始语音数据进行声纹识别,获取声纹识别结果,根据声纹识别结果确定原始语音数据对应的对象标识。
其中,对原始语音数据进行声纹识别,获取声纹识别结果,具体是指服务器采用预先设置的声纹特征提取算法对原始语音数据进行声纹特征提取,再根据提取出的声纹特征进行声纹识别,以确定原始语音数据对应的说话人的身份的过程。该对象标识是用于唯一识别庭审过程不同庭审当事人的标识。具体地,服务器采用声纹特征提取算法对原始语音数据进行声纹特征提取,获取目标声纹特征,判断是否存在与目标声纹特征相对应的标准声纹特征,以获取相应的声纹识别结果。该声纹识别结果包括存在标准声纹特征和不存在标准声纹特征这两个结果。
在一实施例中,步骤S202具体包括如下步骤:
S2011:采用声纹特征提取算法对原始语音数据进行声纹特征提取,获取目标声纹特征,判断是否存在与目标声纹特征相对应的标准声纹特征。
其中,声纹特征提取算法是用于对语音数据进行声纹特征提取,以确定原始语音数据对应的声纹特征的算法。该声纹特征提取算法包括但不限于MFCC提取算法,所提取的目标声纹特征为MFCC特征。MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。目标声纹特征是从原始语音数据中提取出的声纹特征。
标准声纹特征是根据开庭前准备过程中采集到的庭审当事人的语音数据所提取出来的声纹特征。该标准声纹特征也是采用MFCC提取算法提取出来的MFCC特征。一般来说,在开庭前准备过程中,会将庭审当事人所采集的标准声纹特征与其对应的身份标识关联存储在数据库中,以使后续识别处理。
本实施例中,服务器采用余弦相似度算法或者其他相似度算法对目标声纹特征和服务器中预先存储的每一标准声纹特征进行相似度计算,获取目标相似度;若目标相似度大于预设相似度阈值,则认定存在标准声纹特征;若目标相似度不大于预设相似度阈值,则认定不存在标准声纹特征。其中,预设相似度阈值是用于评估相似度是否达到认定为同一说话人的标准的阈值。
S2012:若存在标准声纹特征,则根据标准声纹特征对应的身份标识,确定原始语音数据对应的对象标识。
具体地,若服务器中存储有与目标声纹特征相对应的标准声纹特征,则根据与该标准声纹特征相对应的身份标识,确定该原始语音数据对应的对象标识,从而快速确定该原始语音数据对应的对象标识。该身份标识是用于区分庭审当事人在庭审过程中的身份的标识,如原告、被告和证人等。该对象标识是用于唯一识别庭审过程不同庭审当事人的标识。该对象标识可以是在身份标识的基础上增加序号标识,如在多个原告的情况下,可以采用原告01和原告02这种形式的对象标识进行区分。该序号标识可以根据开庭前准备过程中采集标准身份特征的先后顺序确定,也可以根据其在法庭庭审过程中发言的先后顺序确定,以使每一庭审当事人均有唯一识别其身份的对象标识。
S2013:若不存在标准声纹特征,则根据原始语音数据对应的麦克风标识,确定原始语音数据对应的对象标识。
具体地,若服务器不存储有与目标声纹特征相对应的标准声纹特征,则说明该说话人在开庭前准备过程中没有预先采集到标准声纹特征,此时,可根据原始语音数据所携带的麦克风标识查询麦克风信息表,获取麦克风标识对应的身份标识,基于身份标识生成相应的对象标识。其中,麦克风信息表是用于根据麦克风的摆放位置确定其说话人对应的身份标识的信息对照表,该麦克风信息表将麦克风标识与其对应的身份标识关联存储。以摆放在证人席上的麦克风为例,其麦克风标识对应的身份标识为证人,基于身份标识生成相应的对象标识,具体是指根据证人这一身份标识加上发言先后顺序形成的序号标识,获取其对应的对象标识,如证人01,证人02等。
本实施例所提供的庭审辅助处理方法中,根据原始语音数据提取出的目标声纹特征,判断是否存在相对应的标准声纹特征的声纹识别结果,以决定是根据标准声纹特征还是麦克风标识确定相对应的对象标识,以保证确定的身份标识的唯一性。
S203:对原始语音数据进行文本翻译,获取与对象标识相对应的原始文本数据,将对象标识和原始文本数据关联存储在标准法庭审理笔录模板的相应位置。
其中,对原始语音数据进行文本翻译,是指将原始语音数据翻译成文本形式的数据的过程。原始文本数据是指原始语音数据翻译成的文本数据。在一实施例中,服务器可采用但不限于静态解码网络对原始语音数据进行文本翻译,由于静态解码网络已经把搜索空间全部展开,因此其在进行文本翻译时,解码速度非常快,从而可快速获取与对象标识相对应的原始文本数据。可以理解地,服务器接收麦克风采集到的原始语音数据,再采用静态解码网络对原始语音数据进行文本翻译,以快速获取其对应的原始文本数据,而无需书记员进行手动输入,从而加快原始文本数据的录入效率。
具体地,服务器在对原始语音数据进行文本翻译,以获取对应的原始文本数据之后,将该原始文本数据与其对应的对象标识关联存储在标准法庭审理笔录模板的相应位置,即将原始文本数据填充在标准法庭审理笔录模板的当前审判环节中与对象标识相对应的位置。例如,原始语音数据是针对“原告对你的起诉还有补充吗”这一审判提示文字进行回复的语音数据,其对应的对象标识为原告,则可以将这一原始语音数据所翻译形成的原始文本数据填充在标准法庭审理笔录模板中与审判提示文字相对应的位置,以提高原始文本数据的录入效率,减轻书记员的工作负担。
S204:基于原始文本数据查询在先文本数据库,判断是否存在与原始文本数据相对应的在先文本数据。
其中,在先文本数据是指在麦克风采集到该原始语音数据之前已经形成并记录在标准法庭审理笔录模板相应位置的文本数据。由于法庭庭审是庭审当事人针对同一事件进行博弈的过程,在庭审过程中,庭审当事人针对同一事件会从不同角度进行论述,其论述内容可能有相关性,此时,在先文本数据可以理解为在采集到该原始语音数据之前与原始语音数据所论述内容相对应的文本内容。以时间为例,在刑事案件中,案发过程的时间节点是影响案件形成的证据链或者量刑轻重的关键因素,原告、被告和证人可能会基于这些时间节点发表不同的原始语音数据,依据其形成时间的先后顺序,从而确定在先文本数据和原始文本数据。或者,在民事案件中,与待判案件相关的各个时间节点(如承诺的撤回时间、承诺的撤销时间、合同成立时间和合同生成时间)是影响违约责任的认定的关键因素,原告、被告和证人可能会基于这些时间节点发表不同的原始语音数据,依据其形成时间的先后顺序,从而确定在先文本数据和原始文本数据。
在一实施例中,步骤S204具体包括如下步骤:
S2041:采用关键词提取算法对原始文本数据进行关键词提取,获取文本关键词。
其中,文本关键词是从原始文本数据中提取出来的关键词。关键词提取算法是用于实现从文本数据中提取关键词的算法。本实施例中,采用但不限于TextRank、LDA、TPR-TextRank等关键词提取算法对原始文本数据进行关键词提取,以获取该原始文本数据对应的文本关键词。
S2042:基于文本关键词查询同义词库,获取与文本关键词相对应的文本同义词。
其中,同义词库是用于存储预先设置的用于存储同义词关系的数据库。文本同义词是记录在同义词库中的与文本关键词具有同义词关系的同义词。本实施例中,同义词库中预先存储具有同义词关系的同义词组,这些同义词组具体可以为与案件审判过程中涉及到的同义词组,以便服务器可根据原始文本数据中提取出的文本关键词查询到相应的文本关键词,从而有助于后续查询过程扩大查询范围。
S2043:根据文本关键词和文本同义词查询在先文本数据库,判断是否存在包含文本关键词或者文本同义词的在先文本数据。
其中,在先文本数据库是用于存储在在采集到该原始语音数据之前所形成的所有在先文本数据的数据库。本实施例中,根据文本关键词和文本同义词查询在先文本数据库,判断在先文本数据库中是否存在与该文本关键词相对应的在先文本数据,或者是否存在与该文本同义词相对应的在先文本数据,以扩大在先文本数据的查找范围。
S2044:若存在包含文本关键词或者文本同义词的在先文本数据,则认定存在与原始文本数据相对应的在先文本数据。
具体地,若在先文本数据库中存在包含文本关键词或者文本同义词的在先文本数据,则认定存在与原始文本数据相对应的在先文本数据,说明在庭审当事人说出原始语音数据时,已经有人在先提及过包含文本关键词或者文本同义词的语音数据,该语音数据经文本翻译后形成在先文本数据存储在先文本数据库中,以便后续基于原始文本数据和在先文本数据进行语义分析,以确定两者表述的意思是否相同,即后续执行步骤S205的步骤。
S2045:若不存在包含文本关键词或者文本同义词的在先文本数据,则认定不存在与原始文本数据相对应的在先文本数据。
具体地,若在先文本数据库中不存在包含文本关键词或者文本同义词的在先文本数据,则认定不存在与原始文本数据相对应的在先文本数据,说明在庭审当事人说出原始语音数据时,没有其他庭审当事人在先提及包含文本关键词或者文本同义词的语音数据,此时需执行后续的步骤S205。
可以理解地,先根据原始文本数据所提取出的文本关键词查询同义词库,以确定其对应的文本同义词,再基于文本关键词和文本同义词查询在先文本数据库,以确定其包含文本关键词或者文本同义词在先文本数据,从而扩大在先文本数据的确定范围,避免出现遗漏。
S205:若存在在先文本数据,则对原始文本数据和在先文本数据进行语义分析,确定语义分析结果,根据语义分析结果对原始文本数据进行突出显示处理,显示与语义分析结果相对应的审判提示文字,重复执行获取麦克风采集的与审判提示文字相对应的原始语音数据。
具体地,在确定存在与原始文本数据相对应的在先文本数据时,对原始文本数据和在先文本数据进行语义分析,确定语义分析结果,具体包括:采用语义分析工具对原始文件数据和在先文本数据进行语义分析,以确定原始文件数据和在先文本数据的语义是否相同或者相异,获取相应的语义分析结果。该语音分析结果包括相同的语义分析结果和相异的语义分析结果。该语义分析工具可以采用但不限于NLP(Natural Language Processing,自然语义处理)技术创建的分析工具。
例如,庭审当事人A对应的在先文本数据中记录“我在3月10日向B购买一批价值为10万的产品”,而庭审当事人B对应的原始文本数据中记录“我在3月10号将一批价值为10万的产品卖给A”,虽然这句话表述不相同,但涉及的当事人、时间、标的和价格等因素均相同,在采用语义分析工具对原始文件数据和在先文本数据进行语义分析时,认定两者描述的意思相同,则获取相同的语义分析结果。又例如,庭审当事人A对应的在先文本数据中记录“我在3月10日向B购买一批价值为10万的产品”,而庭审当事人B对应的原始文本数据中记录“我在3月8号将一批价值为15万的产品卖给A”,这两句话中,虽然涉及的当事人和标的这两个因素相同,但时间和价格这两个因素不相同,认定两者描述的意见不相同,获取相异的语义分析结果。
具体地,根据语义分析结果对原始文本数据进行突出显示处理,显示与语义分析结果相对应的审判提示文字,具体是指根据语义分析结果原始文本数据与在先文本数据中语义是相同还是相异,从而确定针对双方认定的事实、双方争议的焦点和描述是否前后矛盾等特殊情况,对当前审判环节对应的原始文本数据进行不同的突出显示处理,以使法官在庭审过程中根据突出显示处理结果了解上述情况,有助于减少法官庭审过程中的工作量,从而降低工作负担,并显示与该语义分析结果相对应的审判提示信息,有助于加快法庭庭审的庭审进度。
在一实施例中,步骤S205具体包括如下步骤:
S2051:若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识为同一标识,则不对原始文本数据进行突出显示处理,显示标准法庭审理笔录模板对应的下一审判环节对应的审判提示文字。
具体地,若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识为同一标识,则说明说出原始文本数据和在先文本数据的说话人为同一人,而且原始文本数据和在先文本数据表述的语义相同,不存在前后表述相互矛盾的问题,可以理解为无特殊情况的论述,因此,不对原始文本数据进行突出显示处理,显示标准法庭审理笔录模板对应的下一审判环节对应的审判提示文字,重复执行步骤S201中的获取麦克风采集的与审判提示文字相对应的原始语音数据及其以后的步骤。
S2052:若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识为同一标识,则采用第一突出显示模式对原始文本数据进行突出显示处理,显示包括矛盾提示信息的审判提示文字。
其中,第一突出显示模式是预先设置的用于对同一说话人论述前后矛盾的内容进行突出显示的模式,该第一突出显示模式可以采用字体颜色、背景颜色、加粗、倾斜或者加下划线等形式进行突出显示。
具体地,语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识为同一标识,则说明说出原始文本数据和在先文本数据的说话人为同一人,而且原始文本数据和在先文本数据表述的语义相异,存在前后表述相互矛盾的问题,极有可能是因为说话人说谎这一特殊情况而产品的,因此,需采用第一突出显示模式对原始文本数据进行突出显示处理,以显示包含矛盾提示信息的审判提示文字,以使法官在庭审过程中了解到说话人论述存在前后矛盾的地方,进而更好地把控庭审过程中的引导问题,保障庭审过程中的公平公正,有助于减少法官庭审过程中的工作量,从而降低工作负担。
S2053:若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第二突出显示模式对原始文本数据进行突出显示处理,显示包括无争议提示信息的审判提示文字。
其中,第二突出显示模式是预先设置的用于对不同说话人论述无矛盾的内容进行突出显示的模式,可以理解地,该第二突出显示模式是区别于第一突出显示模式的模式,同样可以采用字体颜色、背景颜色、加粗、倾斜或者加下划线等形式进行突出显示。
具体地,若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则说明说出原始文本数据和在先文本数据的说话人不为同一人,而且原始文本数据和在先文本数据的语义相同,即这两个说话人对所论述内容无异义,即不存在争议的内容,因此,需采用第二突出显示模式对原始文本数据进行突出显示处理,显示包括无争议提示信息的审判提示文字,有助确定法庭庭审过程中的无争议的事实,进而更好地把控庭审过程中的引导问题,有助于减少法官庭审过程中的工作量,从而降低工作负担。
S2054:若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第三突出显示模式对原始文本数据进行突出显示处理,显示包括争议焦点提示信息的审判提示文字。
其中,第三突出显示模式是预先设置的用于对不同说话人论述有矛盾的内容进行突出显示的模式,可以理解地,该第三突出显示模式与前面的第一突出显示模式和第二突出显示模式不相同的模式,同样可以采用字体颜色、背景颜色、加粗、倾斜或者加下划线等形式进行突出显示。
具体地,若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则说明说出原始文本数据和在先文本数据的说话人不为同一人,而且原始文本数据和在先文本数据的语义相异,即这两个说话人对所论述内容有争议,一般为双方争议焦点所在,因此,可采用第三突出显示模式对原始文本数据进行突出显示处理,显示包含争议焦点提示信息的审判提示文字,有助确定法庭庭审过程中的争议焦点,进而更好地把控庭审过程中的引导问题,有助于减少法官庭审过程中的工作量,从而降低工作负担。
进一步地,服务器在获取麦克风采集到的与审判提示文字相对应的原始语音数据之后,还可以采用服务器上预先设置的语音测谎模型对原始语音数据进行处理,获取说谎概率,若该说谎概率大于预设概率阈值,则采用谎言显示模式对原始文本数据进行突出显示处理,以使法官庭审过程中及时了解各方庭审当事人是否说谎,以保证案件公平公正地审理。其中,该语音测试模型可以是应用在当前市面公开的语音测试仪上使用的模型,以便根据原始语音数据中包含的语音频率或者语音基调等信息确定说话人说出的原始语音数据是谎言的概率。预设概率阈值是预先设置的用于评估是否达到判定为谎言的概率的阈值。谎言显示模式是预先设置的用于对较大概率为谎言的原始文本数据进行突出显示的模式。
S206:若不存在在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将庭审笔录文件存储在数据库中。
具体地,在确定不存在与原始文本数据相对应的在先文本数据时,可依据标准法庭审理笔录模板,判断是否存在下一审判环节对应的审判提示文字;若存在下一审判环节对应的审判提示文字时,重复执行获取麦克风采集的与审判提示文字相对应的原始语音数据及其之后的步骤(即步骤S202、S203);若不存在下一审判环节对应的审判提示文字时,认定法庭审理过程结束,则根据标准法庭审理笔录模板中相应位置填充的所有原始文本数据,形成庭审笔录文件,并将该庭审笔录文件存储在数据库中,以便法官基于该庭审笔录文件制作裁判文书。
本实施例所提供的庭审辅助处理方法中,通过麦克风实时采集与当前审判环节对应的审判提示文字相对应的原始语音数据之后,根据对原始语音数据进行声纹识别的声纹识别结果,确定其对象标识,从而确定该原始语音数据对应的说话人身份;将原始语音数据文本翻译所获取的原始文本数据与对象标识关联存储在标准法庭审理笔录模板的相应位置,从而提高原始文本数据的录入效率,无需书记员逐字录入,减轻书记员的工作负担。在存在与原始文本数据相对应的在先文本数据时,根据原始文本数据与在先文本数据的语义分析结果,对原始文本数据进行突出显示处理,并显示与语义分析结果相对应的审判提示文字,可使法官在庭审过程中根据突出显示处理结果了解不同语义分析结果对应的特殊情况,有助于减少法官庭审过程中的工作量,从而降低工作负担,显示与该语义分析结果相对应的审判提示信息,有助于加快法庭庭审的庭审进度,提高庭审效率。
本发明实施例提供的审判辅助处理方法,该审判辅助处理方法可应用如图1所示的应用环境中。具体地,该审判辅助处理方法应用在智能辅助审判系统中,该智能辅助审判系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对庭审笔录文件进行处理,以获取判案建议结果,以使法官根据判案建议结果进行判案建议结果进行相应的判案处理,从而减轻法官的工作负荷,提高其工作效率。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图3所示,提供一种审判辅助处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S301:从数据库中获取待判案件对应的庭审笔录文件,从庭审笔录文件中提取案件描述信息。
其中,待判案件是指需要进行审判处理的案件。庭审笔录文件是庭审中一切到庭的庭审当事人所进行的诉讼活动的全程记录的文件。本实施例中的庭审笔录文件是上述实施例中形成并存储在数据库中的庭审笔录文件。案件描述信息是指从庭审笔录文件中提取出来的与待判案件相关的会影响审判结果的描述信息。该庭审笔录文件是在庭审过程中基于标准法庭审理笔录模板采集庭审当事人对待判案件的事实和证据等信息的文件。标准法庭审理笔录模板是预先设置的与庭审过程中各个流程相对应的用于记录案件信息的笔录模板。
由于庭审笔录文件是各级法院依据标准法庭审理笔录模板采集到的与待判案件相对应的笔录文件,因此,该庭审笔录文件具有标准的格式,可有助于快速提取案件描述信息。例如,庭审笔录文件中记录有如下内容:双方无争议的事实有……,双方争议的焦点有……;在从庭审笔录文件中获取案件描述信息过程中,可采用文字匹配算法匹配到“原被告双方无争议的事实有”和“双方争议的焦点有”这些字段,将这些字段之后的内容分别确定为法院认定的事实和双方争议的焦点,这些内容即为影响审判结果的描述信息,将其作为案件描述信息。
可以理解地,在从庭审笔录文件中提取出案件描述信息之后,还可将这些案件描述信息填充到判决文书模板的相应位置,在依据本实施例最终确定的判案建议结果获取最终依据的判案依据(即具体适用法条)和判案观点后,将该判案依据和判案观点一并填充到判决文书模板的相应位置,以快速获取对应的目标判决文件。该目标判决文件是最终形成的待判案件对应的判决文件,如民事判决书和刑事判决书等。
S302:采用分词工具对案件描述信息进行分词,获取目标分词结果,目标分词结果包括多个目标分词。
其中,分词工具是用于实现对文本进行中文分词的工具。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成多个单独的词。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。目标分词结果是指案件描述信息最终形成的多个分词的结果。目标分词是指根据案件描述信息最终形成的分词。
本实施例中,分词工具可以为市面常用的用于实现对中文文本进行分词的开源工具-结巴分词。采用结巴中文分词对案件描述信息进行分词,其分词过程可支持三种分词模式包括:(1)精确模式:试图将句子最精确地切开,适合文本分析,但效率较低。(2)全模式:把句子中所有的可以成词的词语都扫描出来,分词速度快,但是不能解决歧义问题。(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,将长分词切分后的短分词放在长分词之前,效率较快,但这种分词模式可能出现前面至少两个短分词与后续一个长分词之间存在语义重复,导致分词准确性不高。为保证分词效率,可通过对搜索引擎模式的分词结果进行优化,以获取分词准确率较高的目标分词结果。因此,步骤S302具体包括如下步骤:
S3011:采用结巴分词工具的搜索引擎模式对案件描述信息进行文本分词,获取文本分词结果,文本分词结果包括N个一级分词。
具体地,服务器采用结巴分词工具的搜索引擎模式对案件描述信息进行文本分词,以快速获取文本分词结果,该文本分词结果可以理解为采用常规的搜索引擎模式进行分词后的结果,是优化之前的分词结果。一级分词是构成文本分词结果的分词,N为文本分词结果中一级分词的数量。
例如,若案件描述信息为:被告无行为能力;则采用结合分词工具的搜索引擎模式对该案件描述信息进行文本分词后,获取的文本分词结果包括如下5个一级分词:1.被告,2.无,3.行为,4.能力,5.行为能力。由上述文本分词结果可知,连续3个一级分词(从第3个一级分词到第5个一级分词)中的第3个一级分词“行为”和第4个一级分词“能力”进行结合后与第5个一级分词“行为能力”意义重复,分词结果不准确若直接基于这一文本分词结果进行后续的语义分析,可能会影响后续分析的效率和准确率。
S3012:若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词,且连续k-1个一级分词中存在至少两个一级分词的结合等于第k个一级分词,则仅保留结合等于第k个一级分词的至少两个一级分词作为目标分词,获取目标分词结果。
“叠加”是指相邻的两个一级分词中,前一个一级分词的尾部的至少一个汉字,和后一个一级分词前端的至少一个汉字重合,也即两个相邻的两个一级分词可以依据重合的汉字进行拼接,仅保留一个重叠的字或词形成拼接词的过程,举例如下:连续三个一级分词分别为:“管理”、“理工”和“工作”中,“管理”和“理工”两个一级分词中重叠的汉字为“理”,“理工”和“工作”重叠的汉字为“工”。将前述三个一级分词“管理”、“理工”和“工作”进行叠加后可形成新的拼接词:“管理工作”。
“结合”是指将两个一级分词直接进行合并,无需去除重复汉字的分词合并形式。比如,两个一级分词分别为“管理”和“工作”,将前述两个一级分词进行合并后可得“管理工作”这一合成词。
例如,若案件描述信息为:被告在开展管理工作过程中,掌握商业秘密;则采用结巴分词工具的搜索引擎模式对该案件描述信息进行文本分词后,获取的文本分词结果为:1.被告,2.在,3.管理,4.理工,5.工作,6.管理工作,7.过程,8.中,9.掌握,10.商业,11.秘密,12.商业秘密。其中,“管理”、“理工”和“工作”的叠加等于“管理工作”,而且,“管理”和“工作”的结合等于“管理工作”,因此,仅保留“管理”和“工作”这两个一级分词作为优化后的目标分词,删除“理工”和“管理工作”这两个一级分词。
S3013:若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词,且任意连续k个一级分词中不存在至少两个一级分词的结合等于第k个一级分词,则删除前k-1个一级分词,保留第k个一级分词作为目标分词,获取目标分词结果。
例如,若案件描述信息为:本条款仅针对有同业经验的候选人;则采用结巴分词工具的搜索引擎模式对该案件描述信息进行文本分词后,获取的文本分词结果为:1.本,2.条款,3.仅,4,针对,5.有,6,同业,7.经验,8.同业经验,9,的,10,候选,11,选人,11,候选人。其中,“候选”与“选人”的叠加等于“候选人”,且不存在结合等于“候选人”的情况,此时,删除“候选”与“选人”,仅保留“候选人”这个一级分词。
S3014:若任意连续k个一级分词中连续k-1个一级分词的结合等于第k个一级分词,则删除第k个一级分词,保留前k-1个一级分词作为目标分词,获取目标分词结果。
例如,若案件描述信息为:被告在开展管理工作过程中,掌握商业秘密;则采用结巴分词工具的搜索引擎模式对该案件描述信息进行文本分词后,获取的文本分词结果为:1.被告,2.在,3.管理,4.理工,5.工作,6.管理工作,7.过程,8.中,9.掌握,10.商业,11.秘密,12.商业秘密。其中,“商业”和“秘密”的结合等于“商业秘密”,而不存在叠加的情况,因此,仅保留“商业”和“秘密”这两个一级分词作为优化后的目标分词,删除“商业秘密”这一个一级分词。
本实施例中,采用分词工具的搜索引擎分词模式将案件描述信息进行分词后,对存在语义重复的连续k个一级分词进行分析,判定是否存在由连续一级分词的结合或叠加可构成连续的一级分词后紧跟的长词,并依据连续的一级分词不同的结合或叠加情况对一级分词或最后的长词进行处理,可获得更为精准的分词结果,减少重复词或无用词,以实现在保证分词效率的前提下,对分词结果进行优化,提高分词准确性。
S303:基于每一目标分词查询关键词库,将关键词库中存储的与目标分词相匹配的原始关键词确定为目标关键词。
其中,关键词库是预先设置的用于存储原始关键词的数据库。该原始关键词是预先设置的用于可能影响案件类型认定的关键词。该关键词库中存储原始关键词与至少一个同义词的对应关系。本实施例中,服务器采用字符串匹配算法或者其他匹配算法,查询关键词库中是否存在该目标分词(可以为原始关键词也可以是其对应的同义词),若存在该目标分词,则将该目标分词对应的原始关键词确定为目标关键词。例如,在原始关键词库中存在A1、A2和A3这一组同义词组,A1为原始关键词,若目标分词与A1、A2和A3中的任一个相同,则将A1确定为该目标分词对应的目标关键词。
在一实施例中,步骤S303具体包括如下步骤:
S3031:根据目标分词查询同义词库,获取与目标分词相对应的目标同义词。
其中,同义词库是用于存储预先设置的用于存储同义词关系的数据库。目标同义词是记录在同义词库中的与目标分词具有同义词关系的同义词。本实施例中,同义词库中预先存储具有同义词关系的同义词组,服务器可采用字符串匹配算法匹配到该目标分词,然后,获取与该目标分词具有同义词关系的同义词确定为目标同义词。
S3032:根据目标分词和目标同义词查询关键词库,判断是否存在与目标分词或者目标同义词相匹配的原始关键词,若存在原始关键词,则将原始关键词确定为目标关键词。
例如刑法规定“为了犯罪,准备工具、制造条件的,是犯罪预备。对于预备犯,可以比照既遂犯从轻、减轻处罚或者免除处罚”,则其中的准备工具、制造条件等关键词是认定是否为“犯罪预备”这一情形的关键词,而法庭庭审过程中,庭审当事人在口头论述时,可以采用其他同义词表述这一意思。因此,服务器需根据目标分词和目标同义词查询关键词库,判断关键词库中是否存在与目标分词或者目标同义词相匹配的原始关键词,若存在原始关键词,则将其确定为目标关键词,以扩大目标分词的搜索范围,从案件描述信息中尽可能确定更多的目标关键词,提高后续获取的判案建议结果的准确性。
S304:根据目标关键词查询案件类型信息库,获取与目标关键词相匹配的至少一个目标案件类型。
其中,案件类型信息库是用于存储不同案件类型及其对应的关键词的信息库。由于案件审判过程中,不同案件类型(如刑法中的不同类型的犯罪)可能对应同一关键词,在案件类型信息库中会将每一关键词及其对应的案件类型以键值对的形式存储,以使服务器在获取目标关键词之后,可根据该目标关键词查询案件类型信息表,以将所有包含该目标关键词的案件类型确定为目标案件类型。
S305:从先验知识库中获取与至少一个目标案件类型相匹配的先验知识。
其中,先验知识库是基于历史判案数据提取出的先验知识构建的数据库,每一历史判案数据具体一具体案件类型。本实施例中,服务器根据至少一个案件类型查询先验知识库,从先验知识库中查询与至少一个目标案件类型相匹配的先验知识,从而进行先验知识的筛选。该先验知识包含与至少一个目标案件类型相对应的历史判案数据中的案件描述信息及相应的案件判案结果。
由于先验知识库存储了所有的案例知识,内容太多,若每次判案均全部向量化先验知识库中的数据,可能存在执行效率较低的问题,因此,可通过目标关键词确定的至少一个目标案件类型,再利用至少一个目标案件类型对先验知识库中先验知识进行筛选后,以确定其对应的先验知识,以执行后续的步骤S306和S307,避免每次对先验知识库中所有先验知识进行向量化和后续的模型处理,提高执行效率。
S306:对先验知识和案件描述信息进行向量化处理,获取先验文本向量和描述文本向量。
具体地,服务器先对先验知识进行分词,具体是指对先验知识中的案件描述信息进行分词,获取先验分词结果,其分词过程与步骤S302的分词过程相同,在此不再赘述,以保证分词准确率和分词效率。然后,对先验分词结果和案件描述信息对应的目标分词结果分别进行向量化处理,以获取先验文本向量和描述文本向量,以方便后续处理。此处的向量化处理过程可以采用现有技术实现,在此不再赘述。
S307:将先验文本向量和描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
其中,目标判案模型是预先基于历史判案数据训练出的用于提供判案建议的模型。目标判案模型可以为语义分析模型,用于验证待判案件的案件描述信息与某一先验知识之间的匹配度,从而最终输出各先验知识对应的相似概率,以及相应的判案建议结果。
本实施例中,将先验文本向量、描述文本向量作为预先训练的目标判案模型的输入,该目标判案模型可分析任一先验文本向量与描述文本向量之间的相似概率,依据相似概率的大小将其对应的判案结果作为判案建议结果。一般来说,选取相似概率较大的一个或者多个先验文本向量对应的判案结果作为待判案件对应的判案建议结果,以使法官在判案过程中,及时了解相似案件的判案结果,并结合待判案件的实际情况,及时作出判决,减轻法官查阅相关资料的工作量。
本实施例所提供的智能辅助方法中,在从庭审笔录文件中快速提取出案件描述信息之后,通过对案件描述信息进行分词和关键词匹配处理,可快速获取其对应的目标关键词,利用该目标关键词确定相对应的至少一个目标案件类型,从而可实现从先验知识库中筛选与至少一个目标案件类型相匹配的先验知识,有助于减少后续处理过程的数据量,加快确定判案建议结果的效率。将先验知识和案件描述信息均进行向量化处理,以将处理得到的先验文本向量和描述文本向量输入到目标判案模型中,从而可快速获取对应的判案建议结果,以有助于减轻法官的工作量。
在一实施例中,如图4所示,在步骤S301之前,即在从数据库中获取待判案件对应的庭审笔录文件之前,审判辅助处理方法还包括:
S401:获取数据更新任务,数据更新任务包括原始案件类型和任务更新时间。
其中,数据更新任务是用于更新先验知识库和目标判案模型的任务。原始案件类型是指该数据更新任务所针对的案件类型。任务更新时间是指上一次执行数据更新任务的时间。
S402:若与原始案件类型相对应的判案依据在任务更新时间以后发生变更,则确定变更时间,将变更时间和系统当前时间之间的与原始案件类型相对应的历史判案数据确定待处理数据。
其中,与目标案件类型相对应的判案依据具体是指与目标案件类型相对应的法律依据,包括法条、法规和司法解释等内容。本实施例中,若与原始案件类型相对应的判案依据在任务更新时间以后发生变更,则说明在任务更新时间之后,该原始案件类型对应的判案依据发生变更,后续的案件审判过程中会适用新的法条、法规和司法解释等判案依据,因此,需更新先验知识库及目标判案模型,此时,将判案依据的执行时间确定为变更时间,将变更时间和系统当前时间之间的与原始案件类型相对应的历史判案数据确定待处理数据,从而有助于提高后续训练出的目标判案模型的时效性和准确性。该待处理数据具体为用于更新先验知识库和目标判案模型的训练数据。
S403:若与原始案件类型相对应的判案依据在任务更新时间以后没有发生变更,则将系统当前时间之前预设周期内的与原始案件类型相对应的历史判案数据确定待处理数据。
其中,预设周期是预先设置的用于采集数据的周期,可以设置为三个月、半年或者1年。本实施例中,若与原始案件类型相对应的判案依据在任务更新时间以后没有发生变更,说明后续案件审判过程中仍适用旧的审判依据,但随着时间的变化,这些审判依据的适用标准可能会发生变化,如赔付金额等情况,此时,将系统当前时间之前预设周期内的与原始案件类型相对应的历史判案数据确定待处理数据,以保证待处理数据的时效性,从而有助于提高后续训练出的目标判案模型的时效性。
S404:根据待处理数据,构建与原始案件类型相对应的先验知识库,并训练与原始案件类型相对应的目标判案模型。
本实施例中,可将待处理数据作为训练数据,用于构建与原始案件类型相对应的先验知识库和目标判案模型。步骤S404具体包括如下步骤:
S4041:从待处理数据中提取先验信息,从先验信息中选取关键词,构建与原始案件类型相对应的先验知识库。
该待处理数据为与原始案件类型相对应的历史判案数据。服务器从待处理数据中提取先验信息,具体可以理解为从待处理数据中提取其案件描述信息和案件判案结果,再从这些案件描述信息和案件判案结果中提取关键词,具体采用键值对(Key-Value)的形式将这些关键词进行限定;然后,利用所抽取的关键词构建与原始案件类型相对应的先验知识库,具体是将所有待处理数据所提取的键值对存储在数据库中,构建与原始案件类型相对应的先验知识库。其中,Key具体可以是案件描述信息中影响判案结果的关键词,而Value是案件判案结果中的判案结果。
S4042:对待处理数据和先验信息进行分词和向量化处理,获取待处理文本向量和先验文本向量。
具体地,对待处理数据和先验信息进行分词和向量化处理的过程与步骤S304的过程相同,为避免重复,此处不一一赘述。可以理解地,待处理文本向量中包含案件描述信息进行分词和向量化处理的关键信息,而先验文本向量包含案件判案结果中的关键信息。
S4043:基于待处理文本向量和先验文本向量进行模型训练,获取与原始案件类型相对应的目标判案模型。
由于待处理文本向量中包含案件描述信息进行分词和向量化处理的关键信息,而先验文本向量包含案件判案结果中的关键信息,将该待处理文本向量和先验文本向量作为一组训练数据,输入到常见的CNN(卷积神经网络)或者RNN(循环神经网络)进行模型训练,以更新模型参数,从而获取与原始案件类型相对应的目标判案模型。
进一步地,待处理数据包括目标区域,该目标区域可以理解为历史判案数据对应的审判法院所在的行政区域,如广东省或者深圳市等。此时,步骤S404具体包括如下步骤:
(1)确定任一目标区域对应的待处理数据的目标数据量。
(2)若目标数据量大于预设数量阈值,则基于同一目标区域和原始案件类型对应的待处理数据,构建与目标区域和原始案件类型相对应的先验知识库,并训练与目标区域和原始案件类型相对应的目标判案模型。
(3)若目标数据量不大于预设数量阈值,则基于同一原始案件类型对应的待处理数据,构建与原始案件类型相对应的先验知识库,并训练与原始案件类型相对应的目标判案模型。
其中,预设数量阈值是预先设置的数量阈值。若任一目标区域对应的待处理数据的目标数据量大于预设数量阈值,则说明该目标区域内各级法院审判与原始案件类型相对应的案件的数量较多,因此,可基于同一目标区域和原始案件类型对应的待处理数据,构建与目标区域和原始案件类型相对应的先验知识库,并训练与目标区域和原始案件类型相对应的目标判案模型,以使该先验知识库和目标判案模型对该目标区域的待判案件的借鉴意义更大,更具有针对性。若任一目标区域对应的待处理数据的目标数据量不大于预设数量阈值,则说明该目标区域内各级法院审判与原始案件类型相对应的案件的数量较少,基于同一原始案件类型对应的待处理数据,构建与原始案件类型相对应的先验知识库,并训练与原始案件类型相对应的目标判案模型,使得用于构建先验知识库和目标判案模型的待处理数据不局限于同一目标区域,而仅依据案件类型进行划分。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,如图5所示,提供一种庭审辅助处理装置,该庭审辅助处理装置与上述实施例中庭审辅助处理方法一一对应。该庭审辅助处理装置的各功能模块详细说明如下:
原始语音数据获取模块501,用于在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与审判提示文字相对应的原始语音数据;
对象标识获取模块502,用于对原始语音数据进行声纹识别,获取声纹识别结果,根据声纹识别结果确定原始语音数据对应的对象标识;
原始文本数据获取模块503,用于对原始语音数据进行文本翻译,获取与对象标识相对应的原始文本数据,将对象标识和原始文本数据关联存储在标准法庭审理笔录模板的相应位置;
在先文本数据判断模块504,用于基于原始文本数据查询在先文本数据库,判断是否存在与原始文本数据相对应的在先文本数据;
突出显示处理模块505,用于若存在在先文本数据,则对原始文本数据和在先文本数据进行语义分析,确定语义分析结果,根据语义分析结果对原始文本数据进行突出显示处理,显示与语义分析结果相对应的审判提示文字,重复执行获取麦克风采集的与审判提示文字相对应的原始语音数据;
笔录文件获取模块506,用于若不存在在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将庭审笔录文件存储在数据库中。
优选地,对象标识获取模块,包括:
声纹特征提取判断单元,用于采用声纹特征提取算法对原始语音数据进行声纹特征提取,获取目标声纹特征,判断是否存在与目标声纹特征相对应的标准声纹特征;
第一对象标识确定单元,用于若存在标准声纹特征,则根据标准声纹特征对应的身份标识,确定原始语音数据对应的对象标识;
第二对象标识确定单元,用于若不存在标准声纹特征,则根据原始语音数据对应的麦克风标识,确定原始语音数据对应的对象标识。
优选地,在先文本数据判断模块,包括:
文本关键词获取单元,用于采用关键词提取算法对原始文本数据进行关键词提取,获取文本关键词;
文本同义词获取单元,用于基于文本关键词查询同义词库,获取与文本关键词相对应的文本同义词;
在先文本查询判断单元,用于根据文本关键词和文本同义词查询在先文本数据库,判断是否存在包含文本关键词或者文本同义词的在先文本数据;
第一判断处理单元,用于若存在包含文本关键词或者文本同义词的在先文本数据,则认定存在与原始文本数据相对应的在先文本数据;
第二判断处理单元,用于若不存在包含文本关键词或者文本同义词的在先文本数据,则认定不存在与原始文本数据相对应的在先文本数据。
优选地,突出显示处理模块,包括:
第一显示处理单元,用于若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识为同一标识,则不对原始文本数据进行突出显示处理,显示标准法庭审理笔录模板对应的下一审判环节对应的审判提示文字;
第二显示处理单元,用于若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识为同一标识,则采用第一突出显示模式对原始文本数据进行突出显示处理,显示包括矛盾提示信息的审判提示文字;
第三显示处理单元,用于若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第二突出显示模式对原始文本数据进行突出显示处理,显示包括无争议提示信息的审判提示文字;
第四显示处理单元,用于若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第三突出显示模式对原始文本数据进行突出显示处理,显示包括争议焦点提示信息的审判提示文字。
关于庭审辅助处理装置的具体限定可以参见上文中对于庭审辅助处理方法的限定,在此不再赘述。上述庭审辅助处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图6所示,一种审判辅助处理装置,包括:
案件描述信息获取模块601,用于从数据库中获取待判案件对应的上述的庭审笔录文件,从庭审笔录文件中提取案件描述信息;
目标分词结果获取模块602,用于采用分词工具对案件描述信息进行分词,获取目标分词结果,目标分词结果包括多个目标分词;
目标关键词确定模块603,用于基于每一目标分词查询关键词库,将关键词库中存储的与目标分词相匹配的原始关键词确定为目标关键词;
目标案件类型确定模块604,用于根据目标关键词查询案件类型信息库,获取与目标关键词相匹配的至少一个目标案件类型;
先验知识获取模块605,用于从先验知识库中获取与至少一个目标案件类型相匹配的先验知识;
向量化处理模块606,用于对先验知识和案件描述信息进行向量化处理,获取先验文本向量和描述文本向量;
判案建议结果获取模块607,用于将先验文本向量和描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
优选地,目标分词结果获取模块,包括:
文本分词处理单元,用于采用结巴分词工具的搜索引擎模式对案件描述信息进行文本分词,获取文本分词结果,文本分词结果包括N个一级分词;
第一优化处理单元,用于若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词,且连续k-1个一级分词中存在至少两个一级分词的结合等于第k个一级分词,则仅保留结合等于第k个一级分词的至少两个一级分词作为目标分词,获取目标分词结果;
第二优化处理单元,用于若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词,且任意连续k个一级分词中不存在至少两个一级分词的结合等于第k个一级分词,则删除前k-1个一级分词,保留第k个一级分词作为目标分词,获取目标分词结果;
第三优化处理单元,用于若任意连续k个一级分词中连续k-1个一级分词的结合等于第k个一级分词,则删除第k个一级分词,保留前k-1个一级分词作为目标分词,获取目标分词结果。
优选地,目标关键词确定模块,包括:
目标同义词获取单元,用于根据目标分词查询同义词库,获取与目标分词相对应的目标同义词;
目标关键词确定单元,用于根据目标分词和目标同义词查询关键词库,判断是否存在与目标分词或者目标同义词相匹配的原始关键词,若存在原始关键词,则将原始关键词确定为目标关键词。
优选地,在案件描述信息获取模块之前,审判辅助处理装置还包括:
更新任务获取模块,用于获取数据更新任务,数据更新任务包括原始案件类型和任务更新时间;
第一数据获取模块,用于若与原始案件类型相对应的判案依据在任务更新时间以后发生变更,则确定变更时间,将变更时间和系统当前时间之间的与原始案件类型相对应的历史判案数据确定待处理数据;
第二数据获取模块,用于若与原始案件类型相对应的判案依据在任务更新时间以后没有发生变更,则将系统当前时间之前预设周期内的与原始案件类型相对应的历史判案数据确定待处理数据;
数据处理模块,用于根据待处理数据,构建与原始案件类型相对应的先验知识库,并训练与原始案件类型相对应的目标判案模型。
优选地,数据处理模块,包括:
先验知识库构建单元,用于从待处理数据中提取先验信息,从先验信息中选取关键词,构建与原始案件类型相对应的先验知识库;
分词向量处理单元,用于对待处理数据和先验信息进行分词和向量化处理,获取待处理文本向量和先验文本向量;
目标判案模型训练单元,用于基于待处理文本向量和先验文本向量进行模型训练,获取与原始案件类型相对应的目标判案模型。
优选地,待处理数据包括目标区域;
数据处理模块,包括:
目标数据量确定单元,用于确定任一目标区域对应的待处理数据的目标数据量;
第一数据处理单元,用于若目标数据量大于预设数量阈值,则基于同一目标区域和原始案件类型对应的待处理数据,构建与目标区域和原始案件类型相对应的先验知识库,并训练与目标区域和原始案件类型相对应的目标判案模型;
第二数据处理单元,用于若目标数据量不大于预设数量阈值,则基于同一原始案件类型对应的待处理数据,构建与原始案件类型相对应的先验知识库,并训练与原始案件类型相对应的目标判案模型。
关于审判辅助处理装置的具体限定可以参见上文中对于审判辅助处理方法的限定,在此不再赘述。上述审判辅助处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行庭审辅助处理方法或审判辅助处理方法过程中使用或者生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种庭审辅助处理方法或审判辅助处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中庭审辅助处理方法的步骤,如图2所示;或者处理器执行计算机程序时实现上述实施例中审判辅助处理方法的步骤,例如图3-图4所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现上述庭审辅助处理装置的各模块/单元的功能,如图5所示的各模块;或者处理器执行计算机程序时实现上述审判辅助处理装置的各模块/单元的功能,如图6所示的各模块,为避免重复,这里不同赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中庭审辅助处理方法,例如图2所示的步骤;或者,计算机程序被处理器执行时实现上述实施例中审判辅助处理方法的步骤,如图3-图4所示,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时上述上述庭审辅助处理装置的各模块/单元的功能,如图5所示的各模块;或者计算机程序被处理器执行时实现上述审判辅助处理装置的各模块/单元的功能,如图6所示的各模块,为避免重复,这里不同赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种庭审辅助处理方法,其特征在于,包括:
在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
对所述原始语音数据进行声纹识别,获取声纹识别结果,根据所述声纹识别结果确定所述原始语音数据对应的对象标识;
对所述原始语音数据进行文本翻译,获取与所述对象标识相对应的原始文本数据,将所述对象标识和所述原始文本数据关联存储在所述标准法庭审理笔录模板的相应位置;
基于所述原始文本数据查询在先文本数据库,判断是否存在与所述原始文本数据相对应的在先文本数据;
若存在所述在先文本数据,则对所述原始文本数据和所述在先文本数据进行语义分析,确定语义分析结果,根据所述语义分析结果对所述原始文本数据进行突出显示处理,显示与所述语义分析结果相对应的审判提示文字,重复执行所述获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
若不存在所述在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将所述庭审笔录文件存储在数据库中;
其中,所述根据所述语义分析结果对所述原始文本数据进行突出显示处理,显示与所述语义分析结果相对应的审判提示文字,包括:
若所述语义分析结果为相同,且所述原始文本数据与所述在先文本数据对应的对象标识为同一标识,则不对所述原始文本数据进行突出显示处理,显示所述标准法庭审理笔录模板对应的下一审判环节对应的审判提示文字;
若所述语义分析结果为相异,且所述原始文本数据与所述在先文本数据对应的对象标识为同一标识,则采用第一突出显示模式对所述原始文本数据进行突出显示处理,显示包括矛盾提示信息的审判提示文字;
若所述语义分析结果为相同,且所述原始文本数据与所述在先文本数据对应的对象标识不为同一标识,则采用第二突出显示模式对所述原始文本数据进行突出显示处理,显示包括无争议提示信息的审判提示文字;
若所述语义分析结果为相异,且所述原始文本数据与所述在先文本数据对应的对象标识不为同一标识,则采用第三突出显示模式对所述原始文本数据进行突出显示处理,显示包括争议焦点提示信息的审判提示文字。
2.如权利要求1所述的庭审辅助处理方法,其特征在于,所述基于所述原始文本数据查询在先文本数据库,判断是否存在与所述原始文本数据相对应的在先文本数据,包括:
采用关键词提取算法对原始文本数据进行关键词提取,获取文本关键词;
基于所述文本关键词查询同义词库,获取与所述文本关键词相对应的文本同义词;
根据所述文本关键词和所述文本同义词查询在先文本数据库,判断是否存在包含所述文本关键词或者所述文本同义词的在先文本数据;
若存在包含所述文本关键词或者所述文本同义词的在先文本数据,则认定存在与所述原始文本数据相对应的在先文本数据;
若不存在包含所述文本关键词或者所述文本同义词的在先文本数据,则认定不存在与所述原始文本数据相对应的在先文本数据。
3.一种审判辅助处理方法,其特征在于,包括:
从数据库中获取待判案件对应的权利要求1-2任一项所述的庭审笔录文件,从所述庭审笔录文件中提取案件描述信息;
采用分词工具对所述案件描述信息进行分词,获取目标分词结果,所述目标分词结果包括多个目标分词;
基于每一所述目标分词查询关键词库,将所述关键词库中存储的与所述目标分词相匹配的原始关键词确定为目标关键词;
根据所述目标关键词查询案件类型信息库,获取与所述目标关键词相匹配的至少一个目标案件类型;
从先验知识库中获取与至少一个所述目标案件类型相匹配的先验知识;
对所述先验知识和所述案件描述信息进行向量化处理,获取先验文本向量和描述文本向量;
将所述先验文本向量和所述描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
4.如权利要求3所述的审判辅助处理方法,其特征在于,所述采用分词工具对所述案件描述信息进行分词,获取目标分词结果,包括:
采用结巴分词工具的搜索引擎模式对所述案件描述信息进行文本分词,获取文本分词结果,所述文本分词结果包括N个一级分词;
若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于第k个一级分词,且连续k-1个所述一级分词中存在至少两个一级分词的结合等于第k个一级分词,则仅保留结合等于第k个一级分词的至少两个所述一级分词作为所述目标分词,获取目标分词结果;
若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于所述第k个一级分词,且任意连续k个所述一级分词中不存在至少两个一级分词的结合等于第k个一级分词,则删除前k-1个所述一级分词,保留所述第k个一级分词作为所述目标分词,获取目标分词结果;
若任意连续k个所述一级分词中连续k-1个一级分词的结合等于所述第k个一级分词,则删除所述第k个一级分词,保留前k-1个所述一级分词作为所述目标分词,获取目标分词结果。
5.如权利要求3所述的审判辅助处理方法,其特征在于,在所述从数据库中获取待判案件对应的庭审笔录文件之前,所述审判辅助处理方法还包括:
获取数据更新任务,所述数据更新任务包括原始案件类型和任务更新时间;
若与所述原始案件类型相对应的判案依据在所述任务更新时间以后发生变更,则确定变更时间,将所述变更时间和系统当前时间之间的与原始案件类型相对应的历史判案数据确定待处理数据;
若与所述原始案件类型相对应的判案依据在所述任务更新时间以后没有发生变更,则将系统当前时间之前预设周期内的与原始案件类型相对应的历史判案数据确定待处理数据;
根据所述待处理数据,构建与所述原始案件类型相对应的先验知识库,并训练与所述原始案件类型相对应的目标判案模型。
6.一种庭审辅助处理装置,其特征在于,包括:
原始语音数据获取模块,用于在客户端上显示与标准法庭审理笔录模板中当前审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
对象标识获取模块,用于对所述原始语音数据进行声纹识别,获取声纹识别结果,根据所述声纹识别结果确定所述原始语音数据对应的对象标识;
原始文本数据获取模块,用于对所述原始语音数据进行文本翻译,获取与所述对象标识相对应的原始文本数据,将所述对象标识和所述原始文本数据关联存储在所述标准法庭审理笔录模板的相应位置;
在先文本数据判断模块,用于基于所述原始文本数据查询在先文本数据库,判断是否存在与所述原始文本数据相对应的在先文本数据;
突出显示处理模块,用于若存在所述在先文本数据,则对所述原始文本数据和所述在先文本数据进行语义分析,确定语义分析结果,根据所述语义分析结果对所述原始文本数据进行突出显示处理,显示与所述语义分析结果相对应的审判提示文字,重复执行所述获取麦克风采集的与所述审判提示文字相对应的原始语音数据;
笔录文件获取模块,用于若不存在所述在先文本数据,则重复执行在客户端上显示与标准法庭审理笔录模板中下一审判环节对应的审判提示文字,获取麦克风采集的与所述审判提示文字相对应的原始语音数据,直至不存在下一审判环节对应的审判提示文字时,获取庭审笔录文件,并将所述庭审笔录文件存储在数据库中;
其中,突出显示处理模块,包括:
第一显示处理单元,用于若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识为同一标识,则不对原始文本数据进行突出显示处理,显示标准法庭审理笔录模板对应的下一审判环节对应的审判提示文字;
第二显示处理单元,用于若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识为同一标识,则采用第一突出显示模式对原始文本数据进行突出显示处理,显示包括矛盾提示信息的审判提示文字;
第三显示处理单元,用于若语义分析结果为相同,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第二突出显示模式对原始文本数据进行突出显示处理,显示包括无争议提示信息的审判提示文字;
第四显示处理单元,用于若语义分析结果为相异,且原始文本数据与在先文本数据对应的对象标识不为同一标识,则采用第三突出显示模式对原始文本数据进行突出显示处理,显示包括争议焦点提示信息的审判提示文字。
7.一种审判辅助处理装置,其特征在于,包括:
案件描述信息获取模块,用于从数据库中获取待判案件对应的权利要求1-2任一项所述的庭审笔录文件,从所述庭审笔录文件中提取案件描述信息;
目标分词结果获取模块,用于采用分词工具对所述案件描述信息进行分词,获取目标分词结果,所述目标分词结果包括多个目标分词;
目标关键词确定模块,用于基于每一所述目标分词查询关键词库,将所述关键词库中存储的与所述目标分词相匹配的原始关键词确定为目标关键词;
目标案件类型确定模块,用于根据所述目标关键词查询案件类型信息库,获取与所述目标关键词相匹配的至少一个目标案件类型;
先验知识获取模块,用于从先验知识库中获取与至少一个所述目标案件类型相匹配的先验知识;
向量化处理模块,用于对所述先验知识和所述案件描述信息进行向量化处理,获取先验文本向量和描述文本向量;
判案建议结果获取模块,用于将所述先验文本向量和所述描述文本向量输入预先训练的目标判案模型,获取判案建议结果。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项庭审辅助处理方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求3-5任一项所述审判辅助处理方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项庭审辅助处理方法的步骤,或者,所述计算机程序被处理器执行时实现如权利要求3-5任一项所述审判辅助处理方法的步骤。
CN201910756630.4A 2019-08-16 2019-08-16 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 Active CN110704571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910756630.4A CN110704571B (zh) 2019-08-16 2019-08-16 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910756630.4A CN110704571B (zh) 2019-08-16 2019-08-16 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110704571A CN110704571A (zh) 2020-01-17
CN110704571B true CN110704571B (zh) 2022-02-15

Family

ID=69193462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910756630.4A Active CN110704571B (zh) 2019-08-16 2019-08-16 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110704571B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及系统、电子设备
CN112651854B (zh) * 2020-12-23 2024-06-21 讯飞智元信息科技有限公司 语音调度方法、装置、电子设备和存储介质
CN112685593A (zh) * 2020-12-25 2021-04-20 北京华夏电通科技股份有限公司 一种利用庭审音频标引进行庭审流程检查的方法及系统
CN112686782A (zh) * 2020-12-25 2021-04-20 北京华夏电通科技股份有限公司 一种通过语音识别的庭审流程实时检查方法及系统
CN112765974B (zh) * 2021-01-19 2023-11-24 卡奥斯数字科技(北京)有限公司 一种业务辅助方法、电子设备及可读存储介质
CN112861757B (zh) * 2021-02-23 2022-11-22 天津汇智星源信息技术有限公司 基于文本语义理解的笔录智能审核方法及电子设备
CN113254621B (zh) * 2021-06-21 2024-06-14 中国平安人寿保险股份有限公司 坐席通话提示方法、装置、计算机设备及存储介质
CN114492436B (zh) * 2022-02-11 2024-07-26 国家电网有限公司华东分部 一种审计访谈信息的处理方法、装置和系统
CN116342332B (zh) * 2023-05-31 2023-08-01 合肥工业大学 基于互联网的辅助审判方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010021701A (ja) * 2008-07-09 2010-01-28 Oki Electric Ind Co Ltd 会議参加者呼出システム、会議参加者呼出サーバ及び会議参加者呼出プログラム
CN101833982A (zh) * 2009-03-12 2010-09-15 新奥特硅谷视频技术有限责任公司 一种通过特定语音触发的法庭庭审音频文件实时标引方法
US8019069B1 (en) * 2006-10-26 2011-09-13 Avaya Inc. Method and apparatus for altering participants in a conference call to topics of interest
CN109003608A (zh) * 2018-08-07 2018-12-14 北京东土科技股份有限公司 庭审控制方法、系统、计算机设备及存储介质
CN109192213A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 庭审语音实时转写方法、装置、计算机设备及存储介质
CN109214759A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 庭审过程中的提醒方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028073B2 (en) * 2003-06-25 2011-09-27 Oracle International Corporation Mobile meeting and collaboration
US10614162B2 (en) * 2016-05-27 2020-04-07 Ricoh Company, Ltd. Apparatus, system, and method of assisting information sharing, and recording medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019069B1 (en) * 2006-10-26 2011-09-13 Avaya Inc. Method and apparatus for altering participants in a conference call to topics of interest
JP2010021701A (ja) * 2008-07-09 2010-01-28 Oki Electric Ind Co Ltd 会議参加者呼出システム、会議参加者呼出サーバ及び会議参加者呼出プログラム
CN101833982A (zh) * 2009-03-12 2010-09-15 新奥特硅谷视频技术有限责任公司 一种通过特定语音触发的法庭庭审音频文件实时标引方法
CN109214759A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 庭审过程中的提醒方法及装置
CN109003608A (zh) * 2018-08-07 2018-12-14 北京东土科技股份有限公司 庭审控制方法、系统、计算机设备及存储介质
CN109192213A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 庭审语音实时转写方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"知会"会议语音记录系统的设计;艾星等;《电子测试》;20181115(第22期) *

Also Published As

Publication number Publication date
CN110704571A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110704571B (zh) 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质
CN110675288B (zh) 智能辅助审判方法、装置、计算机设备及存储介质
WO2020206957A1 (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN111291156B (zh) 一种基于知识图谱的问答意图识别方法
WO2021017612A1 (zh) 基于语音分析的问答方法、装置、设备及存储介质
JP5831951B2 (ja) 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
TWI650719B (zh) 從文字內容評核客戶服務品質之系統及方法
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN108447471A (zh) 语音识别方法及语音识别装置
CN105912629A (zh) 一种智能问答方法及装置
CN111883140A (zh) 基于知识图谱和声纹识别的认证方法、装置、设备及介质
CN112925945A (zh) 会议纪要生成方法、装置、设备及存储介质
CN110347810B (zh) 对话式检索回答方法、装置、计算机设备及存储介质
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110047469A (zh) 语音数据情感标注方法、装置、计算机设备及存储介质
US20220224792A1 (en) Caller identification in a secure environment using voice biometrics
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN110931002B (zh) 人机交互方法、装置、计算机设备和存储介质
CN111145053A (zh) 基于人工智能的企业法律顾问管理系统及方法
CN110110048B (zh) 问询指引方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant