CN116756324B

CN116756324B - 基于庭审音频的关联度挖掘方法、装置、设备及存储介质

Info

Publication number: CN116756324B
Application number: CN202311013900.5A
Authority: CN
Inventors: 王敏
Original assignee: Beijing Babel Technology Co ltd
Current assignee: Beijing Babel Technology Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-10-27
Anticipated expiration: 2043-08-14
Also published as: CN116756324A

Abstract

本发明涉及音频检测领域，公开了一种基于庭审音频的关联度挖掘方法、装置、设备及存储介质。该方法包括：获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。本申请实现了对线上法庭中相关庭审音频数据之间关联度的挖掘，提高了最终生成的辅助审判结果的准确性。

Description

基于庭审音频的关联度挖掘方法、装置、设备及存储介质

技术领域

本发明涉及音频检测领域，尤其涉及一种基于庭审音频的关联度挖掘方法、装置、设备及存储介质。

背景技术

随着经济的快速发展和人们生活水平的提升，日常生活中人们之间的经济和社会交往等日益紧密。以此同时，不可避免产生一部分人之间各种各样的纠纷，导致法院需要受理的民事诉讼案件数量越来越多。为了提高相关民事诉讼案件的处理效率和人们对案件处理的满意度，除了采用传统线下法庭的方式进行审判外，还采用线上法庭的形式，降低了法庭审判的门槛和进一步的提高审判效率。

现今，线上法庭通过实时记录庭审各方人员的辩护数据，以及结合庭审各方人员在系统上上传的多种庭审证据，处理得到对应的庭审案件的特征数据来生成相应辅助审判信息。但是这种线上辅助审判的方式只是简单提取相关陈述和证据中的案件特征，并未对相关陈述和证据的数据进行进一步的挖掘，以致最终的审判可能缺乏案件整体之间的关联性，即现有的线上法庭对相关庭审数据处理缺乏关联性，以致最终生成的辅助审判结果的适用法规不够准确。

发明内容

本发明的主要目的在于解决现有的线上法庭对相关庭审数据处理缺乏关联性，以致最终生成的辅助审判结果的适用法规不够准确的问题。

本发明第一方面提供了一种基于庭审音频的关联度挖掘方法，所述基于庭审音频的关联度挖掘方法包括：获取待审判案件的庭审音频数据，并基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果；提取所述音频分离结果中各方审判人员的多个案件陈述特征，并基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

可选的，在本发明第一方面的第一种实现方式中，所述基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果，包括：对所述庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于所述待审判案件对应的多个庭审时刻，计算出所述预处理后的庭审音频数据的多个音频时频特征；选取所述音频时频特征对应的分离指标值，并基于所述分离指标值和所述待审判案件中各方审判人员，分离所述庭审音频数据在各庭审时刻时至少一路声源音频信号；对各所述声源音频信号进行音频文本转换和文本清洗，得到音频分离结果。

可选的，在本发明第一方面的第二种实现方式中，所述提取所述音频分离结果中各方审判人员的多个案件陈述特征，包括：基于所述待审判案件的案件类型，提取所述音频分离结果中多个陈述关键词；基于各方审判人员，计算出各所述陈述关键词之间的语义关联度，并基于所述语义关联度，对各所述陈述关键词进行陈述上下文的特征标记，得到多个案件陈述特征。

可选的，在本发明第一方面的第三种实现方式中，所述多维庭审文本标识包括文本维度的庭审文本标识和情感维度的庭审文本标识，所述基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识，包括：基于各所述审判人员，对所述案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识。

可选的，在本发明第一方面的第四种实现方式中，所述确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，包括：计算出所述文本维度的庭审文本标识和所述情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；利用预设主题生成模型对所述词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题。

可选的，在本发明第一方面的第五种实现方式中，所述基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果，包括：基于所述陈述主题和所述待审判案件的辅助审判信息，检测各所述审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；基于所述真实性检测结果，分别计算出各所述庭审文本标识的标识聚类距离；基于所述标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

可选的，在本发明第一方面的第六种实现方式中，在所述基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果之后，还包括：基于所述陈述关联度，提取各方审判人员在不同庭审时刻中的多个关键庭审特征；基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应审判人员的辅助审判结果。

本发明第二方面提供了一种基于庭审音频的关联度挖掘装置，所述基于庭审音频的关联度挖掘装置包括：音频分离模块，用于获取待审判案件的庭审音频数据，并基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果；类型分析模块，用于提取所述音频分离结果中各方审判人员的多个案件陈述特征，并基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；关联度挖掘模块，用于确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

可选的，在本发明第二方面的第一种实现方式中，所述音频分离模块包括：特征提取单元，用于对所述庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于所特征述待审判案件对应的多个庭审时刻，计算出所述预处理后的庭审音频数据的多个音频时频特征；指标计算单元，用于选取所述音频时频特征对应的分离指标值，并基于所述分离指标值和所述待审判案件中各方审判人员，分离所述庭审音频数据在各庭审时刻时至少一路声源音频信号；文本转换单元，用于对各所述声源音频信号进行音频文本转换和文本清洗，得到音频分离结果。

可选的，在本发明第二方面的第二种实现方式中，所述类型分析模块包括：关键词提取单元，用于基于所述待审判案件的案件类型，提取所述音频分离结果中多个陈述关键词；特征标记单元，用于基于各方审判人员，计算出各所述陈述关键词之间的语义关联度，并基于所述语义关联度，对各所述陈述关键词进行陈述上下文的特征标记，得到多个案件陈述特征。

可选的，在本发明第二方面的第三种实现方式中，所述类型分析模块还包括：文本标记单元，用于基于各所述审判人员，对所述案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；情感标记单元，用于利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识。

可选的，在本发明第二方面的第四种实现方式中，所述关联度挖掘模块包括：频次计算单元，用于计算出所述文本维度的庭审文本标识和所述情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；主题匹配单元，用于利用预设主题生成模型对所述词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题。

可选的，在本发明第二方面的第五种实现方式中，所述关联度挖掘模块还包括：真实性检测单元，用于基于所述陈述主题和所述待审判案件的辅助审判信息，检测各所述审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；标识聚类单元，用于基于所述真实性检测结果，分别计算出各所述庭审文本标识的标识聚类距离；关联度构建单元，用于基于所述标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

可选的，在本发明第二方面的第六种实现方式中，在所述关联度挖掘模块之后，还包括法规匹配模块，所述法规匹配模块包括：关键提取单元，用于基于所述陈述关联度，提取各方审判人员在不同庭审时刻中的多个关键庭审特征；法规匹配单元，用于基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应审判人员的辅助审判结果。

本发明第三方面提供了一种基于庭审音频的关联度挖掘设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于庭审音频的关联度挖掘设备执行上述的基于庭审音频的关联度挖掘方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于庭审音频的关联度挖掘方法的各个步骤。

本发明提供的技术方案中，通过获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。相比于现有技术，本申请通过待审判案件的庭审音频数据进行多种音频预处理，并提取音频分离结果中对应审判人员的多个案件陈述特征，进而利用案件陈述特征，分析出多维庭审文本标识，并基于各方审判人员对应的至少一个陈述主题，构建出各庭审文本标识之间的陈述关联度，生成案件庭审音频数据之间关联度的挖掘结果，实现了对线上法庭中相关庭审音频数据之间关联度的挖掘，从而提高了最终生成的辅助审判结果的准确性。

附图说明

图1为本发明实施例中基于庭审音频的关联度挖掘方法的第一个实施例示意图；

图2为本发明实施例中基于庭审音频的关联度挖掘方法的第二个实施例示意图；

图3为本发明实施例中基于庭审音频的关联度挖掘方法的第三个实施例示意图；

图4为本发明实施例中基于庭审音频的关联度挖掘装置的一个实施例示意图；

图5为本发明实施例中基于庭审音频的关联度挖掘装置的另一个实施例示意图；

图6为本发明实施例中基于庭审音频的关联度挖掘设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于庭审音频的关联度挖掘方法、装置、设备及存储介质，该方法包括：获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。本申请实现了对线上法庭中相关庭审音频数据之间关联度的挖掘，提高了最终生成的辅助审判结果的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于庭审音频的关联度挖掘方法的第一个实施例包括：

101、获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本实施例中，这里的庭审音频数据，指的是线上法庭开庭审理时各方审判人员在审理过程中的发言陈述音频以及各种证据中的录音数据等；这里的各方审判人员，包括原告方、被告方、法庭工作人员和法官等；这里音源清洗，指的是对相关庭审音频数据进行降噪、音频转换等音频数据的提纯操作；这里的音频分离，指的是基于各方审判人员对应音频特征（如声纹、发言时间等，其中，本申请以声纹为例进行说明，也可以根据音频的相关特征进行其他类型的分类）来对庭审音频数据进行音频片段的辩护人归属分类。

在实际应用中，获取当前线上法庭中待审判案件的庭审音频数据，通过对庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于待审判案件对应的多个庭审时刻，利用短时傅里叶变换等方式计算出预处理后的庭审音频数据的多个音频时频特征；进而选取音频时频特征对应的分离指标值（如审判个人独特声纹、审判个人发音的音频频率值等），并基于分离指标值和待审判案件中各方审判人员，分离庭审音频数据在各庭审时刻时至少一路声源音频信号；从而对各声源音频信号进行音频文本转换和文本清洗，得到音频分离结果。

102、提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；

本实施例中，这里的案件陈述特征，指的是各个审判人员在对应审判阶段是辩护音频对应的辩护特征，以及各个审判阶段所提供的各种音频证据中相关人员的陈述特征；这里的多维庭审文本类型，指的是可用来描述文本之间相关关联性的类型，如文本主题、文本中的情感类型、文本分类类型等。

在实际应用中，基于待审判案件的案件类型，提取音频分离结果中关于案件辩护或者证据陈述的多个陈述关键词；进而基于各方审判人员，计算出各陈述关键词之间的语义关联度，并基于语义关联度，对各陈述关键词进行陈述上下文的特征标记，得到具有发言语义关联性的多个案件陈述特征；进而基于各审判人员，对案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；以及利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识。

103、确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

本实施例中，这里的陈述主题，指的是在某个庭审阶段或者某段话等，对应审判人员在当前辩音频中主要陈述内容对应的陈述主题；这里的陈述关联度，指的是各个审判人员在在不同审判阶段、不同辩护音频片段以及审判辩护与相关音频证词之间的辩护关联程度。

在实际应用中，通过计算出文本维度的庭审文本标识和情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；进而利用预设主题生成模型对词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题，并基于陈述主题和待审判案件的辅助审判信息，检测各审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；进而基于真实性检测结果，分别计算出各庭审文本标识的标识聚类距离；从而基于标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

此外，在生成庭审音频的关联度挖掘结果之后，基于陈述关联度，提取各方审判人员在不同庭审时刻中具有陈述关联度的多个关键庭审特征，进而基于关键庭审特征，匹配待审判案件对应的多个法规特征，并基于法规特征，生成对应审判人员的辅助审判结果。

本发明实施例中，通过获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。相比于现有技术，本申请通过待审判案件的庭审音频数据进行多种音频预处理，并提取音频分离结果中对应审判人员的多个案件陈述特征，进而利用案件陈述特征，分析出多维庭审文本标识，并基于各方审判人员对应的至少一个陈述主题，构建出各庭审文本标识之间的陈述关联度，生成案件庭审音频数据之间关联度的挖掘结果，实现了对线上法庭中相关庭审音频数据之间关联度的挖掘，从而提高最终生成的辅助审判结果的准确性。

请参阅图2，本发明实施例中基于庭审音频的关联度挖掘方法的第二个实施例包括：

201、对庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于待审判案件对应的多个庭审时刻，计算出预处理后的庭审音频数据的多个音频时频特征；

本实施例中，这里的音频预处理，指的是，指的是对庭审音频数据进行噪声过滤、信号增强等信号降噪处理；这里的庭审时刻，指的是庭审各个阶段对应的时刻（如庭审准备阶段、法庭调查阶段、法庭辩论阶段和宣判阶段等），并且在不同的审判时序中，都有相应的主要审判人员的音频时频特征。

在实际应用中，在获取待审判案件的庭审音频数据后，通过对庭审音频数据进行音频降噪处理，即使用噪音抑制算法（如谱减法、估计噪音模型等）将庭审音频数据中环境噪声等背景噪音进行过滤处理，得到预处理后的庭审音频数据，并基于待审判案件对应的多个庭审时刻，利用短时傅里叶变换等计算出预处理后的庭审音频数据中不同庭审时刻范围内对应审判人员的多个音频时频特征。

202、选取音频时频特征对应的分离指标值，并基于分离指标值和待审判案件中各方审判人员，分离庭审音频数据在各庭审时刻时至少一路声源音频信号；

本实施例中，这里的分离指标值，指的是短时能量、过零率、最大似然估计、最大峰度、最小互信息等；这里的声源音频信号，指的是各方审判人员对应的辩护语音信号，由于在不同审判时刻，可能存在插话、互相辩护的对话等情况，需要对存在混音的音频进行识别和分类。

在实际应用中，通过选取音频时频特征对应的分离指标值（如最大峰度），进而基于分离指标值和待审判案件中各方审判人员，分离庭审音频数据在各庭审时刻时至少一路声源音频信号，如利用最大峰度计算出各所述庭审音频数据的非高斯分布特性，进而通过统计最大峰度之间的统计独立性，可以估计出原始声音源，并基于庭审音频数据对应的音频段，并将其分离出来，得到各庭审时刻时至少一路声源音频信号。

203、对各声源音频信号进行音频文本转换和文本清洗，得到音频分离结果；

本实施例中，通过对对各声源音频信号进行音频文本转换后，对音频文本进行去除非必要的标点符号、停用词、HTML标签等，得到音频分离结果。

204、基于待审判案件的案件类型，提取音频分离结果中多个陈述关键词；

本实施例中，这里的案件类型，指的是当前庭审案件的类型（如侵权纠纷、知识产权纠纷、婚姻纠纷、合同纠纷、涉及财产和非财产纠纷、继承纠纷等）。这里的陈述关键词，指的是描述对应类型案件的有关案件陈述词语等。

在实际应用中，基于待审判案件的案件类型，从音频分离结果中提取各个审判人员对当前案件辩护和描述相关的多个陈述关键词，如使用自然语言处理技术，对音频分离结果进行实体识别和关键词提取。可以利用命名实体识别模型来标注和识别特定实体，如法院名称、被告人姓名、案号等。同时，使用关键词提取技术，提取与审判相关的重要词汇或短语，如罪名、证据、判决结果等。

205、基于各方审判人员，计算出各陈述关键词之间的语义关联度，并基于语义关联度，对各陈述关键词进行陈述上下文的特征标记，得到多个案件陈述特征；

本实施例中，这里的语义关联度，指的是描述相关案件发展前后或者案件辩护前后的关联语义。

在实际应用中，基于各方审判人员，对陈述关键词进行上下文分析和关联处理。如通过分析句子结构、词语之间的关系等信息，可以进一步理解文本中的审判相关信息，例如，判断某个实体是否是被告人的律师，或者判断某个关键词是否是法院判决的结果。进而将提取到的审判相关信息进行结构化输出，可以使用标签、字段或数据表的形式进行组织和呈现，得到各陈述关键词之间的语义关联度。进而通过对各陈述关键词进行陈述上下文的特征标记（如词性标注：对各陈述关键词进行词性标注；句法分析：对各陈述关键词进行句法分析（即分析句子中单词之间的依存关系，了解句子的结构和成分之间的关系）；命名实体识别：使用命名实体识别技术，标注和识别特定的实体，如人名、地名、组织机构名等；语义角色标注：将句子中的论元（argument）与谓词（predicate）进行关联，标注出句子中各个成分的语义角色，如施事者、受事者、时间、原因等；实体关系抽取：根据文本中提取到的实体和词语之间的关系，进行实体关系抽取。实体关系抽取是指从文本中提取出实体之间的关系，例如被告人与律师之间的关系、判决结果与相关证据之间的关系等；上下文语义理解：结合上述步骤得到的信息，进行上下文语义的理解和推理。通过分析整个文本的语义上下文，可以根据先前提取的信息进行推断和关联，进一步理解和提取审判相关的信息），从而得到多个案件陈述特征。

206、基于各审判人员，对案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；

本实施例中，基于各审判人员和审判文本类型，统计案件陈述特征中每个单词的频次或出现情况，构建一个向量表示，并结合单词频次和逆文档频率，衡量单词在文本中的重要性，以及使用词嵌入模型将单词转换为低维稠密的向量表示，得到文本标注后的案件陈述特征，进而利用训练好的决策树模型对文本标注后的案件陈述特征进行分类，得到文本维度的庭审文本标识。

207、利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识；

本实施例中，利用预设情感特征模型，分别构建识别各方审判人员在不同庭审时刻中案件陈述特征对应的词汇情感关系和词汇情感值（如通过构建一个庭审情感词典，其中包含常见庭审辩护词汇及其对应的情感极性（例如正面、负面、中性），可以选择已有的庭审辩护情感词典（或者历史庭审辩护数据），如情感词汇本体、知网情感词典等中包含庭审辩护的数据；进而将构建的庭审情感词典进行分词处理，将文本拆分成单个的词语（如可以使用中文分词器，如结巴分词等。）；进而对分词后的词语与情感词典进行匹配，找出在情感词典中存在的词语。如果一个词语在情感词典中出现，则可以认为它具有情感极性，并为为每个词语赋予一个情感得分。可以根据情感词典中的情感极性指定得分值，例如正面词语赋予正向得分，负面词语赋予负向得分，从而可以构建案件陈述特征对应的词汇情感关系和词汇情感值。），进而基于词汇情感关系，匹配各频谱特征对应的审判情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识。

208、确定庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于陈述主题，构建各庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

本发明实施例中，本申请通过待审判案件的庭审音频数据进行多种音频预处理，并提取音频分离结果中对应审判人员的多个案件陈述特征，进而利用案件陈述特征，分析出多维庭审文本标识，并基于各方审判人员对应的至少一个陈述主题，构建出各庭审文本标识之间的陈述关联度，生成案件庭审音频数据之间关联度的挖掘结果，实现了对线上法庭中相关庭审音频数据之间关联度的挖掘，从而提高最终生成的辅助审判结果的准确性。

请参阅图3，本发明实施例中基于庭审音频的关联度挖掘方法的第三个实施例包括：

301、获取待审判案件的庭审音频数据，并基于待审判案件中各方审判人员，对庭审音频数据进行音源清洗和音频分离，得到音频分离结果；

302、提取音频分离结果中各方审判人员的多个案件陈述特征，并基于案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；

303、计算出文本维度的庭审文本标识和情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；

本实施例中，基于根据案件陈述特征，构建一个词汇表，也称为词袋；进而创建一个空的文档-词矩阵，行数对应案件陈述特征的数量，列数对应词汇表中的词语数量，进而遍历每一个文档，统计每个词语在该文档中的出现次数（如可以使用词频或者其他权重来表示词语在文档中的重要性）；进而基于频次计算的结果，将对应的值（词频）填充到文档-词矩阵的相应位置上，并对文档-词矩阵进行归一化操作，以使得不同文档之间的特征具有相同的尺度，得到各方审判人员对应的词频次矩阵。

304、利用预设主题生成模型对词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题；

本实施例中，这里的预设主题生成模型，指的是使用LDA模型对文档-词矩阵进行主题建模。LDA是一种概率生成模型，它假设每个文档由多个主题组成，每个主题又由多个词组成，即通过根据领域知识或实际需求，设置要提取的主题数目K，进而随机初始化LDA模型的参数，包括主题-文档分布和主题-词分布，并通过迭代更新参数来优化LDA模型，使其能够更好地拟合文本数据，最终输出每个主题中权重最高的若干词语，用于解释和理解主题的含义。

在实际应用中，利用预设主题生成模型对词频次矩阵进行庭审陈述主题的匹配，即根据LDA模型的输出结果，解释和理解每个主题的含义，并将其应用于具体问题中：如分析主题：对每个主题进行分析，了解主题的关键词和权重，以及主题在文档中的分布情况；理解主题：解释每个主题的含义和主题词在主题中的贡献度，尝试给主题命名，以便更好地理解文本数据；应用主题：根据主题建模的结果，可以应用于判决预测、文本摘要、信息检索等任务。从而得到各方审判人员在不同庭审时刻对应的至少一个陈述主题。

305、基于陈述主题和待审判案件的辅助审判信息，检测各审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；

本实施例中，基于陈述主题和待审判案件的辅助审判信息，分别测各审判人员在不同庭审时刻的辩护真实性，如通过结合陈述主题和待审判案件的辅助审判信息，检测一定庭审时间范围内，各个审判人员的陈述是否具有连续性，叙事是否完整等，如果陈述不连续性，叙事不完整，则该审判人员可能存在不真实辩护，最终得到各个审判人员的真实性检测结果。

306、基于真实性检测结果，分别计算出各庭审文本标识的标识聚类距离；

本实施例中，基于真实性检测结果，利用距离的聚类算法：如K-Means、层次聚类等，计算出满足真实性辩护的庭审文本标识之间的标识聚类距离。

307、基于标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果；

本实施例中，基于标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，如将距离不超过一定数值的庭审文本标识建立相关陈述关联度，将距离超过一定数值的庭审文本标识建立不相关陈述关联度，从而生成各个审判人员在各个庭审时间段中和整个庭审阶段中相关庭审音频的关联度挖掘结果。

308、基于陈述关联度，提取各方审判人员在不同庭审时刻中的多个关键庭审特征；

本实施例中，基于陈述关联度，分别提取各方审判人员在不同庭审时刻中的与该案件审判具有真实性和陈述连续性等的多个关键庭审特征（如案件时间、案件程度、案件相关人员等）。

309、基于关键庭审特征，匹配待审判案件的多个法规特征，并基于法规特征，生成对应审判人员的辅助审判结果。

本实施例中，基于关键庭审特征，分别匹配待审判案件的各个审判人员（尤其是原告方和被告方）的多个法规特征，并基于法规特征，生成对应审判人员的辅助审判结果，并将对应的辅助审判结果发送至对应的审判人员，以实现对线上法庭的辅助自动审判，并通过关联度的挖掘，提高最终辅助审判结果的准确性。

上面对本发明实施例中基于庭审音频的关联度挖掘方法进行了描述，下面对本发明实施例中基于庭审音频的关联度挖掘装置进行描述，请参阅图4，本发明实施例中基于庭审音频的关联度挖掘装置一个实施例包括：

音频分离模块401，用于获取待审判案件的庭审音频数据，并基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果；

类型分析模块402，用于提取所述音频分离结果中各方审判人员的多个案件陈述特征，并基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；

关联度挖掘模块403，用于确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

请参阅图5，本发明实施例中基于庭审音频的关联度挖掘装置的另一个实施例包括：

进一步的，所述音频分离模块401包括：

特征提取单元4011，用于对所述庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于所特征述待审判案件对应的多个庭审时刻，计算出所述预处理后的庭审音频数据的多个音频时频特征；指标计算单元4012，用于选取所述音频时频特征对应的分离指标值，并基于所述分离指标值和所述待审判案件中各方审判人员，分离所述庭审音频数据在各庭审时刻时至少一路声源音频信号；文本转换单元4013，用于对各所述声源音频信号进行音频文本转换和文本清洗，得到音频分离结果。

进一步的，所述类型分析模块402包括：

关键词提取单元4021，用于基于所述待审判案件的案件类型，提取所述音频分离结果中多个陈述关键词；特征标记单元4022，用于基于各方审判人员，计算出各所述陈述关键词之间的语义关联度，并基于所述语义关联度，对各所述陈述关键词进行陈述上下文的特征标记，得到多个案件陈述特征。

进一步的，所述类型分析模块402还包括：

文本标记单元4023，用于基于各所述审判人员，对所述案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；情感标记单元4024，用于利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识。

进一步的，所述关联度挖掘模块403包括：

频次计算单元4031，用于计算出所述文本维度的庭审文本标识和所述情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；主题匹配单元4032，用于利用预设主题生成模型对所述词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题。

进一步的，所述关联度挖掘模块403还包括：

真实性检测单元4033，用于基于所述陈述主题和所述待审判案件的辅助审判信息，检测各所述审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；标识聚类单元4034，用于基于所述真实性检测结果，分别计算出各所述庭审文本标识的标识聚类距离；关联度构建单元4035，用于基于所述标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

进一步的，在所述关联度挖掘模块403之后，还包括法规匹配模块404，所述法规匹配模块404包括：

关键提取单元4041，用于基于所述陈述关联度，提取各方审判人员在不同庭审时刻中的多个关键庭审特征；法规匹配单元4042，用于基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应审判人员的辅助审判结果。

上面图4和图5从模块化功能实体的角度对本发明实施例中的基于庭审音频的关联度挖掘装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于庭审音频的关联度挖掘设备进行详细描述。

图6是本发明实施例提供的一种基于庭审音频的关联度挖掘设备的结构示意图，该基于庭审音频的关联度挖掘设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于庭审音频的关联度挖掘设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于庭审音频的关联度挖掘设备600上执行存储介质630中的一系列指令操作。

基于庭审音频的关联度挖掘设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于庭审音频的关联度挖掘设备结构并不构成对基于庭审音频的关联度挖掘设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于庭审音频的关联度挖掘设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于庭审音频的关联度挖掘方法的各个步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于庭审音频的关联度挖掘方法的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于庭审音频的关联度挖掘方法，其特征在于，所述基于庭审音频的关联度挖掘方法包括：

获取待审判案件的庭审音频数据，并基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果；

提取所述音频分离结果中各方审判人员的多个案件陈述特征，并基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；

确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果；

所述多维庭审文本标识包括文本维度的庭审文本标识和情感维度的庭审文本标识，所述基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识，包括：

基于各所述审判人员，对所述案件陈述特征进行对应审判文本类型的分类和文本标记，得到文本维度的庭审文本标识；

利用预设情感特征模型，分别识别各方审判人员在不同庭审时刻中案件陈述特征对应的情感极性，并对情感识别的结果进行情感标记，得到情感维度的庭审文本标识；

所述确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，包括：

计算出所述文本维度的庭审文本标识和所述情感维度的庭审文本标识中案件陈述特征对应词语的频次，并基于频次计算的结果，构建各方审判人员对应的词频次矩阵；

利用预设主题生成模型对所述词频次矩阵进行庭审陈述主题的匹配，得到各方审判人员在不同庭审时刻对应的至少一个陈述主题；

所述基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果，包括：

基于所述陈述主题和所述待审判案件的辅助审判信息，检测各所述审判人员在不同庭审时刻的辩护真实性，得到真实性检测结果；

基于所述真实性检测结果，分别计算出各所述庭审文本标识的标识聚类距离；

基于所述标识聚类距离，构建出各方审判人员对应庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果。

2.根据权利要求1所述的基于庭审音频的关联度挖掘方法，其特征在于，所述基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果，包括：

对所述庭审音频数据进行音频预处理，得到预处理后的庭审音频数据，并基于所述待审判案件对应的多个庭审时刻，计算出所述预处理后的庭审音频数据的多个音频时频特征；

选取所述音频时频特征对应的分离指标值，并基于所述分离指标值和所述待审判案件中各方审判人员，分离所述庭审音频数据在各庭审时刻时至少一路声源音频信号；

对各所述声源音频信号进行音频文本转换和文本清洗，得到音频分离结果。

3.根据权利要求1所述的基于庭审音频的关联度挖掘方法，其特征在于，所述提取所述音频分离结果中各方审判人员的多个案件陈述特征，包括：

基于所述待审判案件的案件类型，提取所述音频分离结果中多个陈述关键词；

基于各方审判人员，计算出各所述陈述关键词之间的语义关联度，并基于所述语义关联度，对各所述陈述关键词进行陈述上下文的特征标记，得到多个案件陈述特征。

4.根据权利要求1所述的基于庭审音频的关联度挖掘方法，其特征在于，在所述基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果之后，还包括：

基于所述陈述关联度，提取各方审判人员在不同庭审时刻中的多个关键庭审特征；

基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应审判人员的辅助审判结果。

5.一种基于庭审音频的关联度挖掘装置，其特征在于，所述基于庭审音频的关联度挖掘装置包括：

音频分离模块，用于获取待审判案件的庭审音频数据，并基于所述待审判案件中各方审判人员，对所述庭审音频数据进行音源清洗和音频分离，得到音频分离结果；

类型分析模块，用于提取所述音频分离结果中各方审判人员的多个案件陈述特征，并基于所述案件陈述特征，对各方审判人员进行多维庭审文本类型的分析，得到多维庭审文本标识；

关联度挖掘模块，用于确定所述庭审文本标识中各方审判人员对应的至少一个陈述主题，并基于所述陈述主题，构建各所述庭审文本标识之间的陈述关联度，生成庭审音频的关联度挖掘结果；

6.一种基于庭审音频的关联度挖掘设备，其特征在于，所述基于庭审音频的关联度挖掘设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于庭审音频的关联度挖掘设备执行如权利要求1-4中任一项所述的基于庭审音频的关联度挖掘方法的各个步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-4中任一项所述基于庭审音频的关联度挖掘方法的各个步骤。