CN112951238A

CN112951238A - 一种基于语音处理的科技法庭智能管理方法、系统及存储介质

Info

Publication number: CN112951238A
Application number: CN202110298078.6A
Authority: CN
Inventors: 董晓秀; 陈志辉; 宋广亮; 李宗峰
Original assignee: Henan Fengyun Technology Development Co ltd
Current assignee: Henan Fengyun Technology Development Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-11

Abstract

本发明公开了一种基于语音处理的科技法庭智能管理方法、系统及存储介质，具体步骤有：首先需要设置将被应用到语音识别的翻译模块，其次，根据输入语音信息判断是否存在特定讲话者，并据此从特定讲话者用翻译模块和未知讲话者用翻译模块中进行翻译模块的调用选择，再次，根据输入语音信息是否被包含在非特定讲话者用翻译模块中，再次选择调用将要被应用到语音识别的翻译模块，最后，调用被选定的要应用于语音识别的翻译模块，将输入语音转换成文本，并对文本内容进行错误检查和修正。本发明可以在特定讲话者和非特定讲话者同时存在，且不限制讲话顺序的应用场景下，将他们的语音信息区分开来，并精确地把语音转换成文本，适用于法庭的应用场景。

Description

一种基于语音处理的科技法庭智能管理方法、系统及存储介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种基于语音处理的科技法庭智能管理系统。

背景技术

当前的语音识别系统的实现方式大致可以分为两类，一类是适用于特定讲话者的识别方式，另一类则是适用于非特定讲话者的识别方式。适用于特定讲话者的识别方式指的是提前获取要进行语音识别的讲话者的语音数据，通过机器学习算法对语音数据进行训练，得到特定讲话者用翻译模块，通过特定讲话者用翻译模块可以准确地将语音转换成文本。适用于非特定讲话者的识别方式指的是将要进行语音识别的语音特征的平均值记录在非特定讲话者用翻译模块中，保证通过非特定讲话者用翻译模块，任何讲话者的语音都可以被成功识别。

适用于特定讲话者的识别方式较为繁琐，必须提前对讲话者的语音数据进行训练，否则无法进行语音识别。而适用于非特定讲话者的识别方式为了保证语音识别的精确度，会对非特定讲话者用翻译模块中单词的数量进行限制，因此该方式往往适用于特定的专业领域中。由于法庭的组成人员复杂，包括审判员、律师、原告、被告等，且发言顺序并不完全受到限制，多个讲话者的声音混合在一起，以上两种语音识别方式均不能同时将法庭现场人员的语音信息区分开来，并精确地识别为文本。

发明内容

本发明的主要目的是：提供一种基于语音处理的科技法庭智能管理方法、系统及存储介质，同时将法庭中不同讲话者的语音信息转换成文本数据，并保证语音转换的精确度。

本发明的目的通过以下技术方案来实现：

一种基于语音处理的科技法庭智能管理方法，包括如下步骤：

S1、设置需要被应用到语音识别的翻译模块；

S2、根据输入语音判断是否存在特定讲话者；

S3、根据上述S2的判断结果，选择调用需要被应用到语音识别的翻译模块；

S4、根据输入语音是否被包含在非特定讲话者用翻译模块中，再次选择调用需要被应用到语音识别的翻译模块；

S5、调用被选定的要应用于语音识别的翻译模块，将上述输入语音转换成文本；

S6、对经语音转换得到的文本进行错误检测，并对错误文本进行修正。

进一步，所述S1中，需要设定的将应用于语音识别的翻译模块包括：特定讲话者用翻译模块、在讲话者不能确定情况下的未知讲话者用翻译模块、应用在特定专业领域下的非特定讲话者用翻译模块、及对错误文本进行修正要用到的修正用翻译模块。

进一步，所述S2中，根据输入语音信息判断是否存在特定讲话者，具体包括如下步骤：

S21、从输入语音中提取语音特征信息；

S22、将语音特征信息与特定讲话者模型进行匹配计算，得到与不同特定讲话者模型的匹配度值；

S23、根据语音特征信息与不同特定讲话者模型的匹配度值确定是否存在特定讲话者。

进一步，所述S23中，根据语音特征信息与不同特定讲话者模型的匹配度值确定是否存在特定讲话者时，选定与所述语音特征最接近的特定讲话者。

进一步，所述S3中，根据上述S2的判断结果，选择需要被应用到语音识别的翻译模块，具体包括：当上述S2确定了特定讲话者，则选择相应的特定讲话者用翻译模块用来进行语音识别，当上述S2判断不存在特定讲话者，则选择未知讲话者用翻译模块用来进行语音识别。

进一步，所述S4中，根据输入语音是否被包含在非特定讲话者用翻译模块中，再次选择需要被应用到语音识别的翻译模块，具体包括：当输入语音被包含在非特定讲话者用翻译模块中，则重新选择非特定讲话者用翻译模块用来进行语音识别，当输入语音未被包含在非特定讲话者用翻译模块中，仍坚持上述S3中的翻译模块选择结果。

本发明还提供了一种基于语音处理的科技法庭智能管理系统，包括以下模块：

第一模块，用于从语音收集装置获取不同讲话者的语音信息，包括以下单元：

第一单元，用于将获取到的讲话者的语音信息转换成计算机可以处理的数据格式并对其进行编码；

第二单元，用于将编码后的语音信息进行存储；

第二模块，用于根据输入语音信息确定是否存在特定讲话者，包括以下单元：

第三单元，用于提前存储特定讲话者模型；

第四单元，用于从讲话者的语音信息中提取语音特征，并与提前记录的特定讲话者模型进行匹配来确定讲话者；

第三模块，根据语音识别模块的匹配结果选择将要应用到语音识别的翻译模块，包括以下单元：

第五单元，用于特定讲话者用翻译模块、未知讲话者用翻译模块的存储；

第六单元，用于非特定讲话者用翻译模块的存储；

第七单元，用于在特定讲话者用翻译模块、未知讲话者用翻译模块中进行翻译模块选择操作；

第八单元，用于在非特定讲话者用翻译模块中进行翻译模块选择操作；

第四模块，依照选定的翻译模块将输入语音信息转换成文本，包括以下单元：

第九单元，用于根据所述第三模块的翻译模块选择结果把输入语音转换成文本；

第十单元，用于对经语音转换得到的文本进行错误检测；

第十一单元，用于存储修正用翻译模块，并依照修正用翻译模块对错误文本进行修正操作；

第十二单元，用于存储经过语音转换、错误检测并修正后得到的文本信息。

本发明至少包括以下的有益效果：

1、本发明公开的一种基于语音处理的科技法庭智能管理方法及系统，同时将法庭场景下特定讲话者和非特定讲话者的语音信息自动识别成文本并存储，可以自动地对庭审过程进行记录，能够提高庭审的自动化程度，降低工作人员的工作量，提升法庭的工作效率。

2、本发明公开的一种基于语音处理的科技法庭智能管理方法及系统，在不能以百分之百的匹配度确定特定讲话者的情况下，采用与其语音特征最接近的特定讲话者用翻译模块，能够提高语音识别的精确度和速度。

3、本发明公开的一种基于语音处理的科技法庭智能管理方法及系统，当语音特征不能匹配到特定讲话者模型时，则选择未知讲话者用翻译模块，可以保证非特定讲话者的语音信息也可以被成功识别。

4、本发明公开的一种基于语音处理的科技法庭智能管理方法及系统，在可以确定讲话者的语音信息所属专业领域的情况下，优先选择非特定讲话者用翻译模块，通过非特定讲话者用翻译模块来识别该专业领域内的专业术语，能够提高语音识别的精确度和速度。

5、本发明公开的一种基于语音处理的科技法庭智能管理方法及系统，对经语音转换得到的文本信息进行错误检测并修正，能够提高语音识别的精确度。

附图说明

图1为本发明的一种基于语音处理的科技法庭智能管理方法的流程图。

图2为本发明S2中，根据输入语音信息判断是否存在特定讲话者的流程图。

具体实施方式

下面将结合本申请实施例中的附图1至附图2，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例1：

参考图1，本申请公开的一种基于语音处理的科技法庭智能管理方法，包括如下步骤：

S1、当开始本发明的方法的执行时，首先需要设置进行语音转换会用到的翻译模块，包括：特定讲话者用翻译模块、未知讲话者用翻译模块、非特定讲话者用翻译模块、及修正用翻译模块。

具体的，依照翻译模块可以实现讲话者的语音信息到文本信息的转换。其中，特定讲话者用翻译模块适用于对特定讲话者的语音信息进行转换，该翻译模块通过机器学习算法针对特定讲话者的语音信息进行训练得到。例如，在法庭的应用场景下，特定讲话者可以是审判员、审判长。非特定讲话者用翻译模块适用于对非特定讲话者的语音信息进行转换，且该语音信息包含有大量专业领域内的词汇，该翻译模块可以由语音识别翻译模块制作系统获取，也可以直接使用专业领域内开源的翻译模块，例如，在法庭的应用场景下，非特定讲话者用翻译模块更加适用于律师。未知讲话者用翻译模块适用于对非特定讲话者的语音信息进行转换，该翻译模块不局限在某个专业领域内，可以由语音识别翻译模块制作系统获取，也可以直接使用开源的翻译模块，例如，在法庭的应用场景下，未知讲话者用翻译模块更加适用于原告、被告。修正用翻译模块对经语音转换得到的文本信息进行修正，因此该翻译模块与特定讲话者用翻译模块、未知讲话者用翻译模块、非特定讲话者用翻译模块在内容上有所不同，可以由语音识别翻译模块制作系统获取，也可以直接使用开源的翻译模块。

S2、从语音收集装置获取不同讲话者的语音信息，将语音信息转换成计算机可以处理的数据格式，并对其进行编码，在此基础上进一步判断是否存在特定讲话者，参考图2，包括如下步骤：

S21、从输入语音中提取语音特征信息；

具体的，将从输入语音中提取的语音特征分别与系统中提前存储的不同的特定讲话者模型进行匹配计算得到匹配度值，例如匹配度值0代表语音特征与特定讲话者模型无法匹配，匹配度值100代表语音特征与特定讲话者模型完全匹配。当语音特征信息与不同的特定讲话者模型的匹配度值大于阈值时，则选定最大匹配度值相对应的特定讲话者，即系统后续将选择与该语音特征最接近的特定讲话者用翻译模块，由此，能够提高语音转换的精确度。例如匹配度阈值被设定是60，语音特征与特定讲话者模型A的匹配度值是70，语音特征与特定讲话者模型B的匹配度值是80，语音特征与特定讲话者模型C的匹配度值是95，则选定该语音特征对应的特定讲话者是C。当语音特征信息与不同的特定讲话者模型的匹配度值小于或等于阈值时，则认为不存在特定讲话者。例如匹配度阈值被设定是60，语音特征与特定讲话者模型A的匹配度值是40，语音特征与特定讲话者模型B的匹配度值是60，语音特征与特定讲话者模型C的匹配度值是55，则认为不存在特定讲话者。

S3、根据上述S2的判定结果，选择需要被应用到语音识别的翻译模块。

具体包括：当根据输入语音特征信息能够确定特定讲话者时，则选择相应的特定讲话者用翻译模块来进行语音识别。因为特定讲话者用翻译模块是通过机器学习算法针对特定讲话者的语音数据进行训练得到的，所以依照特定讲话者用翻译模块，可以精确地将特定讲话者的语音信息转换成文本。当根据输入语音特征信息无法确定特定讲话者时，则选择未知讲话者用翻译模块用来进行语音识别，避免了非特定讲话者的语音信息无法被识别的情况。S2保证了不论是特定讲话者还是非特定讲话者的语音信息均能够被成功地转换成文本。

S4、根据输入语音信息是否被包含在非特定讲话者用翻译模块中，再次选择需要被应用到语音识别的翻译模块。

具体包括：当输入语音信息被包含在非特定讲话者用翻译模块中，则重新选择非特定讲话者用翻译模块来进行语音识别，即优先选择使用非特定讲话者用翻译模块来进行语音识别，当输入语音未被包含在非特定讲话者用翻译模块中，仍坚持上述S3中的翻译模块选择结果。由于非特定讲话者用翻译模块属于特定的专业领域，丢弃了大量与专业领域无关的词汇，使用非特定讲话者用翻译模块能够提高语音转换的精确度。

S5、根据被选定的要应用于语音识别的翻译模块，将上述输入语音转换成文本。

具体的，翻译模块中记录了讲话者的语音数据单元与文本数据单元的映射关系，根据该映射关系可以把语音数据转换成文本数据。

具体的，对经语音转换得到的文本信息进行句法分析，可以检测出其中有问题的文本，进而定位到被错误转换的语音信息，再依照修正用翻译模块对被错误转换的语音信息再次进行语音转换，提高了语音转换的精确度，最后得到修正后的文本信息并进行存储。

根据本发明，在法庭的应用场景下，从法庭上的声音收集装置中获取不同讲话者的语音信息，从语音信息中提取语音特征信息，并与特定讲话者模型进行匹配计算，由于，例如审判员、审判长的特定讲话者模型已经被提前存储在系统中，因此系统将会选择与其相对应的特定讲话者用翻译模块来进行语音识别。由于，例如原告、被告的非特定讲话者模型未被提前存储在系统中，系统将会选择未知讲话者用翻译模块来进行语音识别。此外，例如律师作为非特定讲话者的语音信息中包含了大量的专业术语，系统将会选择相对应的非特定讲话者用翻译模块来进行语音识别。最后，系统还对经语音转换得到的文本信息进行错误检测，及依照修正用翻译模块对转换有问题的语音信息进行再次转换。综上所述，本发明可以同时将法庭中特定讲话者和非特定讲话者的语音信息转换成文本数据保存，并保证语音转换的精确度。

第二单元，用于将编码后的语音信息进行存储；

第三单元，用于提前存储特定讲话者模型；

第六单元，用于非特定讲话者用翻译模块的存储；

第十单元，用于对经语音转换得到的文本进行错误检测；

上述系统可执行的指令通过存储介质进行存储，该指令用于系统包括的处理器执行时用实现基于语音处理的科技法庭智能管理办法。

实施例2：

如实施例1所述的本发明提供的一种基于语音处理的科技法庭智能管理方法，当能够确定需要进行语音识别的语音信息所属的专业领域时，将会优先选择该专业领域内的非特定讲话者用翻译模块进行语音转换操作。而当需要进行语音识别的语音信息不属于特定专业领域且该语音信息来自于特定讲话者时，则选择相应的特定讲话者用翻译模块进行语音转换操作。而当需要进行语音识别的语音信息不属于特定专业领域且该语音信息不来自于特定讲话者时，则选择未知讲话者用翻译模块进行语音转换操作。

非特定讲话者用翻译模块丢弃了大量与专业领域无关的单词，由此可以一定程度地保证语音转换的速度和精确度，此外，非特定讲话者用翻译模块的语音转换不针对特定讲话者，模块中单词范围相对于特定讲话者用翻译模块更全面，因此可以更好地保证语音转换的成功率。特定讲话者用翻译模块是针对特定讲话者的讲话模型通过训练得到的，因此使用特定讲话者用翻译模块进行语音转换可以保证较高的精确度和转换速度，但特定讲话者用翻译模块中单词范围比非特定讲话者用翻译模块小。未知讲话者用翻译模块与非特定讲话者用翻译模块、特定讲话者用翻译模块相比，模块中单词范围更加全面，因此进行语音转换的成功率更高。

发明人在实践中发现，本发明提出的方法在执行时可能会出现以下情况：1.非特定讲话者用翻译模块失效，即通过调用非特定讲话者用翻译模块无法将语音信息转换成文本；2.特定讲话者用翻译模块失效，即通过调用特定讲话者用翻译模块无法将语音信息转换成文本；3.未知讲话者用翻译模块失效，即通过调用未知讲话者用翻译模块无法将语音信息转换成文本。

具体的，本实施例给出如下解决方案：当通过调用非特定讲话者用翻译模块无法将语音信息转换成文本时，则选择调用未知讲话者用翻译模块进行语音的转换；当通过调用特定讲话者用翻译模块无法将语音信息转换成文本时，则选择调用未知讲话者用翻译模块进行语音的转换；添加未知讲话者用翻译模块备用模块，当通过调用未知讲话者用翻译模块无法将语音信息转换成文本时，则选择调用未知讲话者用翻译模块备用模块进行语音的转换。由此可以保证在非特定讲话者用翻译模块、特定讲话者用翻译模块失效的情况下，通过调用未知讲话者用翻译模块仍能将语音信息转换成文本，且当未知讲话者用翻译模块失效时，通过调用未知讲话者用翻译模块备用模块可以继续执行语音转换，提高语音转换的成功率。请着重关注，实施例2的技术方案包括了实施例1的全部技术方案，其中，未知讲话者用翻译模块具备两方面的作用：一方面在不存在特定讲话者且要被识别的语音信息不属于特定专业领域的情况下被调用来进行语音转换，另一方面在非特定讲话者用翻译模块、特定讲话者用翻译模块失效的情况下被调用来继续进行语音转换操作。

实施例3：

如实施例1所述的本发明提供的一种基于语音处理的科技法庭智能管理方法在将输入语音信息通过翻译模块转换成文本信息后，还对该文本信息进行错误检查及修正，具体包括：对经语音转换得到的文本信息进行句法分析来找出其中有错误的文本部分，进而定位到错误文本信息所对应的语音信息，最后通过调用修正用翻译模块对该部分语音信息进行再次转换。由于修正用翻译模块与非特定讲话者用翻译模块、特定讲话者用翻译模块、未知讲话者用翻译模块在内容上有所不同，因此可以达到对经语音转换得到的文本进行错误修正的效果。

作为对上述技术方案的进一步优化，为了提升对经语音转换得到的文本进行错误修正的准确度，又提出以下优化的方法：在对经语音转换得到的文本信息进行句法分析来找出其中有错误的文本部分，进而定位到错误文本信息所对应的语音信息之后，同时使用未知讲话者用翻译模块和修正用翻译模块对该部分语音信息进行再次转换，并比较未知讲话者用翻译模块和修正用翻译模块的转换结果，若未知讲话者用翻译模块的转换结果与修正用翻译模块的转换结果相同且与经第一次语音转换得到的结果不同，则认为修正成功；若未知讲话者用翻译模块的转换结果与经第一次语音转换得到的结果相同，而修正用翻译模块的转换结果与经第一次语音转换得到的结果不同，则认为修正成功。通过使用未知讲话者用翻译模块的转换结果对修正用翻译模块的转换结果进行验证，以此达到提高对经语音转换得到的文本信息进行错误修正的准确度的效果。请着重关注，实施例3的技术方案包括了实施例1的全部技术方案，其中，未知讲话者用翻译模块具备两方面的作用：一方面在不存在特定讲话者且要被识别的语音信息不属于特定专业领域的情况下被调用来进行语音转换，另一方面在对经语音转换得到的文本信息进行错误修正的情况下被调用来对修正用翻译模块的转换结果进行验证。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上实施例的具体描述，为对本发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音处理的科技法庭智能管理方法，其特征在于，包括如下步骤：

S1、设置需要被应用到语音识别的翻译模块；

S2、根据输入语音判断是否存在特定讲话者；

S5、根据被选定的要应用于语音识别的翻译模块，将上述输入语音转换成文本；

2.根据权利要求1所述的一种基于语音处理的科技法庭智能管理方法，其特征在于，S1中需要设定的将应用于语音识别的翻译模块包括：特定讲话者用翻译模块、在讲话者不能确定情况下的未知讲话者用翻译模块、应用在特定专业领域下的非特定讲话者用翻译模块、及对错误文本进行修正要用到的修正用翻译模块。

3.根据权利要求1所述的一种基于语音处理的科技法庭智能管理方法，其特征在于，S2中，根据输入语音信息判断是否存在特定讲话者，具体包括如下步骤：

S21、从输入语音中提取语音特征信息；

4.根据权利要求3所述的依照输入语音信息判断是否存在特定讲话者的步骤S23，选定与所述语音特征最接近的特定讲话者。

5.根据权利要求1所述的一种基于语音处理的科技法庭智能管理方法，其特征在于，S3中，根据上述S2的判断结果，选择调用需要被应用到语音识别的翻译模块，具体包括：当上述S2确定了特定讲话者，则选择相对应的特定讲话者用翻译模块用来进行语音识别，当上述S2判断不存在特定讲话者，则选择未知讲话者用翻译模块用来进行语音识别。

6.根据权利要求1所述的一种基于语音处理的科技法庭智能管理方法，其特征在于，S4中，根据输入语音是否被包含在非特定讲话者用翻译模块中，再次选择需要被应用到语音识别的翻译模块，具体包括：当输入语音被包含在非特定讲话者用翻译模块中，则重新选择非特定讲话者用翻译模块用来进行语音识别，当输入语音未被包含在非特定讲话者用翻译模块中，仍坚持上述S3的翻译模块选择结果。

7.一种基于语音处理的科技法庭智能管理系统，用于实现如权利要求1所述的方法，其特征在于，包括以下模块：

第二单元，用于将编码后的语音信息进行存储；

第三单元，用于提前存储特定讲话者模型；

第四单元，用于从讲话者的语音信息中提取语音特征，并与提前记录的特定讲话者模型进行匹配计算来确定讲话者；

第六单元，用于非特定讲话者用翻译模块的存储；

第十单元，用于对经语音转换得到的文本进行错误检测；

8.一种存储介质，其中存储有权利要求7所述的系统可执行的指令，其特征在于，所述指令在由权利要求7所述的系统包括的处理器执行时用于实现如权利要求1-6任一项所述的一种基于语音处理的科技法庭智能管理方法。