CN109559753B

CN109559753B - 语音识别方法和装置

Info

Publication number: CN109559753B
Application number: CN201710895619.7A
Authority: CN
Inventors: 石鹏; 梁文波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2022-04-12
Anticipated expiration: 2037-09-27
Also published as: CN109559753A

Abstract

本申请公开了一种语音识别方法和装置。该方法包括：在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回文本信息。通过本申请，解决了相关技术中识别庭审语音的准确率较低的问题。

Description

语音识别方法和装置

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音识别方法和装置。

背景技术

在法院庭审中，都需要配备一名书记员将法官及当事人等各角色的发言信息记录下来，在庭审结束后整理成一份庭审笔录，经当事人签字确认后存档。现在的科技法庭一般都配有语音识别系统，可以自动将庭审中各角色的发言信息自动转化为文字，待庭审结束后，书记员可直接从语音识别系统中导出庭审笔录，打印供当事人签字即可，极大的减轻了书记员的记录负担，让书记员将更多的精力集中在处理案件本身上。然而，在自动将庭审中各角色的发言信息自动转化为文字的过程中，由于涉及到一些司法行业的专业词汇，语音识别容易识别出错，如将“疑义”识别为“意义”等。由于对庭审语音的识别准确率较低，这样会导致书记员在语音识别的过程中，还需要消耗额外的时间去校正这些容易识别出错的词，降低了工作效率。

针对相关技术中识别庭审语音的准确率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种语音识别方法和装置，以解决相关技术中识别庭审语音的准确率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种语音识别方法。该方法包括：在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，所述声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息，其中，所述预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回所述文本信息。

进一步地，基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息包括：将所述声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；计算每个所述语音帧组在多个状态上对应的概率；获取所述语音帧组满足预定条件的概率对应的状态；将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态，得到多个目标状态；将所述多个目标状态与所述多个目标词语中每个目标词语对应的状态相匹配；对所述多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；基于添加权重值后的所述多个目标状态，得到所述声音信号对应的文本信息。

进一步地，基于添加对应的权重值后的所述多个目标状态，得到所述声音信号对应的文本信息包括：对添加权重值后的所述多个目标状态查找对应的音素，得到多个音素；基于连续的预定数量的音素生成对应的单词，得到多个单词；通过所述多个单词生成所述文本信息。

进一步地，在返回所述文本信息之后，所述方法还包括：检测是否接收到修改指令；若接收到所述修改指令，基于所述修改指令对所述文本信息中的词语进行修改；确定所述文本信息中修改后的词语；确定所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值；根据所述修改后的词语、所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值更新所述预设权重列表。

进一步地，在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，所述方法还包括：配置所述声卡上每个声道与每个庭审对象角色之间的对应关系；按照所述对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

为了实现上述目的，根据本申请的另一方面，提供了一种语音识别装置。该装置包括：采集单元，用于在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，所述声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；解析单元，用于基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息，其中，所述预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；以及返回单元，用于返回所述文本信息。

进一步地，所述解析单元包括：划分模块，用于将所述声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；计算模块，用于计算每个所述语音帧组在多个状态上对应的概率；第一获取模块，用于获取所述语音帧组满足预定条件的概率对应的状态；第二获取模块，用于将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态，得到多个目标状态；匹配模块，用于将所述多个目标状态与所述多个目标词语中每个目标词语对应的状态相匹配；添加模块，用于对所述多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；第三获取模块，用于基于添加权重值后的所述多个目标状态，得到所述声音信号对应的文本信息。

进一步地，所述第三获取模块包括：查找子模块，用于对添加权重值后的所述多个目标状态查找对应的音素，得到多个音素；第一生成子模块，用于基于连续的预定数量的音素生成对应的单词，得到多个单词；第二生成子模块，用于通过所述多个单词生成所述文本信息。

进一步地，所述装置还包括：检测单元，用于在返回所述文本信息之后，检测是否接收到修改指令；修改单元，用于若接收到所述修改指令，基于所述修改指令对所述文本信息中的词语进行修改；第一确定单元，用于确定所述文本信息中修改后的词语；第二确定单元，用于确定所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值；添加单元，用于根据所述修改后的词语、所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值更新所述预设权重列表。

进一步地，所述装置还包括：配置单元，用于在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，配置所述声卡上每个声道与每个庭审对象角色之间的对应关系；连接单元，用于按照所述对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

为了实现上述目的，根据本申请的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的语音识别方法。

为了实现上述目的，根据本申请的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的语音识别方法。

通过本申请，采用以下步骤：在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回文本信息，解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中，融入包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值，进而达到提升识别庭审语音的准确率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的语音识别方法的流程图；

图2是根据本申请实施例中的法庭现场各角色位置分布的示意图；

图3是根据本申请实施例提供的语音识别方法中的声卡的示意图；

图4是根据本申请实施例提供的语音识别方法中声音信号的示意图；

图5是根据本申请实施例提供的语音识别方法中文字音素状态关系的示意图；

图6是根据本申请实施例提供的语音识别方法中分帧操作的示意图；

图7是根据本申请实施例提供的语音识别方法中语音帧对应状态的示意图；以及

图8是根据本申请实施例提供的语音识别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

声卡也叫音频卡(港台称之为声效卡)：声卡是多媒体技术中最基本的组成部分，是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。声卡由各种电子器件和连接器组成。电子器件用来完成各种特定的功能。连接器一般有插座和圆形插孔两种，用来连接输入输出信号。

音素，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类。如汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。用国际音标标注语音的方法称作标音法，有宽式和严式两种。宽式标音法以能辨义的音位标音，严式标音法则以严格的音素区别来标音，尽量表现各音素间的区别，宽式标音法采用的符号有限，而严式标音法所采用的符号极多，但两者各有用途。音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”，“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

根据本申请的实施例，提供了一种语音识别方法。

图1是根据本申请实施例的语音识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音。

在本申请中，在庭审过程中，法庭现场各角色的大致位置如图2所示。法庭有多声道声卡，声卡连接至书记员电脑上，声卡上每个声道对应一个话筒(对应上述的声音采集器)，将声道与庭审角色关系对应，并按照此对应方式将各角色的话筒连接至声卡，如图3所示。在进行庭审时，通过多声道的声卡采集多个使用话筒的角色的声音，得到声音信号，采集到的声音信号为一段波形数据，例如，如图4所示。

可选地，为了保证能够通过多声道的声卡采集到声音信号，在本申请实施例提供的语音识别方法中，在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，该方法还包括：配置声卡上每个声道与每个庭审对象角色之间的对应关系；按照对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

或者，通过配置每个庭审对象角色与每个声音采集器之间的对应关系；然后按照对应关系，将每个声音采集器与每个庭审对象角色对应的声道进行连接。

需要说明的是，通过本申请实施例的语音识别方法可以应用在庭审软件中，也即，庭审软件中嵌入了本申请实施例的语音识别方法。在开始庭审之前，安装该庭审软件，并在软件中设置角色声道的对应关系。

步骤S102，基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值。

需要说明的是，本申请实施例中提及的多个目标词语可以为庭审专业词汇，例如，疑义、异议等等，可以通过对多篇庭审文本进行统计得出。本申请实施例中提及的庭审文本可以为庭审笔录，也可以为裁判文书等等文本。

对步骤S101中在庭审过程中采集到的声音信号进行解析，得到声音信号对应的文本信息，可以在声卡端实现，也可以将声音信号发送至语音解析服务器，在语音解析服务器端将声音信号进行解析，返回解析出的文本信息。

在对声音信号解析之前，解析服务器需要经过大量语料训练，预先存储大量的音素信息，音素即文字的发音信息，如汉语一般直接用全部声母和韵母作为音素集，而每个音素一般分为多个状态，在本申请中提及的状态是音素的组成部分。如图5所示。

可选地，为了提升解析声音信号对应的文本信息的准确性，在本申请实施例提供的语音识别方法中，基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息包括：将声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；计算每个语音帧组在多个状态上对应的概率；获取语音帧组满足预定条件的概率对应的状态；将满足预定条件的概率对应的状态作为语音帧组对应的目标状态，得到多个目标状态；将多个目标状态与多个目标词语中每个目标词语对应的状态相匹配；对多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；基于添加权重值后的多个目标状态，得到声音信号对应的文本信息。

按照预定条件对声音信号的波形进行分帧操作，如图6所示，例如，图6中每帧的长度为25毫秒，每两帧之间有25-10＝15毫秒的交叠。称为以帧长25ms、帧移10ms进行分帧。如图7所示，每个小竖条代表一帧，若干帧语音对应一个状态，(相当于将声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组)，计算每个语音帧组在多个状态上对应的概率；获取语音帧组满足预定条件的概率对应的状态；将满足预定条件的概率对应的状态作为语音帧组对应的目标状态，得到多个目标状态；为了提升识别庭审语音的准确率，在解析庭审语音(在庭审过程中采集到的声音信号)的过程中，通过对多篇庭审文本提取出的词语，确定每个目标词语对应的状态，将多个目标状态与多个目标词语中每个目标词语对应的状态相匹配；对多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；基于添加权重值后的多个目标状态，得到声音信号对应的文本信息。

通过上述方案，在语音识别算法阶段增加了权重，提升了识别对应文字的权重，使得庭审专业词汇的识别率明显提升，最终保证了基于庭审语音解析出的文本信息更加完整准确，大大降低了书记员校正庭审语音解析出的文本信息的工作量，保证了庭审语音解析出的文本信息的客观性与严肃性。

可选地，为了进一步地提升解析声音信号对应的文本信息的准确性，在本申请实施例提供的语音识别方法中，基于添加对应的权重值后的多个目标状态，得到声音信号对应的文本信息包括：对添加权重值后的多个目标状态查找对应的音素，得到多个音素；基于连续的预定数量的音素生成对应的单词，得到多个单词；通过多个单词生成文本信息。

例如对连续的3个目标状态查找对应的音素，将查找到的多个音素组成单词，通过多个单词生成文本信息。通过对添加权重值后的多个目标状态查找对应的音素，得到多个音素；基于连续的预定数量的音素生成对应的单词，得到多个单词；通过多个单词生成文本信息，进一步地提升解析声音信号对应的文本信息的准确性。

步骤S103，返回文本信息。

可选地，为了对预设权重列表进行及时更新，以保证识别庭审语音的准确率，在本申请实施例提供的语音识别方法中，在返回文本信息之后，该方法还包括：检测是否接收到修改指令；若接收到修改指令，基于修改指令对文本信息中的词语进行修改；确定文本信息中修改后的词语；确定修改后的词语对应的状态和修改后的词语对应的状态对应的权重值；根据修改后的词语、修改后的词语对应的状态和修改后的词语对应的状态对应的权重值更新预设权重列表。

需要说明的是，根据修改后的词语、修改后的词语对应的状态和修改后的词语对应的状态对应的权重值更新预设权重列表包括：判断修改后的词语在预设权重表中是否存在，若修改后的词语在预设权重表中不存在，将修改后的词语、修改后的词语对应的状态和修改后的词语对应的状态对应的权重值添加至预设权重列表中。若修改后的词语在预设权重表中存在，将该词语对应的状态对应的权重值按照预设步长增加权重直至达到最高权重值。

例如，在返回文本信息之后，接收到修改文本信息中词语的修改指令，对文本信息中的“当时人”中的“时”字修改为“事”，确定“事”对应的状态和“事”对应的状态对应的权重值；例如，“事”对应的状态为S1，S2，S3，确定S1对应的权重值为0.25，S2对应的权重值为0.25，S3对应的权重值为0.25，若“事”在预设权重列表不中存在，将“事”对应的状态和“事”对应的状态对应的权重值添加至预设权重列表中，以更新预设权重列表。若“事”在预设权重列表中存在，“事”对应的状态对应的权重值按照预设步长增加权重，以便在后续对声音信号进行解析，提升识别文本的准确性，从而保证了识别庭审语音的准确率。

通过上述步骤，对庭审语音进行解析之前，由于提前导入了庭审专业词汇(目标词语)以及提升这些词汇所对应的状态的权重，从而最终识别庭审语音对应的文本准确率大大提高。

本申请实施例提供的语音识别方法，通过在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回文本信息，解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中，融入包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值，进而达到提升识别庭审语音的准确率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种语音识别装置，需要说明的是，本申请实施例的语音识别装置可以用于执行本申请实施例所提供的用于语音识别方法。以下对本申请实施例提供的语音识别装置进行介绍。

图8是根据本申请实施例的语音识别装置的示意图。如图8所示，该装置包括：采集单元10、解析单元20和返回单元30。

具体地，采集单元10，用于在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音。

解析单元20，用于基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值。

返回单元30，用于返回文本信息。

本申请实施例提供的语音识别装置，通过采集单元10在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；解析单元20基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；以及返回单元30返回文本信息，解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中，融入包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值，进而达到提升识别庭审语音的准确率的效果。

可选地，在本申请实施例提供的语音识别装置中，解析单元20包括：划分模块，用于将声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；计算模块，用于计算每个语音帧组在多个状态上对应的概率；第一获取模块，用于获取语音帧组满足预定条件的概率对应的状态；第二获取模块，用于将满足预定条件的概率对应的状态作为语音帧组对应的目标状态，得到多个目标状态；匹配模块，用于将多个目标状态与多个目标词语中每个目标词语对应的状态相匹配；添加模块，用于对多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；第三获取模块，用于基于添加权重值后的多个目标状态，得到声音信号对应的文本信息。

可选地，在本申请实施例提供的语音识别装置中，第三获取模块包括：查找子模块，用于对添加权重值后的多个目标状态查找对应的音素，得到多个音素；第一生成子模块，用于基于连续的预定数量的音素生成对应的单词，得到多个单词；第二生成子模块，用于通过多个单词生成文本信息。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：检测单元，用于在返回文本信息之后，检测是否接收到修改指令；修改单元，用于若接收到修改指令，基于修改指令对文本信息中的词语进行修改；第一确定单元，用于确定文本信息中修改后的词语；第二确定单元，用于确定修改后的词语对应的状态和修改后的词语对应的状态对应的权重值；添加单元，用于根据所述修改后的词语、所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值更新所述预设权重列表。

可选地，在本申请实施例提供的语音识别装置中，该装置还包括：配置单元，用于在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，配置声卡上每个声道与每个庭审对象角色之间的对应关系；连接单元，用于按照对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

语音识别装置包括处理器和存储器，上述采集单元10、解析单元20和返回单元30等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来识别庭审语音。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现语音识别方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行语音识别方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回文本信息。

预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值，基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息包括：将声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；计算每个语音帧组在多个状态上对应的概率；获取语音帧组满足预定条件的概率对应的状态；将满足预定条件的概率对应的状态作为语音帧组对应的目标状态，得到多个目标状态；将多个目标状态与多个目标词语中每个目标词语对应的状态相匹配；对多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；基于添加权重值后的多个目标状态，得到声音信号对应的文本信息。

基于添加对应的权重值后的多个目标状态，得到声音信号对应的文本信息包括：对添加权重值后的多个目标状态查找对应的音素，得到多个音素；基于连续的预定数量的音素生成对应的单词，得到多个单词；通过多个单词生成文本信息。

在返回文本信息之后，该方法还包括：检测是否接收到修改指令；若接收到修改指令，基于修改指令对文本信息中的词语进行修改；确定文本信息中修改后的词语；确定修改后的词语对应的状态和修改后的词语对应的状态对应的权重值；根据修改后的词语、修改后的词语对应的状态和修改后的词语对应的状态对应的权重值更新预设权重列表。

在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，该方法还包括：配置声卡上每个声道与每个庭审对象角色之间的对应关系；按照对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；基于预设权重列表对声音信号进行解析，得到声音信号对应的文本信息，其中，预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；返回文本信息。

在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，该方法还包括：配置声卡上每个声道与每个庭审对象角色之间的对应关系；按照对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，所述声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；

基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息，其中，所述预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；以及

返回所述文本信息；

其中，基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息包括：

将所述声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；

计算每个所述语音帧组在多个状态上对应的概率；

获取所述语音帧组满足预定条件的概率对应的状态；

将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态，得到多个目标状态；

将所述多个目标状态与所述多个目标词语中每个目标词语对应的状态相匹配；

对所述多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；

基于添加权重值后的所述多个目标状态，得到所述声音信号对应的文本信息。

2.根据权利要求1所述的方法，其特征在于，基于添加对应的权重值后的所述多个目标状态，得到所述声音信号对应的文本信息包括：

对添加权重值后的所述多个目标状态查找对应的音素，得到多个音素；

基于连续的预定数量的音素生成对应的单词，得到多个单词；

通过所述多个单词生成所述文本信息。

3.根据权利要求1所述的方法，其特征在于，在返回所述文本信息之后，所述方法还包括：

检测是否接收到修改指令；

若接收到所述修改指令，基于所述修改指令对所述文本信息中的词语进行修改；

确定所述文本信息中修改后的词语；

确定所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值；

根据所述修改后的词语、所述修改后的词语对应的状态和所述修改后的词语对应的状态对应的权重值更新所述预设权重列表。

4.根据权利要求1所述的方法，其特征在于，在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号之前，所述方法还包括：

配置所述声卡上每个声道与每个庭审对象角色之间的对应关系；

按照所述对应关系，将每个庭审对象角色对应的声音采集器与每个声道进行连接。

5.一种语音识别装置，其特征在于，包括：

采集单元，用于在庭审过程中，通过多声道的声卡进行声音采集，得到声音信号，其中，所述声卡上的每个声道对应一个声音采集器，每个声音采集器用于采集使用对象的声音；

解析单元，用于基于预设权重列表对所述声音信号进行解析，得到所述声音信号对应的文本信息，其中，所述预设权重列表中包括多个目标词语、每个目标词语对应的状态和每个目标词语对应的状态对应的权重值；以及

返回单元，用于返回所述文本信息；

其中，所述解析单元包括：

划分模块，用于将所述声音信号中的语音帧按照预定条件进行划分，得到多个语音帧组；

计算模块，用于计算每个所述语音帧组在多个状态上对应的概率；

第一获取模块，用于获取所述语音帧组满足预定条件的概率对应的状态；

第二获取模块，用于将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态，得到多个目标状态；

匹配模块，用于将所述多个目标状态与所述多个目标词语中每个目标词语对应的状态相匹配；

添加模块，用于对所述多个目标状态中与目标词语对应的状态匹配成功的状态添加与该目标词语对应的状态对应的权重值；

第三获取模块，用于基于添加权重值后的所述多个目标状态，得到所述声音信号对应的文本信息。

6.根据权利要求5所述的装置，其特征在于，所述第三获取模块包括：

查找子模块，用于对添加权重值后的所述多个目标状态查找对应的音素，得到多个音素；

第一生成子模块，用于基于连续的预定数量的音素生成对应的单词，得到多个单词；

第二生成子模块，用于通过所述多个单词生成所述文本信息。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至4中任意一项所述的语音识别方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的语音识别方法。