CN109559752A - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN109559752A
CN109559752A CN201710895573.9A CN201710895573A CN109559752A CN 109559752 A CN109559752 A CN 109559752A CN 201710895573 A CN201710895573 A CN 201710895573A CN 109559752 A CN109559752 A CN 109559752A
Authority
CN
China
Prior art keywords
word
voice signal
sound
mapping relations
court
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710895573.9A
Other languages
English (en)
Other versions
CN109559752B (zh
Inventor
石鹏
梁文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710895573.9A priority Critical patent/CN109559752B/zh
Publication of CN109559752A publication Critical patent/CN109559752A/zh
Application granted granted Critical
Publication of CN109559752B publication Critical patent/CN109559752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音识别方法和装置。该方法包括:在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系;返回文本信息。通过本申请,解决了相关技术中识别庭审语音的准确率较低的问题。

Description

语音识别方法和装置
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种语音识别方法和装置。
背景技术
在法院庭审中,都需要配备一名书记员将法官及当事人等各角色的发言信息记录下来,在庭审结束后整理成一份庭审笔录,经当事人签字确认后存档。现在的科技法庭一般都配有语音识别系统,可以自动将庭审中各角色的发言信息自动转化为文字,待庭审结束后,书记员可直接从语音识别系统中导出庭审笔录,打印供当事人签字即可,极大的减轻了书记员的记录负担,让书记员将更多的精力集中在处理案件本身上。然而,在自动将庭审中各角色的发言信息自动转化为文字的过程中,由于地方口音存在差异,特别涉及到一些司法行业的专业词汇,语音识别容易识别出错,例如将“开发”读为“开花”,语音识别结果就为“开花”,语音识别准确率较低。由于对庭审语音的识别准确率较低,这样会导致书记员在语音识别的过程中,还需要消耗额外的时间去校正这些容易识别出错的词,降低了工作效率。
针对相关技术中识别庭审语音的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种语音识别方法和装置,以解决相关技术中识别庭审语音的准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种语音识别方法。该方法包括:在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,所述声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;以及返回所述文本信息。
进一步地,基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:对所述声音信号进行解析,得到多个单词;确定所述多个单词中的待确认词语;基于词库映射关系获取所述多个单词中的待确认词语对应的目标词语;通过所述多个单词中的非待确认词语和所述多个单词中的待确认词语对应的目标词语生成所述文本信息。
进一步地,对所述声音信号进行解析,得到多个单词包括:将所述声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
进一步地,确定每个语音帧组对应的目标状态,得到多个目标状态包括:计算每个所述语音帧组在多个状态上对应的概率;获取所述语音帧组满足预定条件的概率对应的状态;将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态,得到多个目标状态。
进一步地,在基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息之前,所述方法还包括:确定庭审所属的区域;加载与所述庭审所属的区域对应的词库映射关系;基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:基于所述庭审所属的区域对应的词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息。
进一步地,在加载与所述庭审所属的区域对应的词库映射关系之后,所述方法还包括:确定目标商标对应的待确认词语和所述目标商标对应的目标词语;将所述目标商标对应的待确认词语和所述目标商标对应的目标词语对应的映射关系添加至所述庭审所属的区域对应的词库映射关系中,以更新所述庭审所属的区域对应的词库映射关系;基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:基于更新后的所述庭审所属的区域对应的词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息。
进一步地,在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,所述方法还包括:配置所述声卡上每个声道与每个庭审对象角色之间的对应关系;按照所述对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
为了实现上述目的,根据本申请的另一方面,提供了一种语音识别装置。该装置包括:采集单元,用于在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,所述声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;解析单元,用于基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;以及返回单元,用于返回所述文本信息。
进一步地,所述解析单元包括:第一解析模块,用于对所述声音信号进行解析,得到多个单词;确定模块,用于确定所述多个单词中的待确认词语;获取模块,用于基于词库映射关系获取所述多个单词中的待确认词语对应的目标词语;生成模块,用于通过所述多个单词中的非待确认词语和所述多个单词中的待确认词语对应的目标词语生成所述文本信息。
进一步地,所述第一解析模块包括:划分子模块,用于将所述声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定子模块,用于确定每个语音帧组对应的目标状态,得到多个目标状态;查找子模块,用于对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;生成子模块,用于基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
进一步地,所述确定子模块包括:计算子模块,用于计算每个所述语音帧组在多个状态上对应的概率;第一获取子模块,用于获取所述语音帧组满足预定条件的概率对应的状态;第二获取子模块,用于将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态,得到多个目标状态。
进一步地,所述装置还包括:第一确定单元,用于在基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息之前,确定庭审所属的区域,加载单元,用于加载与庭审所属的区域对应的词库映射关系;解析单元包括:第二解析模块,用于基于庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
进一步地,所述装置还包括:第二确定单元,用于在加载与庭审所属的区域对应的词库映射关系之后,确定目标商标对应的待确认词语和所述目标商标对应的目标词语;添加单元,用于将所述目标商标对应的待确认词语和所述目标商标对应的目标词语对应的映射关系添加至所述庭审所属的区域对应的词库映射关系中,以更新所述庭审所属的区域对应的词库映射关系;所述第二解析模块包括:解析子模块,用于基于更新后的所述庭审所属的区域对应的词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息。
进一步地,所述装置还包括:配置单元,用于在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,配置所述声卡上每个声道与每个庭审对象角色之间的对应关系;连接单元,用于按照所述对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的语音识别方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的语音识别方法。
通过本申请,采用以下步骤:在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系;以及返回文本信息,解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,进而达到提升识别庭审语音的准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的语音识别方法的流程图;
图2是根据本申请实施例中的法庭现场各角色位置分布的示意图;
图3是根据本申请实施例提供的语音识别方法中的声卡的示意图;
图4是根据本申请实施例提供的语音识别方法中声音信号的示意图;
图5是根据本申请实施例提供的语音识别方法中文字音素状态关系的示意图;
图6是根据本申请实施例提供的语音识别方法中分帧操作的示意图;
图7是根据本申请实施例提供的语音识别方法中语音帧对应状态的示意图;以及
图8是根据本申请实施例提供的语音识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
声卡也叫音频卡(港台称之为声效卡):声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。声卡由各种电子器件和连接器组成。电子器件用来完成各种特定的功能。连接器一般有插座和圆形插孔两种,用来连接输入输出信号。
音素,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。用国际音标标注语音的方法称作标音法,有宽式和严式两种。宽式标音法以能辨义的音位标音,严式标音法则以严格的音素区别来标音,尽量表现各音素间的区别,宽式标音法采用的符号有限,而严式标音法所采用的符号极多,但两者各有用途。音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”,“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
根据本申请的实施例,提供了一种语音识别方法。
图1是根据本申请实施例的语音识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音。
在本申请中,在庭审过程中,法庭现场各角色的大致位置如图2所示。法庭有多声道声卡,声卡连接至书记员电脑上,声卡上每个声道对应一个话筒(对应上述的声音采集器),将声道与庭审角色关系对应,并按照此对应方式将各角色的话筒连接至声卡,如图3所示。在进行庭审时,通过多声道的声卡采集多个使用话筒的角色的声音,得到声音信号,采集到的声音信号为一段波形数据,例如,如图4所示。
可选地,为了保证能够通过多声道的声卡采集到声音信号,在本申请实施例提供的语音识别方法中,在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象角色之间的对应关系;按照对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
或者,通过配置每个庭审对象角色与每个声音采集器之间的对应关系;然后按照对应关系,将每个声音采集器与每个庭审对象角色对应的声道进行连接。
需要说明的是,通过本申请实施例的语音识别方法可以应用在庭审软件中,也即,庭审软件中嵌入了本申请实施例的语音识别方法。在开始庭审之前,安装该庭审软件,并在软件中设置角色声道的对应关系。
步骤S102,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系。
需要说明的是上述的词库映射关系中包括:待确认词语、待确认词语对应的目标词语和待确认词语与待确认词语对应的目标词语之间的映射关系,
对步骤S101中在庭审过程中采集到的声音信号进行解析,得到声音信号对应的文本信息,可以在声卡端实现,也可以将声音信号发送至语音解析服务器,在语音解析服务器端将声音信号进行解析,返回解析出的文本信息。
可选地,在本申请实施例提供的语音识别方法中,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:对声音信号进行解析,得到多个单词;确定多个单词中的待确认词语;基于词库映射关系获取多个单词中的待确认词语对应的目标词语;通过多个单词中的非待确认词语和多个单词中的待确认词语对应的目标词语生成文本信息。
例如,对声音信号进行解析,得到多个单词,其中,多个单词中包括:开花、陷井等等。将开花、陷井等确定为待确认词语,基于词库映射关系获取开花、陷井等词语对应的目标词语,例如,开花对应的目标词语为开发,陷井对应的目标词语为陷阱。通过多个单词中的非待确认词语和多个单词中的待确认词语对应的目标词语生成文本信息,需要说明的是上述的非待确认词语为所述多个单词中除去待确认词语后剩余的词语。
可选地,在本申请实施例提供的语音识别方法中,在基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息之前,该方法还包括:确定庭审所属的区域,加载与所述庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
由于各个区域可能存在不同的口音,因此,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息之前,需要先配置各个区域的词库映射关系。各区域的词库映射关系可以针对各个区域容易出错的词语进行训练,训练出各个区域对应的词库映射关系,例如,庭审所属的区域为四川,由于四川人对hf难以区分,开发经常读成开花,因此,可以基于庭审所属的区域确定待确认词语和待确认词语对应的目标词语,得到庭审所属的区域对应的词库映射关系。还可以通过人工经验总结并不断完善该区域的词库映射关系。通过加载与庭审所属区域对应的词库映射关系,从而保证了后续对该区域的庭审语音进行解析时,提升识别庭审语音的准确率。
此处的加载可以是每次庭审前都通过存储各区域词库映射关系的数据库将庭审所属区域的词库映射关系装载到本地,庭审结束后自动释放,也可以是将所有区域的词库映射关系都预先装载到本地,每次庭审时根据庭审所属区域选择一个或几个词库映射关系。本发明对此不做限定。
可选地,在本申请实施例提供的语音识别方法中,在加载与庭审所属的区域对应的词库映射关系之后,该方法还包括:确定目标商标对应的待确认词语和目标商标对应的目标词语;将目标商标对应的待确认词语和目标商标对应的目标词语对应的映射关系添加至庭审所属的区域对应的词库映射关系中,以更新庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于更新后的庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
由于某些商标是英文字母,例如,可口可乐的商标为coca-cola,若庭审过程中出现该类语音信号,在解析时容易出现乱码,导致解析出的文本准确率较低,在本申请中,通过上述方案,确定目标商标对应的待确认词语(解析出的词语),以及目标商标对应的目标词语,将目标商标对应的待确认词语和目标商标对应的目标词语对应的映射关系添加至庭审所属的区域对应的词库映射关系中,以更新庭审所属的区域对应的词库映射关系,从而保证了后续对该区域的庭审语音进行解析时,提升识别庭审语音的准确率。
在对声音信号解析之前,解析服务器需要经过大量语料训练,预先存储大量的音素信息,音素即文字的发音信息,如汉语一般直接用全部声母和韵母作为音素集,而每个音素一般分为多个状态,在本申请中提及的状态是音素的组成部分。如图5所示。
可选地,在本申请实施例提供的语音识别方法中,对声音信号进行解析,得到多个单词包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
在本申请实施例提供的语音识别方法中的预定条件可以为若干语音帧在某一状态上概率满足概率阈值的条件。在将声音信号解析为对应的文本信息过程中,将声音信号中的语音帧在多个状态上进行匹配,该匹配可以采用遍历的方式进行匹配,例如,将3个连续语音帧与多个状态逐一进行匹配,如果概率都未满足概率阈值,再将4个连续语音帧与多个状态逐一进行匹配,直到多个语音帧在某一状态上概率满足概率阈值为止,将多个语音帧作为一个语音帧组。该状态即为该语音帧组对应的目标状态。状态作为音素的组成部分,例如对连续的3个目标状态查找对应的音素,将查找到的多个音素组成单词,通过多个单词生成文本信息。
对声音信号的波形进行分帧操作,如图6所示,例如,图6中每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。称为以帧长25ms、帧移10ms进行分帧。如图7所示,每个小竖条代表一帧,若干帧语音对应一个状态,(相当于将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组),每三个(第一预定数量)状态组合成一个音素,若干个(第二预定数量)音素组合成一个单词。通过多个单词生成文本信息。
可选地,在本申请实施例提供的语音识别方法中,确定每个语音帧组对应的目标状态,得到多个目标状态包括:计算每个语音帧组在多个状态上对应的概率;获取语音帧组满足预定条件的概率对应的状态;将满足预定条件的概率对应的状态作为语音帧组对应的目标状态,得到多个目标状态。
语音识别过程是在状态网络中搜索一条最佳路径,即语音帧在目标状态上的概率最大。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。在本申请中可以采用路径搜索的方式获取语音帧在多条状态上的概率最大的状态,作为该语音帧组对应的目标状态。在得到语音帧组对应的目标状态后,经过预设算法,最终找到匹配的音素,反算出对应的文字信息,从而完成语音识别解析出文字信息的过程。
步骤S103,返回文本信息。
本申请实施例提供的语音识别方法,通过在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系;以及返回文本信息,解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,进而达到提升识别庭审语音的准确率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种语音识别装置,需要说明的是,本申请实施例的语音识别装置可以用于执行本申请实施例所提供的用于语音识别方法。以下对本申请实施例提供的语音识别装置进行介绍。
图8是根据本申请实施例的语音识别装置的示意图。如图8所示,该装置包括:采集单元10、解析单元20、返回单元30。
具体地,采集单元10在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音。
解析单元20基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系。
返回单元30返回文本信息。
本申请实施例提供的语音识别装置,通过采集单元10在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;解析单元20基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,词库映射关系用于表示待确认词语与待确认词语对应的目标词语之间的映射关系;以及返回单元30返回文本信息,解决了相关技术中识别庭审语音的准确率较低的问题。通过在对庭审过程中采集的声音信号进行解析过程中,基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,进而达到提升识别庭审语音的准确率的效果。
可选地,在本申请实施例提供的语音识别装置中,解析单元20包括:第一解析模块,用于对声音信号进行解析,得到多个单词;确定模块,用于确定多个单词中的待确认词语;获取模块,用于基于词库映射关系获取多个单词中的待确认词语对应的目标词语;生成模块,用于通过多个单词中的非待确认词语和多个单词中的待确认词语对应的目标词语生成文本信息。可选地,在本申请实施例提供的语音识别装置中,第一解析模块包括:划分子模块,用于将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定子模块,用于确定每个语音帧组对应的目标状态,得到多个目标状态;查找子模块,用于对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;生成子模块,用于基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
可选地,在本申请实施例提供的语音识别装置中,确定子模块包括:计算子模块,用于计算每个语音帧组在多个状态上对应的概率;第一获取子模块,用于获取语音帧组满足预定条件的概率对应的状态;第二获取子模块,用于将满足预定条件的概率对应的状态作为语音帧组对应的目标状态,得到多个目标状态。
可选地,在本申请实施例提供的语音识别装置中,该装置还包括:第一确定单元,用于在基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息之前,确定庭审所属的区域,加载单元,用于加载与庭审所属的区域对应的词库映射关系;解析单元包括:第二解析模块,用于基于庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
可选地,在本申请实施例提供的语音识别装置中,该装置还包括:第二确定单元,用于在加载与庭审所属的区域对应的词库映射关系之后,确定目标商标对应的待确认词语和目标商标对应的目标词语;添加单元,用于将目标商标对应的待确认词语和目标商标对应的目标词语对应的映射关系添加至庭审所属的区域对应的词库映射关系中,以更新庭审所属的区域对应的词库映射关系;第二解析模块包括:解析子模块,用于基于更新后的庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
可选地,在本申请实施例提供的语音识别装置中,该装置还包括:配置单元,用于在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,配置声卡上每个声道与每个庭审对象角色之间的对应关系;连接单元,用于按照对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
所述语音识别装置包括处理器和存储器,上述采集单元10、解析单元20、返回单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别庭审语音。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现语音识别方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行语音识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;以及返回文本信息。
基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:对声音信号进行解析,得到多个单词;确定多个单词中的待确认词语;基于词库映射关系获取多个单词中的待确认词语对应的目标词语;通过多个单词中的非待确认词语和多个单词中的待确认词语对应的目标词语生成文本信息。
对声音信号进行解析,得到多个单词包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
确定每个语音帧组对应的目标状态,得到多个目标状态包括:计算每个语音帧组在多个状态上对应的概率;获取语音帧组满足预定条件的概率对应的状态;将满足预定条件的概率对应的状态作为语音帧组对应的目标状态,得到多个目标状态。
在基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息之前,该方法还包括:确定庭审所属的区域,加载与庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
在加载与庭审所属的区域对应的词库映射关系之后,该方法还包括:确定目标商标对应的待确认词语和目标商标对应的目标词语;将目标商标对应的待确认词语和目标商标对应的目标词语对应的映射关系添加至庭审所属的区域对应的词库映射关系中,以更新庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于更新后的庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象角色之间的对应关系;按照对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;以及返回文本信息。
基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:对声音信号进行解析,得到多个单词;确定多个单词中的待确认词语;基于词库映射关系获取多个单词中的待确认词语对应的目标词语;通过多个单词中的非待确认词语和多个单词中的待确认词语对应的目标词语生成文本信息。
对声音信号进行解析,得到多个单词包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
确定每个语音帧组对应的目标状态,得到多个目标状态包括:计算每个语音帧组在多个状态上对应的概率;获取语音帧组满足预定条件的概率对应的状态;将满足预定条件的概率对应的状态作为语音帧组对应的目标状态,得到多个目标状态。
在基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息之前,该方法还包括:确定庭审所属的区域,加载与庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
在加载与庭审所属的区域对应的词库映射关系之后,该方法还包括:确定目标商标对应的待确认词语和目标商标对应的目标词语;将目标商标对应的待确认词语和目标商标对应的目标词语对应的映射关系添加至庭审所属的区域对应的词库映射关系中,以更新庭审所属的区域对应的词库映射关系;基于词库映射关系对声音信号进行解析,得到声音信号对应的文本信息包括:基于更新后的庭审所属的区域对应的词库映射关系对声音信号进行解析,得到声音信号对应的文本信息。
在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象角色之间的对应关系;按照对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,所述声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;
基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;
返回所述文本信息。
2.根据权利要求1所述的方法,其特征在于,基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:
对所述声音信号进行解析,得到多个单词;
确定所述多个单词中的待确认词语;
基于词库映射关系获取所述多个单词中的待确认词语对应的目标词语;
通过所述多个单词中的非待确认词语和所述多个单词中的待确认词语对应的目标词语生成所述文本信息。
3.根据权利要求2所述的方法,其特征在于,对所述声音信号进行解析,得到多个单词包括:
将所述声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;
确定每个语音帧组对应的目标状态,得到多个目标状态;
对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;
基于连续的第二预定数量的音素生成对应的单词,得到多个单词。
4.根据权利要求3所述的方法,其特征在于,确定每个语音帧组对应的目标状态,得到多个目标状态包括:
计算每个所述语音帧组在多个状态上对应的概率;
获取所述语音帧组满足预定条件的概率对应的状态;
将满足预定条件的概率对应的状态作为所述语音帧组对应的目标状态,得到多个目标状态。
5.根据权利要求1所述的方法,其特征在于,在基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息之前,所述方法还包括:
确定庭审所属的区域;
加载与所述庭审所属的区域对应的词库映射关系;
基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:基于所述庭审所属的区域对应的词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息。
6.根据权利要求5所述的方法,其特征在于,在加载与所述庭审所属的区域对应的词库映射关系之后,所述方法还包括:
确定目标商标对应的待确认词语和所述目标商标对应的目标词语;
将所述目标商标对应的待确认词语和所述目标商标对应的目标词语对应的映射关系添加至所述庭审所属的区域对应的词库映射关系中,以更新所述庭审所属的区域对应的词库映射关系;
基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息包括:基于更新后的所述庭审所属的区域对应的词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息。
7.根据权利要求1所述的方法,其特征在于,在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号之前,所述方法还包括:
配置所述声卡上每个声道与每个庭审对象角色之间的对应关系;
按照所述对应关系,将每个庭审对象角色对应的声音采集器与每个声道进行连接。
8.一种语音识别装置,其特征在于,包括:
采集单元,用于在庭审过程中,通过多声道的声卡进行声音采集,得到声音信号,其中,所述声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;
解析单元,用于基于词库映射关系对所述声音信号进行解析,得到所述声音信号对应的文本信息,其中,所述词库映射关系用于表示待确认词语与所述待确认词语对应的目标词语之间的映射关系;以及
返回单元,用于返回所述文本信息。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的语音识别方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的语音识别方法。
CN201710895573.9A 2017-09-27 2017-09-27 语音识别方法和装置 Active CN109559752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710895573.9A CN109559752B (zh) 2017-09-27 2017-09-27 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710895573.9A CN109559752B (zh) 2017-09-27 2017-09-27 语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN109559752A true CN109559752A (zh) 2019-04-02
CN109559752B CN109559752B (zh) 2022-04-26

Family

ID=65863503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710895573.9A Active CN109559752B (zh) 2017-09-27 2017-09-27 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN109559752B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111883132A (zh) * 2019-11-11 2020-11-03 马上消费金融股份有限公司 一种语音识别方法、设备、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867512A (zh) * 2011-07-04 2013-01-09 余喆 自然语音识别方法和装置
CN102956231A (zh) * 2011-08-23 2013-03-06 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
US20160189713A1 (en) * 2014-12-30 2016-06-30 Hon Hai Precision Industry Co., Ltd. Apparatus and method for automatically creating and recording minutes of meeting
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
CN107038220A (zh) * 2017-03-20 2017-08-11 北京光年无限科技有限公司 用于生成备忘录的方法、智能机器人及系统
CN107169067A (zh) * 2017-05-05 2017-09-15 上海明数数字出版科技有限公司 一种利用语音查询汉字的字典检索方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
CN102867512A (zh) * 2011-07-04 2013-01-09 余喆 自然语音识别方法和装置
CN102956231A (zh) * 2011-08-23 2013-03-06 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
US20160189713A1 (en) * 2014-12-30 2016-06-30 Hon Hai Precision Industry Co., Ltd. Apparatus and method for automatically creating and recording minutes of meeting
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
CN107038220A (zh) * 2017-03-20 2017-08-11 北京光年无限科技有限公司 用于生成备忘录的方法、智能机器人及系统
CN107169067A (zh) * 2017-05-05 2017-09-15 上海明数数字出版科技有限公司 一种利用语音查询汉字的字典检索方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883132A (zh) * 2019-11-11 2020-11-03 马上消费金融股份有限公司 一种语音识别方法、设备、系统及存储介质
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109559752B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
Kürzinger et al. Ctc-segmentation of large corpora for german end-to-end speech recognition
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
US5949961A (en) Word syllabification in speech synthesis system
CN1169115C (zh) 语音合成系统及方法
CN102176310B (zh) 具有巨大词汇量的语音识别系统
CN100533431C (zh) 一种基于语素标注的自然语言成分识别、校正装置及方法
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN110600002B (zh) 语音合成方法、装置及电子设备
CN109313891A (zh) 用于语音合成的系统和方法
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
CN109326279A (zh) 一种文本转语音的方法、装置、电子设备和存储介质
Ghannay et al. Combining continuous word representation and prosodic features for asr error prediction
Cassidy et al. Tools for multimodal annotation
US20040172249A1 (en) Speech synthesis
CN109559752A (zh) 语音识别方法和装置
CN109213970B (zh) 笔录生成方法及装置
CN112530402B (zh) 一种语音合成方法、语音合成装置及智能设备
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
CN109213971A (zh) 庭审笔录的生成方法及装置
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN109559753A (zh) 语音识别方法和装置
CN109389969B (zh) 语料库优化方法及装置
CN109213466A (zh) 庭审信息的显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant