CN105845133A - 语音信号处理方法及装置 - Google Patents

语音信号处理方法及装置 Download PDF

Info

Publication number
CN105845133A
CN105845133A CN201610195611.5A CN201610195611A CN105845133A CN 105845133 A CN105845133 A CN 105845133A CN 201610195611 A CN201610195611 A CN 201610195611A CN 105845133 A CN105845133 A CN 105845133A
Authority
CN
China
Prior art keywords
language model
identified
bit string
voice signal
displaying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610195611.5A
Other languages
English (en)
Inventor
王彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
LeTV Holding Beijing Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
LeTV Holding Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd, LeTV Holding Beijing Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201610195611.5A priority Critical patent/CN105845133A/zh
Publication of CN105845133A publication Critical patent/CN105845133A/zh
Priority to PCT/CN2016/096828 priority patent/WO2017166631A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括:获取待识别语音信号对应的信息串;根据信息串,确定待识别语音信号对应的场景化语言模型;判断场景化语言模型中是否存在对应于信息串的词序列;若判断结果为是,增大场景化语言模型中对应于信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型;根据增强后的场景化语言模型,对待识别语音信号进行语音识别。采用本发明实施例进行语音识别,可以提高语音信号识别的准确率。

Description

语音信号处理方法及装置
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音信号处理方法及装置。
背景技术
语音识别技术近年来发展迅速,使用户能够通过语音与智能设备进行交互。语音识别技术是通过识别和解析过程把语音信号转变为相应文本或命令的技术。其中,对语音信号的识别和解析过程离不开语言模型(LanguageModel,LM),语言模型的目的是建立一个能够描述给定词序列在语言中出现的概率的分布。
在语音识别领域中,大多使用通用语言模型,通用语言模型主要包括通用词序列以及通用词序列在语言中出现的概率,用于对通用领域中的语音信号进行识别。但是,随着时代的发展、应用场景的增多以及用户语言习惯的不断变化等,现有通用语言模型显然无法满足这些应用需求,这会降低语音识别的准确率。
发明内容
本发明实施例提供一种语音信号处理方法及装置,用以进行语音识别,提高语音信号识别的准确率。
本发明实施例提供一种语音信号处理方法,包括:
获取待识别语音信号对应的信息串;
根据所述信息串,确定所述待识别语音信号对应的场景化语言模型;
判断所述场景化语言模型中是否存在对应于所述信息串的词序列;
若判断结果为是,增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型;
根据所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
本发明实施例提供一种语音信号处理装置,包括:
获取模块,用于获取待识别语音信号对应的信息串;
确定模块,用于根据所述信息串,确定所述待识别语音信号对应的场景化语言模型;
判断模块,用于判断所述场景化语言模型中是否存在对应于所述信息串的词序列;
增强模块,用于若判断结果为是,增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型;
识别模块,用于根据所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
本发明实施例提供的语音信号处理方法及装置,根据待识别语音信号对应的信息串,确定待识别语音信号对应的场景化语言模型,并在该场景化语言模型中存在信息串对应的词序列时,增大该词序列在语言中出现的概率,以获得增强后的场景化语言模型,基于增强后的场景化语言模型对待识别语音信号进行语音识别。与现有技术中基于通用语言模型的语音识别方案相比,本发明实施例基于增强后的场景化语言模型,可以提高语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的语音信号处理方法的流程示意图;
图2为本发明另一实施例提供的语音信号处理方法的流程示意图;
图3为本发明又一实施例提供的语音信号处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在语音识别领域中,大多使用通用语言模型,通用语言模型主要包括通用词序列以及通用词序列在语言中出现的概率,用于对通用领域中的语音信号进行识别。但是,随着时代的发展、应用场景的增多以及用户语言习惯的不断变化等,现有通用语言模型显然无法满足这些应用需求,这会降低语音识别的准确率。
针对现有技术存在的问题,本发明提供一种解决方案,主要原理是:确定待识别语音信号对应的场景化语言模型,并增大该场景化语言模型中相应词序列在语言中出现的概率,以获得增强后的场景化语言模型,基于增强后的场景化语言模型对待识别语音信号进行语音识别。与通用语言模型相比,场景化语言模型包含更多与应用场景相关的词序列(也可称为特定词序列),且预先增大了场景化语言模型中与待识别语音信号相关的词序列在语言中出现的概率,所以基于增强后的场景化语言模型对待识别语音信号进行语音识别,能够提高语音识别的准确率。
下面通过具体实施例对本发明技术方案进行详细说明。
图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示,该方法包括:
101、获取待识别语音信号对应的信息串。
102、根据信息串,确定待识别语音信号对应的场景化语言模型。
103、判断场景化语言模型中是否存在对应于信息串的词序列;若判断结果为是,则执行步骤104,若判断结果为否,可选的,结束此次操作或者根据场景化语言模型对待识别语音型号进行语音识别。
104、增大场景化语言模型中对应于信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型。
105、根据增强后的场景化语言模型,对待识别语音信号进行语音识别。
本实施例提供一种语音信号处理方法,可由语音信号处理装置来执行,用以提高语音信号识别的准确率。
具体的,在对待识别语音信号进行识别之前,语音信号处理装置首先获取待识别语音信号对应的信息串。该信息串是指能够在一定程度上反映待识别语音信号的信息串,例如可以是待识别语音信号对应的拼音串,或者是对待识别语音信号进行初始语音识别获得的初始文本串。然后,语音信号处理装置根据该信息串,确定待识别语音信号对应的场景化语言模型,以便于基于该场景化语言模型对待识别语音信号进行语音识别。
可选的,上述根据该信息串,确定待识别语音信号对应的场景化语言模型的实施方式包括:
对待识别语音信号对应的信息串进行语义解析,确定该信息串中的语法句式和实体词;根据该语法句式和实体词,确定待识别语音信号表达的用户意图;根据该用户意图,确定待识别语音信号对应的场景化语言模型。例如,待识别语音信号对应的信息串为“我要给小李打电话”,经过语义解析,可以确定该信息串中的语法句式为“我要给…打电话”,而实体词为“小李”,根据该语句句式和实体词,可以确定用户意图是要给某人打电话,根据该用户意图,可以确定待识别语音信号对应的场景化语言模型为电话场景语言模型,而不是搜索场景语言模型。
在确定待识别语音信号对应的场景化语言模型之后,并不是直接基于该场景化语言模型对待识别语音信号进行语音识别,而是对该场景化语言模型中的相应词序列在语言中出现的概率进行增大,以提高语音识别准确率。由于信息串一定程度上反映着待识别语音信号,所以相比于其它词序列,待识别语音信号被识别为所述对应于信息串的词序列的可能更大,基于此,可以将对应于信息串的词序列作为待识别语音信号对应的场景化语言模型中需要增大概率的相应词序列。当然,在增大对应于信息串的词序列在语言中出现的概率之前,先要判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列;如果判断结果为是,即该场景化语言模型中存在对应于信息串的词序列,则增大该场景化语言模型中对应于信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型,然后基于增强后的场景化语言模型,对待识别语音信号进行语音识别。
在一可选实施方式中,待识别语音信号对应的场景化语言模型包括语法文件和场景词典。语法文件存储该场景化语言模型对应的应用场景中各种语法句式,即一些固定表达方式,例如“请给…打电话”,“请播放歌曲…”,“请搜索歌曲…的歌词”等。场景词典存储该场景化语言模型对应的应用场景中常用的实体词,例如在电话应用场景下实体词可以是通讯录中联系人的姓名,或者在语音控制播放音乐的应用场景中实体词可以是音乐库中的歌曲名等。
基于上述,判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列的实施方式包括:
对待识别语音信号对应的信息串进行语义解析,确定信息串中的语法句式和实体词;判断信息串中的固定句式是否包含在该场景化语言模型的语法文件中,并判断信息串中的实体词是否包含在该场景化语言模型的场景词典中;若判断结果均为是,则确定该场景化语言模型中存在对应于信息串的词序列,且由信息串中的固定句式和实体词组合成的词序列即为对应于信息串的词序列。
值得说明的是,在确定待识别信号对应的场景化语言模型的过程与在判断该场景化语言模型中是否存在对应于信息串的词序列的过程中,均包括对信息串进行语义解析,确定信息串中的语法句式和实体词的操作,在具体实现是,该操作可以仅执行一次,也可以在两个过程中分别执行一次。
由于上述可见,本实施例中待识别语音信号对应的场景化语言模型包括了与应用场景相关的词序列,同时该场景化语言模型中可能作为待识别语音信号的识别结果的词序列在语言中出现的概率又被增大了,所以基于增强后的场景化语言模型对待识别语音信号进行识别,能够提高语音识别的准确率。
在一可选实施方式中,可以先采用通用语言模型对待识别语音信号进行语音识别,当采用通用语言模型无法识别待识别语音信号对应的词序列时,再采用本发明实施例提供的方法,对待识别语音信号进行语音识别。该实施方式的流程如图2所示,包括以下步骤:
200、采用通用语言模型对待识别语音信号进行语音识别;
201、判断采用通用语言模型是否识别出待识别语音信号对应的词序列;若判断结果为是,则结束操作;若判断结果为否,则执行步骤202。
202、获取待识别语音信号对应的信息串。
203、根据该信息串,确定待识别语音信号对应的场景化语言模型;
204、判断场景化语言模型中是否存在对应于信息串的词序列;若判断结果为是,则执行步骤205,若判断结果为否,可选的,则执行步骤207。
205、增大场景化语言模型中对应于信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型。
206、根据增强后的场景化语言模型,对待识别语音信号进行语音识别,并结束此次操作。
207、结束此次操作或者根据场景化语言模型对待识别语音型号进行语音识别,并结束此次操作。
其中,通用语言模型又可以称为大语言模型,而场景化语言模型又可以称为小语言模型。
在一可选实施方式中,在上述步骤105或步骤206中,可以单独基于增强后的场景化语言模型,对待识别语音信号进行语音识别。
在另一可选实施方式中,在上述步骤105或步骤206中,可以结合通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别。
值得说明的是,本发明实施例中采用通用语言模型或增强后的场景化语言模型,对待识别语音信号进行语音识别的过程,与现有技术中基于通用语言模型对语音信号进行语音识别的过程类似,在此不再详细说明。
另外,上述结合通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别的一种实施方式包括:
可以将增强后的场景化语言模型叠加到通用语言模型中,生成一个复合语言模型(实际上是一个更大的语言模型),然后基于该复合语言模型对待识别语音信号进行语音识别。
上述结合通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别的另一种实施方式包括:
先使用通用语言模型对待识别语音信号进行语音识别,获得待识别语音信号对应的候选词序列以及在通用语言模型中候选词序列在语言中出现的第一概率,从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率,将候选词序列的第一概率和第二概率进行加权处理,根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。
上述结合通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别的另一种实施方式包括:
使用通用语言模型对待识别语音信号进行语音识别,获取待识别语音信号对应的第一候选词序列及第一候选词序列在语言中出现的概率;使用增强后的场景化语言模型对待识别语音信号进行语音识别,获取待识别语音信号对应的第二候选词序列及第二候选词序列在语言中出现的概率;根据第一候选词序列在语言中出现的概率和第二候选词序列在语言中出现的概率,从第一候选词序列和第二候选词序列中获取待识别语音信号最终对应的词序列。其中,对于第一候选词序列和第二候选词序列中的相同候选词序列,可以将其对应的两个概率进行加权求和,作为其最终概率。
在上述实施方式中,除了增强场景化语言模型有利于提高语音识别准确率之外,还结合通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别,可以充分利用通用语言模型包含较多通用词序列,而增强后的场景化语言模型中包含较多与应用场景相关的词序列的特点,提高语音识别的准确率。
图3为本发明又一实施例提供的语音信号处理装置的结构示意图。如图3所示,该装置包括:获取模块31、确定模块32、判断模块33、增强模块34和识别模块35。
获取模块31,用于获取待识别语音信号对应的信息串。
确定模块32,用于根据待识别语音信号对应的信息串,确定待识别语音信号对应的场景化语言模型。
判断模块33,用于判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列。
增强模块34,用于若判断结果为是,增大待识别语音信号对应的场景化语言模型中对应于信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型。
识别模块35,用于根据增强后的场景化语言模型,对待识别语音信号进行语音识别。
在一可选实施方式中,确定模块32具体用于:
对待识别语音信号对应的信息串进行语义解析,确定该信息串中的语法句式和实体词;
根据语法句式和实体词,确定待识别语音信号表达的用户意图;
根据用户意图,确定待识别语音信号对应的场景化语言模型。
在一可选实施方式中,待识别语音信号对应的场景化语言模型包括语法文件和场景词典。基于此,判断模块33具体用于:
对待识别语音信号对应的信息串进行语义解析,确定该信息串中的语法句式和实体词
判断固定句式是否包含在语法文件中,并判断实体词是否包含在场景词典中;
若判断结果均为是,则确定场景化语言模型中存在对应于信息串的词序列,且由固定句式和实体词组合成的词序列为对应于信息串的词序列。
在一可选实施方式中,获取模块31具体用于:
当采用通用语言模型无法识别待识别语音信号对应的词序列时,获取待识别语音信号对应的信息串。
在一可选实施方式中,识别模块35具体用于:
根据通用语言模型和增强后的场景化语言模型,对待识别语音信号进行语音识别。
进一步,识别模块35具体用于:先使用通用语言模型对待识别语音信号进行语音识别,获得待识别语音信号对应的候选词序列以及在通用语言模型中候选词序列在语言中出现的第一概率,从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率,将候选词序列的第一概率和第二概率进行加权处理,根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。
进一步,识别模块35具体用于:先使用通用语言模型对待识别语音信号进行语音识别,获得待识别语音信号对应的候选词序列(通常为多组)以及在通用语言模型中候选词序列在语言中出现的第一概率,从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率,将候选词序列的第一概率和第二概率进行加权处理,根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。
进一步,识别模块35具体用于:使用通用语言模型对待识别语音信号进行语音识别,获取待识别语音信号对应的第一候选词序列及第一候选词序列在语言中出现的概率;使用增强后的场景化语言模型对待识别语音信号进行语音识别,获取待识别语音信号对应的第二候选词序列及第二候选词序列在语言中出现的概率;根据第一候选词序列在语言中出现的概率和第二候选词序列在语言中出现的概率,从第一候选词序列和第二候选词序列中获取待识别语音信号最终对应的词序列。其中,对于第一候选词序列和第二候选词序列中的相同候选词序列,可以将其对应的两个概率进行加权求和,作为其最终概率。
本实施例提供的语音信号处理装置,根据待识别语音信号对应的信息串,确定待识别语音信号对应的场景化语言模型,并在该场景化语言模型中存在信息串对应的词序列时,增大该词序列在语言中出现的概率,以获得增强后的场景化语言模型,基于增强后的场景化语言模型对待识别语音信号进行语音识别,而不是像现有技术那样基于通用语言模型进行语音识别,可以提高语音识别的准确率。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音信号处理方法,其特征在于,包括:
获取待识别语音信号对应的信息串;
根据所述信息串,确定所述待识别语音信号对应的场景化语言模型;
判断所述场景化语言模型中是否存在对应于所述信息串的词序列;
若判断结果为是,增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型;
根据所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述信息串,确定所述待识别语音信号对应的场景化语言模型,包括:
对所述信息串进行语义解析,确定所述信息串中的语法句式和实体词;
根据所述语法句式和实体词,确定所述待识别语音信号表达的用户意图;
根据所述用户意图,确定所述待识别语音信号对应的场景化语言模型。
3.根据权利要求1所述的方法,其特征在于,所述场景化语言模型包括语法文件和场景词典;
所述判断所述场景化语言模型中是否存在对应于所述信息串的词序列,包括:
对所述信息串进行语义解析,确定所述信息串中的语法句式和实体词
判断所述固定句式是否包含在所述语法文件中,并判断所述实体词是否包含在所述场景词典中;
若判断结果均为是,则确定所述场景化语言模型中存在对应于所述信息串的词序列,且由所述固定句式和所述实体词组合成的词序列为对应于所述信息串的词序列。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待识别语音信号对应的信息串,包括:
当采用通用语言模型无法识别所述待识别语音信号对应的词序列时,获取所述待识别语音信号对应的信息串。
5.根据权利要求4所述的方法,其特征在于,所述根据所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别,包括:
根据所述通用语言模型和所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
6.一种语音信号处理装置,其特征在于,包括:
获取模块,用于获取待识别语音信号对应的信息串;
确定模块,用于根据所述信息串,确定所述待识别语音信号对应的场景化语言模型;
判断模块,用于判断所述场景化语言模型中是否存在对应于所述信息串的词序列;
增强模块,用于若判断结果为是,增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率,以获得增强后的场景化语言模型;
识别模块,用于根据所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
7.根据权利要求6所述的装置,其特征在于,所述确定模块具体用于:
对所述信息串进行语义解析,确定所述信息串中的语法句式和实体词;
根据所述语法句式和实体词,确定所述待识别语音信号表达的用户意图;
根据所述用户意图,确定所述待识别语音信号对应的场景化语言模型。
8.根据权利要求6所述的装置,其特征在于,所述场景化语言模型包括语法文件和场景词典;
所述判断模块具体用于:
对所述信息串进行语义解析,确定所述信息串中的语法句式和实体词
判断所述固定句式是否包含在所述语法文件中,并判断所述实体词是否包含在所述场景词典中;
若判断结果均为是,则确定所述场景化语言模型中存在对应于所述信息串的词序列,且由所述固定句式和所述实体词组合成的词序列为对应于所述信息串的词序列。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述获取模块具体用于:
当采用通用语言模型无法识别所述待识别语音信号对应的词序列时,获取所述待识别语音信号对应的信息串。
10.根据权利要求9所述的装置,其特征在于,所述识别模块具体用于:
根据所述通用语言模型和所述增强后的场景化语言模型,对所述待识别语音信号进行语音识别。
CN201610195611.5A 2016-03-30 2016-03-30 语音信号处理方法及装置 Pending CN105845133A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610195611.5A CN105845133A (zh) 2016-03-30 2016-03-30 语音信号处理方法及装置
PCT/CN2016/096828 WO2017166631A1 (zh) 2016-03-30 2016-08-26 语音信号处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610195611.5A CN105845133A (zh) 2016-03-30 2016-03-30 语音信号处理方法及装置

Publications (1)

Publication Number Publication Date
CN105845133A true CN105845133A (zh) 2016-08-10

Family

ID=56596271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610195611.5A Pending CN105845133A (zh) 2016-03-30 2016-03-30 语音信号处理方法及装置

Country Status (2)

Country Link
CN (1) CN105845133A (zh)
WO (1) WO2017166631A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328148A (zh) * 2016-08-19 2017-01-11 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和系统
WO2017166631A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音信号处理方法、装置和电子设备
CN108241678A (zh) * 2016-12-26 2018-07-03 北京搜狗信息服务有限公司 兴趣点数据的挖掘方法和装置
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN112509573A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种语音识别的方法、装置
CN112669845A (zh) * 2020-12-25 2021-04-16 竹间智能科技(上海)有限公司 语音识别结果的校正方法及装置、电子设备、存储介质
WO2023070803A1 (zh) * 2021-10-29 2023-05-04 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992937B (zh) * 2019-12-06 2022-06-28 广州国音智能科技有限公司 语言离线识别方法、终端及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083496A1 (ja) * 2006-01-23 2007-07-26 Nec Corporation 音声認識用言語モデル作成用のシステム、方法およびプログラムならびに音声認識システム
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
JP5276610B2 (ja) * 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
CN105869629A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 语音识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
JP5800718B2 (ja) * 2012-01-12 2015-10-28 日本電信電話株式会社 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム
CN105845133A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083496A1 (ja) * 2006-01-23 2007-07-26 Nec Corporation 音声認識用言語モデル作成用のシステム、方法およびプログラムならびに音声認識システム
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
JP5276610B2 (ja) * 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
CN105869629A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 语音识别方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166631A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音信号处理方法、装置和电子设备
CN106328148A (zh) * 2016-08-19 2017-01-11 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和系统
CN108241678A (zh) * 2016-12-26 2018-07-03 北京搜狗信息服务有限公司 兴趣点数据的挖掘方法和装置
CN108241678B (zh) * 2016-12-26 2021-10-15 北京搜狗信息服务有限公司 兴趣点数据的挖掘方法和装置
CN110070859A (zh) * 2018-01-23 2019-07-30 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN110070859B (zh) * 2018-01-23 2023-07-14 阿里巴巴集团控股有限公司 一种语音识别方法及装置
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN112509573A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种语音识别的方法、装置
CN112669845A (zh) * 2020-12-25 2021-04-16 竹间智能科技(上海)有限公司 语音识别结果的校正方法及装置、电子设备、存储介质
CN112669845B (zh) * 2020-12-25 2024-04-12 竹间智能科技(上海)有限公司 语音识别结果的校正方法及装置、电子设备、存储介质
WO2023070803A1 (zh) * 2021-10-29 2023-05-04 科大讯飞股份有限公司 语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2017166631A1 (zh) 2017-10-05

Similar Documents

Publication Publication Date Title
CN105845133A (zh) 语音信号处理方法及装置
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10176804B2 (en) Analyzing textual data
Żelasko et al. Punctuation prediction model for conversational speech
CN106683677B (zh) 语音识别方法及装置
CN107016994B (zh) 语音识别的方法及装置
CN108510976A (zh) 一种多语言混合语音识别方法
Khare et al. Low Resource ASR: The Surprising Effectiveness of High Resource Transliteration.
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN106935239A (zh) 一种发音词典的构建方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
KR20210016767A (ko) 음성 인식 방법 및 음성 인식 장치
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
Do et al. Hierarchical pronunciation assessment with multi-aspect attention
Li et al. Hierarchical Phone Recognition with Compositional Phonetics.
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US20220277149A1 (en) Statistical language models for simulating communication sessions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160810

WD01 Invention patent application deemed withdrawn after publication