CN110675863A - 语音语料生成方法及装置、语音识别方法及装置 - Google Patents

语音语料生成方法及装置、语音识别方法及装置 Download PDF

Info

Publication number
CN110675863A
CN110675863A CN201810715623.5A CN201810715623A CN110675863A CN 110675863 A CN110675863 A CN 110675863A CN 201810715623 A CN201810715623 A CN 201810715623A CN 110675863 A CN110675863 A CN 110675863A
Authority
CN
China
Prior art keywords
word segmentation
speech
corpus
segmentation result
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810715623.5A
Other languages
English (en)
Inventor
左新成
刘焱
黄雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201810715623.5A priority Critical patent/CN110675863A/zh
Publication of CN110675863A publication Critical patent/CN110675863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语音语料生成方法及装置、语音识别方法及装置。所述语音语料生成方法包括:根据目标业务建立标签分类;基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;根据所述目标语料生成与所述标签分类对应的业务语料库。本发明大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率。

Description

语音语料生成方法及装置、语音识别方法及装置
技术领域
本发明实施例涉及语音信息处理技术领域,尤其涉及一种语音语料生成方法、一种语音识别方法、一种服务器、一种计算机可读存储介质、一种语音语料生成装置以及一种语音识别装置。
背景技术
语音识别是将语音转成文本的过程,近年来,随着语音识别技术的成熟,该技术已逐渐成功应用于各行各业中,尤其是针对特定领域的语音识别技术,如针对会议的录音数据进行语音识别,将接收的语音数据直接转换为会议的文本内容,大大方便了会议秘书整理会议纪要。
目前的技术中,一般直接采用通用的声学模型及通用语言模型对待识别语音数据进行语音识别,针对特定应用场景的语音数据进行语音识别时,由于经常会存在专业词汇、特定用法导致无法正确识别的问题,仅仅依靠通用语言模型往往无法满足应用需求,因此往往采用语言模型定制的方式,即预先生成大量与该特定应用场景相关的语料后,训练相应的主题语言模型,利用该主题语言模型、通用的声学模型及通用语言模型进行语音识别。
目前,语音识别的过程包括以下步骤:
第一,接受语音输入;
第二,在语法文件中进行匹配,其中,语法文件就是基于大量的语料训练得到的,其对应的就是上面的主题语言模型,利用该主题语言模型、通用的声学模型及通用语言模型等;
第三,通过识别器进行识别;
第四,返回识别结果。
由于机器人语音识别训练需要大量的语音语料作为训练数据,且这些训练数据又都是口语化的有序问法,目前获得语音语料的途径主要是靠人工编写,且考虑到不同区域之间即使同一语言表达方式也不同,采用人工采编口语化训练数据有限,且此种纯人工方式具有耗时耗力的缺点。
发明内容
本发明提供一种语音语料生成方法、一种语音识别方法、一种服务器、一种计算机可读存储介质、一种语音语料生成装置以及一种语音识别装置,可以大大减少语音语料的生成时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率。
为解决上述技术问题,本发明提供了一种语音语料的生成方法,包括:
根据目标业务建立标签分类;
基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
根据所述目标语料生成与所述标签分类对应的业务语料库。
可选地,所述有序语义表达式中至少部分词类包括多个同义词;所述训练处理包括:将所述有序语义表达式包括多个同义词的每个词类分别替换为对应的同义词。
可选地,所述分词结果还包括表达式符号,所述表达式符号包括:或者关系符以及可选关系符两者中的一个或两个;所述训练处理包括:当一个分词结果中包括M个词类和或者关系符时,将所述有序语义表达式训练为M个第一基本表达式,每个第一基本表达式中所述分词结果仅包括一个词类;当一个分词结果中包括一个词类和可选关系符时,将所述有序语义表达式训练为两个第二基本表达式,其中第一个第二基本表达式中的所述分词结果包括所述词类,第二个第二基本表达式中去除所述分词结果。
可选地,所述方法还包括:至少为部分所述分词结果设置占比;所述训练处理同时根据所述分词结果以及所述占比实现。
可选地,不同行业中相同目标业务使用同一业务语料库。
为解决上述技术问题,本发明还提供了一种语音识别方法,包括:
获取待处理语音信息;
在语法文件中对所述待处理语音信息进行匹配,所述语法文件训练用的语音语料采用上述方法生成;
通过识别器进行识别,以获得识别结果。
为解决上述技术问题,本发明还提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。
为解决上述技术问题,本发明还提供了一种语音语料生成装置,包括:
设置模块,用于根据目标业务建立标签分类;
语义表达式提供模块,用于基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
训练模块,用于根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
输出模块,用于根据所述目标语料生成与所述标签分类对应的业务语料库。
为解决上述技术问题,本发明还提供了一种语音识别装置,包括:
输入模块,用于获取待处理语音信息;
匹配模块,用于在语法文件中对所述待处理语音信息进行匹配;
语音语料生成装置,用于生成所述语法文件训练用的语音语料;
识别模块,用于通过识别器进行识别,以获得识别结果。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例通过编写有序语义表达式,且对有序语义表达式进行训练,从而可以自动生成多个语音语料,从而大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率;支持多人同时进行操作维护,可以实现跨部门合作沟通;可以实现语音语料数据的系统级积累。
进一步地,还可以为每个所述分词结果或每个所述分词结果的每个词类设置占比,从而同时根据所述分词结果以及所述占比进行训练处理,从而可以进一步缩短生成时间。
进一步地,不同行业中相同目标业务可以使用同一业务语料库,从而提高语音语料的复用率,大大缩短不同业务语料库的建设时间。
附图说明
通过阅读以下结合附图对非限定性实施例的描述,本发明的其它目的、特征和优点将变得更为明显和突出。
图1是本发明实施方式提供的多目标追踪方法的流程示意图;
图2是本发明实施方式提供的多目标追踪装置的结构示意图;
其中,相同或相似的附图标记表示相同或相似的步骤特征/装置(模块)。
具体实施方式
如背景技术部分所述,目前语音识别技术中的语法文件多是采用纯人工的方式编写出来的,从而所需时间长且成本高;再加上方言的存在,使得生成的语音语料数据非常有限。
为了提高效率,可以考虑采用语义表达式生成语音语料,但是由于此时的语义表达式是无序的,且语义表达式及其中的词类等各种设定都是偏向文本渠道,无法满足语音渠道的语料要求。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本实施例的方法主要通过计算机设备来实现;所述计算机设备包括但不限于网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA、IPTV等。
需要说明的是,所述计算机设备和网络仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
实施例一
参见图1所示,本实施例提供了一种语音语料生成方法,具体包括以下步骤:
步骤S1,根据目标业务建立标签分类;
步骤S2,基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
步骤S3,根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
步骤S4,根据所述目标语料生成与所述标签分类对应的业务语料库。
本实施例通过编写有序语义表达式,且对有序语义表达式进行训练,从而可以自动生成多个语音语料,从而大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率;支持多人同时进行操作维护,可以实现跨部门合作沟通;可以实现语音语料数据的系统级积累。
首先执行步骤S1,根据目标业务建立标签分类。
本实施例先根据需要建立目标业务,如:工商银行信用卡;然后在该目标业务下建立多个标签分类,如:信用卡积分查询、信用卡补办等,从而形成业务标签库。
接着执行步骤S2,基于每个所述标签分类预设一个或多个有序语义表达式。
本实施例中有序语义表达式是相对于无序语义表达式而言,其表达式中各词语的顺序不能调整,且此时有序语义表达式更符合用户语音渠道的语料要求。
需要说明的是,所述有序语义表达式既可以采用人工方式进行撰写,也可以先自动生成进而人工进行选择,还可以直接自动生成,其都在本发明的保护范围内。
具体地,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类,每个所述词类包括一个或多个同义词。
无论采用上述哪种方式得到有序语义表达式,都需要建立词类库。所述词类库包括多个词类,每个所述词类包括一个或多个同义词。
需要注意的是,所述词类库的建设过程中需要考虑语音这一应用渠道,且需要考虑不同区域语言的差异性,从而可以进一步提高语音识别的准确率。
作为一种具体的实现方式,可以用[]表示分词结果,但其不限制本发明的保护范围。
作为一个有序语义表达式的例子:[查一下][我][还有][多少][积分],表达式中[]表示一个分词结果,该例子中包括五个分词结果,具体为:[查一下]、[我]、[还有]、[多少]以及[积分],每个分词结果均对应一个词类,其中:
[查一下]对应两个同义词:查一下、查下、查查
[我]对应一个同义词:我
[还有]对应两个同义词:还有、还剩
[多少]对应一个同义词:多少
[积分]对应一个同义词:积分
接着执行步骤S3,进行训练处理以得到对应的多个目标语料。
所述训练处理包括:将所述有序语义表达式包括多个同义词的每个词类分别替换为对应的同义词。当所述有序语义表达式中有M个分词结果,第i个分词结果包括的词类对应的同义词数目为Ni,则训练处理后得到的目标语料数目为:N1×N2×……×Ni×……NM
仍沿用上面的例子,当对[查一下][我][还有][多少][积分]进行训练处理后,得到的目标语料为:
1、查一下我还有多少积分
2、查下我还有多少积分
3、查一下我还剩多少积分
4、查下我还剩多少积分
5、查查我还有多少积分
6、查查我还剩多少积分
上面例子目标语料的数目为:3×1×2×1×1=6,其中:进行乘法计算的3、1、2、1和1分别是上面例子中5个分词结果对应的同义词数目。
接着执行步骤S4,根据所述目标语料生成与所述标签分类对应的业务语料库,即将同一标签分类下对应的各个目标语料作为该标签分类的业务语料库。
需要说明的是,不同行业中相同目标业务可以使用同一业务语料库,从而可以提高语音语料的复用率,大大缩短不同业务语料库的建设时间。
上述具体例子中仅需提供一个有序语义表达式就可以自动训练出四个目标语料,从而大大缩短生成时间,降低成本。
实施例二
与实施例一相比,本实施例中的所述分词结果还包括表达式符号,所述表达式符号包括:或者关系符以及可选关系符两者中的一个或两个,从而所述训练处理进一步包括:当一个分词结果中包括M个词类和或者关系符时,将所述有序语义表达式训练为M个第一基本表达式,每个第一基本表达式中所述分词结果仅包括一个词类;当一个分词结果中包括一个词类和可选关系符时,将所述有序语义表达式训练为两个第二基本表达式,其中第一个第二基本表达式中的所述分词结果包括所述词类,第二个第二基本表达式中去除所述分词结果。
其余步骤请参考实施例一,在此不再赘述。
作为一种具体的实现方式,可以用|表示或者关系符,用于表示一个分词结果的多个词类之间多选一,但是其不限制本发明的保护范围。如:[A|B|C]表示既可以选择词类A,也可以选择词类B,还可以选择词类C。有序语义表达式[A|B|C][D]进行训练处理时,得到三个第一基本表达式,即[A][D]、[B][D]和[C][D],每个第一基本表达式中所述分词结果仅包括一个词类。
作为一种具体的实现方式,可以用?表示可选关系符,用于表示一个分词结果的可有可无,但其不限制本发明的保护范围。如:[A?]表示既可以选择词类A,也可以不选择词类A。有序语义表达式[A?][D]进行训练处理时,得到两个第二基本表达式,即[A][D]和[D],其中第一个第二基本表达式中的所述分词结果包括所述词类,第二个第二基本表达式中去除所述分词结果。
此外,或者关系符和可选关系符还可以用于同一个分词结果中,如[A|B|C?],表示这个分词结果可有可无,当选择该分词结果时,则可以选择词类A,也可以选择词类B,还可以选择词类C,共四种情况。即当一个分词结果中包括M个词类、可选关系符和或者关系符时,所述训练处理包括:将所述有序语义表达式训练为M个第一基本表达式以及一个第二基本表达式,每个第一基本表达式中所述分词结果仅包括一个词类,所述第二基本表达式中去除所述分词结果。如对有序语义表达式[A|B|C?][D]进行训练处理时,得到三个第一基本表达式,分别为:[A][D]、[B][D]以及[C][D];并得到一个第二基本表达式,分别为:[D]。
仍沿用实施例一中的例子:[查一下?][我][还有][多少][积分|分],表达式中[查一下]这个分词结果可有可无,[积分]与[分]为二选一的关系。当对[查一下?][我][还有][多少][积分|分]进行训练处理后,得到的目标语料为:
1、查一下我还有多少积分
2、查下我还有多少积分
3、查查我还有多少积分
4、查一下我还剩多少积分
5、查下我还剩多少积分
6、查查我还剩多少积分
7、查一下我还有多少分
8、查下我还有多少分
9、查查我还有多少分
10、查一下我还剩多少分
11、查下我还剩多少分
12、查查我还剩多少分
13、我还有多少积分
14、我还有多少分
15、我还剩多少积分
16、我还剩多少分
与实施例一相比,本实施例一个有序语义表达式训练出的目标语料的数量增加了1.6倍,从而时间节省了多一半。
本实施例通过编写有序语义表达式,且对有序语义表达式进行训练,从而可以自动生成多个语音语料,从而大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率;支持多人同时进行操作维护,可以实现跨部门合作沟通;可以实现语音语料数据的系统级积累。
此外,本实施例中引入表达式符号,从而使得有序语义表达式可以训练出更多的目标语料,最终进一步提高效率,且降低成本。
实施例三
与前面两个实施例相比,本实施例的方法还包括:至少为部分所述分词结果设置占比;所述训练处理同时根据所述分词结果以及所述占比实现。
由于所述分词结果可以包括一个或多个词类,从而为所述分词结果设置占比,就相当于为该分词结果的一个或多个词类设置了同一个占比。
所述占比的取值大于0且小于1,比如:0.4~0.9,具体为:0.4、0.5、0.6、0.7、0.8和0.9等。
仍沿用上面的例子:[查一下?][我][还有][多少][积分|分],设置[查一下?]这一分词结果的占比为0.8,则训练处理时同时结合占比、词类或者同时结合占比、词类和表达式符号,得到的目标语料为:
1、查一下我还有多少积分
2、查一下我还有多少分
3、查下我还有多少积分
4、查下我还有多少分
5、查一下我还剩多少积分
6、查一下我还剩多少分
7、查下我还剩多少积分
8、查下我还剩多少分
9、我还有多少积分
10、我还有多少分
11、我还剩多少积分
12、我还剩多少分
本实施例与实施例二的结果相比,训练结果中包含[查一下]这一词类的数量从12个减为8个,具体地是[查一下]原本包括3个同义词,3*0.8取整后等于2,从而只取了使用频率较高的查一下和查下,而省略了查查这一同义词。
需要说明的是,在本发明的其它例子中,还可以为每个所述分词结果都设置占比,其都在本发明的保护范围内。
本实施例通过编写有序语义表达式,且对有序语义表达式进行训练,从而可以自动生成多个语音语料,从而大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率;支持多人同时进行操作维护,可以实现跨部门合作沟通;可以实现语音语料数据的系统级积累。
此外,本实施例中通过设置占比,可以缩短训练处理的时间,提高生成的目标语料的质量。
实施例四
本实施例提供了一种语音识别方法,可以包括以下步骤:
第一步,获取待处理语音信息;
第二步,在语法文件中对所述待处理语音信息进行匹配;
第三步,通过识别器进行识别,以获得识别结果。
本实施例中第二步中所述语法文件训练用的语音语料采用如实施例一、实例二或实例三所述方法生成,在此不再赘述。
其余步骤与现有技术相同,其对于本领域技术人员是熟知的,在此不再赘述。
本实施例可以快速高效地建立高质量的语法文件,从而提高了语音识别的准确率,且降低了语音识别的时间,降低了成本,提高了效率。
实施例五
本实施例提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行实施例一、实施例二、实施例三或实施例四所述方法的步骤。
实施例六
本实施例提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行实施例一、实施例二、实施例三或实施例四所述方法的步骤。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
实施例七
参考图2所示,本实施例提供了一种语音语料生成装置,包括:
设置模块10,用于根据目标业务建立标签分类;
语义表达式提供模块30,用于基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
训练模块50,用于根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
输出模块70,用于根据所述目标语料生成与所述标签分类对应的业务语料库。
作为一个具体例子,所述有序语义表达式中至少部分词类可以包括多个同义词;所述训练模块50可以将所述有序语义表达式包括多个同义词的每个词类分别替换为对应的同义词。此时装置的工作过程具体可以参考实施例一,在此不再赘述。
作为另一个具体例子,所述分词结果还可以包括表达式符号,所述表达式符号包括:或者关系符以及可选关系符两者中的一个或两个;所述训练模块50可以:当一个分词结果中包括M个词类和或者关系符时,将所述有序语义表达式训练为M个第一基本表达式,每个第一基本表达式中所述分词结果仅包括一个词类;当一个分词结果中包括一个词类和可选关系符时,将所述有序语义表达式训练为两个第二基本表达式,其中第一个第二基本表达式中的所述分词结果包括所述词类,第二个第二基本表达式中去除所述分词结果。此时装置的工作过程具体可以参考实施例二,在此不再赘述。
作为再一个具体例子,所述装置还可以包括占比设置模块(图中未示出),用于至少为部分所述分词结果设置占比;此时,所述训练模块50可以同时根据所述分词结果以及所述占比进行训练处理。此时装置的工作过程具体可以参考实施例三,在此不再赘述。
需要特别的说明是,不同行业中相同目标业务可以使用同一业务语料库。
本实施例通过编写有序语义表达式,且对有序语义表达式进行训练,从而可以自动生成多个语音语料,从而大大减少人工采编语音语料的时间,且可以丰富语音语料的数量及问法,最终减少语音语料生成的成本,有效提高语音识别准确率;支持多人同时进行操作维护,可以实现跨部门合作沟通;可以实现语音语料数据的系统级积累。
此外,本实施例中引入表达式符号,从而使得有序语义表达式可以训练出更多的目标语料,最终进一步提高效率,且降低成本。
此外,本实施例中通过设置占比,可以缩短训练处理的时间,提高生成的目标语料的质量。
实施例八
本实施例提供了一种语音识别装置,可以包括:
输入模块,用于获取待处理语音信息;
匹配模块,用于在语法文件中对所述待处理语音信息进行匹配;
语音语料生成装置,用于生成所述语法文件训练用的语音语料;
识别模块,用于通过识别器进行识别,以获得识别结果。
其中,关于所述语音语料生成装置的技术方案的描述请参考实施例七,在此不再赘述。
本实施例中输入模块、匹配模块以及识别模块的具体工作过程与现有技术相同,其对于本领域技术人员是熟知的,在此不再赘述。
本实施例可以快速高效地建立高质量的语法文件,从而提高了语音识别的准确率,且降低了语音识别的时间,降低了成本,提高了效率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。
应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。
任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种语音语料生成方法,其特征在于,包括:
根据目标业务建立标签分类;
基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
根据所述目标语料生成与所述标签分类对应的业务语料库。
2.如权利要求1所述的方法,其特征在于,所述有序语义表达式中至少部分词类包括多个同义词;所述训练处理包括:将所述有序语义表达式包括多个同义词的每个词类分别替换为对应的同义词。
3.如权利要求1或2所述的方法,其特征在于,所述分词结果还包括表达式符号,所述表达式符号包括:或者关系符以及可选关系符两者中的一个或两个;所述训练处理包括:当一个分词结果中包括M个词类和或者关系符时,将所述有序语义表达式训练为M个第一基本表达式,每个第一基本表达式中所述分词结果仅包括一个词类;当一个分词结果中包括一个词类和可选关系符时,将所述有序语义表达式训练为两个第二基本表达式,其中第一个第二基本表达式中的所述分词结果包括所述词类,第二个第二基本表达式中去除所述分词结果。
4.如权利要求1所述的方法,其特征在于,还包括:至少为部分所述分词结果设置占比;所述训练处理同时根据所述分词结果以及所述占比实现。
5.如权利要求1所述的方法,其特征在于,不同行业中相同目标业务使用同一业务语料库。
6.一种语音识别方法,其特征在于,包括:
获取待处理语音信息;
在语法文件中对所述待处理语音信息进行匹配,所述语法文件训练用的语音语料采用如权利要求1至5任一项所述方法生成;
通过识别器进行识别,以获得识别结果。
7.一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至6任一项所述方法的步骤。
9.一种语音语料生成装置,其特征在于,包括:
设置模块,用于根据目标业务建立标签分类;
语义表达式提供模块,用于基于每个所述标签分类预设一个或多个有序语义表达式,每个所述有序语义表达式包括一个或多个分词结果,每个所述分词结果包括一个或多个词类;
训练模块,用于根据所述分词结果对每个所述有序语义表达式进行训练处理以得到对应的多个目标语料;
输出模块,用于根据所述目标语料生成与所述标签分类对应的业务语料库。
10.一种语音识别装置,其特征在于,包括:
输入模块,用于获取待处理语音信息;
匹配模块,用于在语法文件中对所述待处理语音信息进行匹配;
语音语料生成装置,用于生成所述语法文件训练用的语音语料;
识别模块,用于通过识别器进行识别,以获得识别结果。
CN201810715623.5A 2018-07-03 2018-07-03 语音语料生成方法及装置、语音识别方法及装置 Pending CN110675863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810715623.5A CN110675863A (zh) 2018-07-03 2018-07-03 语音语料生成方法及装置、语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810715623.5A CN110675863A (zh) 2018-07-03 2018-07-03 语音语料生成方法及装置、语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN110675863A true CN110675863A (zh) 2020-01-10

Family

ID=69065397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810715623.5A Pending CN110675863A (zh) 2018-07-03 2018-07-03 语音语料生成方法及装置、语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN110675863A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN111916088A (zh) * 2020-08-12 2020-11-10 腾讯科技(深圳)有限公司 一种语音语料的生成方法、设备及计算机可读存储介质
CN113327593A (zh) * 2021-05-25 2021-08-31 上海明略人工智能(集团)有限公司 用于语料获取的装置及方法、电子设备、可读存储介质
CN113593556A (zh) * 2021-07-26 2021-11-02 深圳市捌零零在线科技有限公司 一种车载语音操作系统人机互动方法及装置
CN113761844A (zh) * 2020-12-02 2021-12-07 北京沃东天骏信息技术有限公司 确定目标语料的方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106257440A (zh) * 2015-06-17 2016-12-28 松下知识产权经营株式会社 语义信息生成方法和语义信息生成装置
CN107025217A (zh) * 2016-02-01 2017-08-08 松下知识产权经营株式会社 同义转换文生成方法、装置、程序以及机器翻译系统
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106257440A (zh) * 2015-06-17 2016-12-28 松下知识产权经营株式会社 语义信息生成方法和语义信息生成装置
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
CN107025217A (zh) * 2016-02-01 2017-08-08 松下知识产权经营株式会社 同义转换文生成方法、装置、程序以及机器翻译系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN111613212B (zh) * 2020-05-13 2023-10-31 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN111916088A (zh) * 2020-08-12 2020-11-10 腾讯科技(深圳)有限公司 一种语音语料的生成方法、设备及计算机可读存储介质
CN113761844A (zh) * 2020-12-02 2021-12-07 北京沃东天骏信息技术有限公司 确定目标语料的方法、装置、电子设备及存储介质
CN113327593A (zh) * 2021-05-25 2021-08-31 上海明略人工智能(集团)有限公司 用于语料获取的装置及方法、电子设备、可读存储介质
CN113327593B (zh) * 2021-05-25 2024-04-30 上海明略人工智能(集团)有限公司 用于语料获取的装置及方法、电子设备、可读存储介质
CN113593556A (zh) * 2021-07-26 2021-11-02 深圳市捌零零在线科技有限公司 一种车载语音操作系统人机互动方法及装置

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
TWI636452B (zh) 語音識別方法及系統
CN110675863A (zh) 语音语料生成方法及装置、语音识别方法及装置
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN110765759A (zh) 意图识别方法及装置
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN109190123B (zh) 用于输出信息的方法和装置
CN115982376A (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN110245334B (zh) 用于输出信息的方法和装置
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN112652329B (zh) 文本重对齐方法、装置、电子设备和存储介质
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112711654B (zh) 语音机器人的汉字解释话术生成方法、系统、设备及介质
CN111476641A (zh) 一种移动设备上语音自动下单的方法、系统及存储介质
CN111126078A (zh) 翻译的方法和装置
Meng et al. An improved method for chinese company name and abbreviation recognition
CN115329740B (zh) 合同文书的数据增广方法、装置、计算机设备及存储介质
CN110619869B (zh) 用于训练混合语言识别模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110