CN1245704C

CN1245704C - 一种语音输出/输入系统与方法

Info

Publication number: CN1245704C
Application number: CNB031544533A
Authority: CN
Inventors: 赵平峡
Original assignee: Micro Star International Co Ltd
Current assignee: Micro Star International Co Ltd
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2006-03-15
Anticipated expiration: 2023-09-29
Also published as: CN1604190A

Abstract

本发明公开了一种语音输出/输入系统与方法，利用一语音输入单元将外界语音以句子为单位输入，利用分派模块使多个处理模块可以在同时间处理多个信号，以降低等待时间，加快处理效率。如此可提升系统对语音输入讯号的强健性(robustness)，增加语音辨识的效率，并强化整体效能。

Description

一种语音输出/输入系统与方法

技术领域

本发明涉及一种语音输出/输入装置与方法，特别是一种利用同步处理技术，以加快处理速度的语音输出/输入装置与方法。

背景技术

随着语音信号处理技术的发展，让计算机听得懂人类的语言也不再只是梦想。目前市面上可以看到许多的语音辨识产品，如语音输入法(声硕科技说亦通、蒙恬科技听写王)，行动电话的语音简讯精灵，皆是语音辨识的应用实例。在个人行动数字产品要求轻薄短小的趋势下，语音输入的技术将更显重要。

然而，目前在语音处理的应用上，处理速度缓慢一直是人们希望解决的问题。请参阅图1，此为已知的语音处理流程图。使用者发出语音信号，经由麦克风接收后，传送到语音处理装置。语音处理装置首先要做的就是要将麦克风所撷取的模拟(analogical)语音信号转换为数字(digital)信号，即所谓的模拟/数字转换(A/D conversion)。接着对数字的语音信号进行前置处理，通常包括有去除高频噪声与还原声道模型，增加输入信号的品质，以提高辨识率。之后进入语音辨识的步骤，首先从经过前置处理的语音信号中撷取特征参数，再与事先训练好的语音模型进行比对，将可能性较大的结果再经由语言模型，取出有意义的文字结果，最后输出。

由图1及上述步骤说明中可知，语音辨识的步骤相当繁琐，而且为序列式的处理流程，必须待前一步骤执行完毕后，方可执行下一步骤，直到所有步骤结束后，才能再从头开始执行。因此处理过程中就会花费不少时间，使用者就会有等待感觉。

请参阅图2，此为台湾公告第502207号“具语音辨识的卡路里控制设备”处理示意图，由图2可看出，当语音讯号经过麦克风输入后，必须遵循语音输入单元→语音辨识单元→算数及控制单元的步骤，其中语音输入单元无法将目前输入的状态直接告知算数与控制单元，而算数与控制单元也无法直接控制语音输入单元，造成同一时间内只有一个单元在工作，其它单元闲置的现象。

此外，常用技术在处理语音信号时，必须暂时停止对外界语音讯号的接收或前置处理等动作，以空出中央处理单元(CPU)的资源来进行语音辨识。如此做法对于不能达到真正同步接收与辨识的现象并未彻底解决，而且在此缺憾的下很可能遗失极为重要的语音讯号，降低系统可信赖度。

发明内容

本发明的主要目的是提供一种可以加快语音处理的装置与方法。

为达本发明的目的，本发明提供一种语音输出/输入装置，包括：

一语音输入单元，接收外界语音，输出一语音信号；

一语音处理单元，连接该语音输入单元，处理该语音信号，输出一语音输出信号；该处理单元包括：

多个语音处理模块，其中每一语音处理模块对该语音信号进行一特定处理，该多个语音处理模块依一预设顺序处理该语音信号；及

一分派模块，连接多个处理模块，用以控制多个处理模块的处理流程；以及

一语音输出单元，连接该处理单元，播放该语音输出信号；

其特征在于该语音输入单元将所接收的外界语音以句子(sentence)为单位切出，输出为该语音信号；每一语音处理模块通常为备用(standby)状态，当接收到该分派模块所传送一致能(enable)信号时，转变为工作状态，每一语音处理模块以一语音信号为处理单位，处理该语音信号，完成后转变为备用状态，并通知该分派模块。在此要强调的是，分派模块可以同时送出多个致能信号，使多个语音处理模块能同时处理不同的信号。

本发明也提供一种语音处理方法，用于一语音输出/输入装置，该装置包括一语音输入单元，接收外界语音，以句子(sentence)为单位，输出多个语音信号；多个处理模块，其中该多个处理模块依一预设顺序处理输入信息；一分派模块；一储存单元与一语音输出单元，该方法包括以下步骤：

步骤A：该分派模块检验一语音信号是否已完成处理，若为是，输出至该语音输出单元播放，否则执行步骤B；

步骤B：该分派模块依该预设顺序检验该语音信号下一个处理模块是否为备用状态？若为是，执行步骤C，否则执行步骤F；

步骤C：将该处理模块转换成工作状态，并将该语音信号传送到该处理模块；

步骤D：该处理模块处理该语音信号；

步骤E：将该语音信号传送到该分派单元，并将该处理模块转换成备用状态，执行步骤A；

步骤F：将该语音信号传送到储存单元暂存；

步骤G：延迟一预设时间单位，执行步骤B。

为了对本发明的特征、目的及功能有更进一步的认知与了解，下面结合附图以具体实例对本发明进行详细说明。

附图说明

图1是已知的语音处理流程图；

图2是台湾公告第502207号的处理示意图；

图3是本发明系统的架构图；

图4是本发明方法的流程图；

图5是本发明方法的另一实施例流程图。

附图标记说明：1语音输入单元；2语音处理单元；21前处理模块；22语音辨识模块；23语言模块；24分析模块；25语音合成模块；27分派模块；28储存模块；3语音输出单元；51-57本发明流程步骤；61-68本发明流程步骤。

具体实施方式

本发明的精神在于利用一管理机制，管理每一个输入信号处理状态，尽量利用每一个处理模块，避免处理模块出现闲置的现象。

请参阅图3所示的本发明的架构图。本发明提供一种语音输出/输入系统，包括有：一语音输入单元1、一语音处理单元2、及一语音输出单元3，分述如下：

本发明语音输入单元1接收外界语音，以句子(sentence)为单位切出，输出为该语音信号。也就是说，语音输入单元所输出的语音信号是一个句子。根据统计，一个句子的长度约在4-8个字之间，比词的长度2-5个字稍长，在连续语音的辨认上并不会有技术上的困难。切音的方法很多，在一实施例中，可利用能量的高低来做判别是否有语音信号，以达成切音的功能。在另一实施例中，可利用越零率(zero-cross rate)来作为切音的参数，所谓的越零率就是语音信号与零准位交错的比率，可表示能量在该准位的波动情况。在另一实施例中，可利用语音信号能量的改变幅度来作为切音的参数。在另一实施例中，可以联合上述方式来达到切音的目的。

本发明的语音处理单元2连接该语音输入单元1，处理该语音信号，输出一语音输出信号；该语音处理单元2还包括：

多个语音处理模块，其中每一语音处理模块对该语音信号进行某一特定的处理，这些语音处理模块会依一预设顺序串接起来处理语音信号。在一实施例中，语音处理单元至少包括有一前处理模块21，去除语音信号中的噪声，还原该语音信号，以取得较佳的信号品质。在一实施例中，会利用低通滤波器去除高频噪声，利用LCP(linear coding processing)还原声道模型等。一语音辨识模块22，连接该前处理模块21，从经过前置处理的语音信号中撷取特征参数，再与事先已建好的语音模型比对，以辨识语音信号。一语言模块23，连接该语音辨识模块22，从辨识模块输出的结果是音，还不是有意义的字，因此需要经由语言模块23将辨识结果转换成有意义的文字信息。一分析模块24，连接该语言模块23，由该文字信息输出对应的一输出信息。及一语音合成模块25，连接该分析模块24，根据该输出信息输出该语音输出信号。

一分派模块27，连接多个语音处理模块，用以控制所有语音处理模块的处理流程。控制的方法如下：每一语音处理模块通常为备用(standby)状态，当接收到分派模块27所传送的致能(enable)信号时，语音处理模块就转变为工作状态，每一语音处理模块以一语音信号为处理单位，处理该语音信号，在完成后恢复为备用状态，并通知分派模块27，可以指派下一个工作。如果当分派模块27所指派的语音处理单元为工作状态时，分派模块27就将资料暂存在储存模块28，延迟一段时间后再送入该语音处理模块。在此要特别强调的是，语音处理单元2可以容许多个处理模块同时处于工作状态，也就是语音处理单元2可以同时送出多个致能信号，使多个语音处理模块能同时处理不同的信号。

本发明的语音输出单元3连接语音处理单元2，用以播放所输出的信号。

请参阅图4所示的本发明的流程图。本发明亦提供一种利用在一语音输出/输入装置中的方法，该语音输出/输入装置包括：一语音输入单元1，接收外界语音，以句子(sentence)为单位，输出多个语音信号；多个处理模块，其中该多个处理模块依一预设顺序处理输入信息；一分派模块27；一储存单元28与一语音输出单元3，该方法包括以下步骤：

步骤51：该分派模块检验一语音信号是否已完成处理，若为是，输出至该语音输出单元播放，否则执行步骤52；

步骤52：该分派模块依该预设顺序检验该语音信号下一个处理模块是否为备用状态？若为是，执行步骤53，否则执行步骤56；

步骤53：将该处理模块转换成工作状态，并将该语音信号传送到该处理模块；

步骤54：该处理模块处理该语音信号；

步骤55：将处理结果传送到该分派单元，并将该处理模块转换成备用状态，执行步骤51；

步骤56：将该语音信号传送到储存单元暂存；

步骤57：延迟一预设时间单位，执行步骤52。

请参阅图5，本发明还提供一种不需利用上述分派模块与储存单元，也可达到相同目的的方法，本实施例方法的精神在于，每一语音处理单元会检测下一个语音处理单元是否为待命状态，如此就不需要额外的分派模块与储存单元。本实施例方法包括有以下步骤：

步骤61：设定参数x等于1，设定资料信号为该语音信号；

步骤62：判定该语音信号是否完成该预设顺序，若为是，输出该语音信号所对应的结果，否则执行步骤63；

步骤63：将第x个处理模块设定为工作状态，并将该资料信号传送到第x个处理模块；

步骤64：第x个处理模块处理该数据信号；

步骤65：依该预设顺序检验第x+1个处理模块是否为备用状态？若为是，执行步骤66，否则执行步骤68；

步骤66：将第x个处理模块设为备用状态；

步骤67：将处理结果设定为该资料信号，x值加1，执行步骤62；

步骤68：延迟一预设时间单位，执行步骤65。

本发明的的一具体实施例为电话语音订购系统，当使用者说：“我要购买微星主机板、显示卡、光驱及无限网卡”，传统的方法可能就会将这么长的句子视为一个信号输入到装置中，由于辨识所需时间与句子的长度成正相关，所以会花费较多时间。或将原句切成“我要购买微星主机板”、“显示卡”、“光驱及无限网卡”三个较短句子来辨识，但是即使如此，速度上也不会有很大的改善，因为在执行辨识“我要购买微星主机板”时，“显示卡”、“光驱及无限网卡”仍是在等待的状态，并没有被执行。因此要等“我要购买微星主机板”辨识完毕后，才会开始辨识“显示卡”。在辨识完“显示卡”这一句时，才会开始辨识“光驱及无限网卡”。所以不会比较快。

但利用本发明就不同，本发明的语音输入单元1，会利用语音的能量、变化等关系，决定断句的地方。如本实施例中将原句断成“我要购买微星主机板”、“显示卡”、“光驱及无限网卡”等三个较短句子，再送进语音处理单元2处理。本实施例中，处理单元共有前处理模块21、语音辨识模块22、语言模块23、分析模块24及语音合成模块25五个模块，最多同时可以处理五个句子，也就是说当前处理模块正在处理时，其它的模块也可以同时对不同的语音信号进行处理。因此，如果只有一个语音信号的输入时，本发明的优点并不会显现。然而当多个语音信号输入时，由于每一个语音信号等待的时间减少，就可以节省许多时间，进而加快整个处理的流程。随着模块分工得愈细，能同时处理的句子就愈多，但也要考虑分派模块的处理能力，若切分得太细，时间耗损在资料的传递上，就失去利用本发明的目的。

本发明可以在计算机上以软件(software)的方式如电话语音挂号实现，当然也可以硬件(hardware)的方式如盲人阅报机实现，甚至以固件(firmware)方式实现如用语音控制的家电系统。

综上所述，本发明系利用一语音输入单元将外界语音以句子为单位输入，利用分派模块使多个处理模块可以在同时间处理多个信号，以降低等待时间，加快处理效率。如此可提升系统对语音输入讯号的强健性(robustness)，增加语音辨识的效率，并强化整体效能表现。

以上所述仅为本发明的较佳实施例，不能以此限制本发明的范围。凡依本发明权利要求所做的均等变化及修饰，仍将不失本发明的要义所在，亦不脱离本发明的精神和范围的，都应视为本发明的进一步实施。

Claims

1、一种语音输出/输入系统，包括：

一语音输入单元，接收外界语音，输出一语音信号；

一语音处理单元，连接该语音输入单元，处理该语音信号，输出一语音输出信号；该语音处理单元包括：

一分派模块，连接多个语音处理模块，用以控制多个语音处理模块的处理流程；以及

一语音输出单元，连接该语音处理单元，播放该语音输出信号；

其特征在于该语音输入单元将所接收的外界语音以句子为单位切出，输出为该语音信号，该语音处理单元更包括有一储存模块，连接该分派模块，当发生所指派的语音处理模块为工作状态时，暂存语音信号；每一语音处理模块通常为备用状态，当接收到该分派模块所传送致能信号时，转变为工作状态；每一语音处理模块以一语音信号为处理单位，处理该语音信号，完成后转变为备用状态，并通知该分派模块，该语音处理模块至少包括一前处理模块，用以去除该语音信号的噪声，还原该语音信号，以取得较佳的信号品质。

2、如权利要求1所述的语音输出/输入系统，其中语音处理模块还至少包括：

一语音辨识模块，连接该前处理模块，用以辨识该语音信号；

一语言模块，连接该语音辨识模块，将所辨识的结果转换成一文字信息；

一分析模块，连接该语言模块，由该文字信息输出对应的一输出信息；及

一语音合成模块，连接该分析模块，根据该输出信息输出该语音输出信号至该语音输出单元。

3、一种语音处理方法，用于一语音输出/输入装置，该语音输出/输入装置包括：一语音输入单元，接收外界语音，以句子为单位，输出多个语音信号；多个语音处理模块，其中该多个语音处理模块依一预设顺序处理输入信息；一分派模块；一储存单元与一语音输出单元；该方法包括以下步骤：

步骤A：该分派模块检验一语音信号是否己完成处理，若为是，输出结果至该语音输出单元播放，否则执行步骤B；

步骤B：该分派模块依该预设顺序检验该语音信号的下一个语音处理模块是否为备用状态？若为是，执行步骤C，否则执行步骤F；

步骤C：将该语音处理模块转换成工作状态，并将该语音信号传送到该语音处理模块；

步骤D：该语音处理模块处理该语音信号；

步骤E：将处理结果传送到该分派单元，并将该语音处理模块转换成备用状态，执行步骤A；

步骤F：将该语音信号传送到储存单元暂存；

步骤G：延迟一预设时间单位，执行步骤B。

4、如权利要求3所述的语音处理方法，其中语音处理模块至少包括：

一前处理模块，用以去除该语音信号的噪声，还原该语音信号，以取得较佳的信号品质；

一分析模块，连接该语言模块，输出该文字信息对应的一输出信息；

5、如权利要求4所述的语音处理方法，该预设顺序为前处理模块、语音辨识模块、语言模块、分析模块、语音合成模块。

6、一种语音处理方法，用于一语音输出/输入装置，该装置包括有一语音输入单元，接收外界语音，以句子为单位，输出多个语音信号、多个语音处理模块，其中该语音多个处理模块依一预设顺序处理输入信息，该方法包括有以下步骤：

步骤A：设定参数x等于1，设定资料信号为该语音信号；

步骤B：判断该语音信号是否完成该预设顺序，若为是，输出该语音信号所对应的结果，否则执行步骤C；

步骤C：将第x个语音处理模块设定为工作状态，并将该资料信号传送到第x个语音处理模块；

步骤D：第x个语音处理模块处理该资料信号；

步骤E：依该预设顺序检验第x+1个语音处理模块是否为备用状态？若为是执行步骤F，否则执行步骤H；

步骤F：将第x个语音处理模块设为备用状态；

步骤G：将语音处理结果设定为该资料信号，x值加1，执行步骤B；

步骤H：延迟一预设时间单位，执行步骤E。

7、如权利要求6所述的语音处理方法，其中该H步骤还包括：

步骤H1：将该语音信号传送到一储存单元暂存；

步骤H2：将第x个处理模块设为备用状态；

步骤H3：该储存单元延迟一预设时间单位，执行步骤E；

8、如权利要求6所述的语音处理方法，其中语音处理模块至少包括：

一分析模块，连接该语言模块，输出该文字信息对应的一输出信息；及

9、如权利要求8所述的语音处理方法，该预设顺序可为前处理模块、语音辨识模块、语言模块、分析模块、语音合成模块。