CN103761064A

CN103761064A - 自动语音输入系统及其方法

Info

Publication number: CN103761064A
Application number: CN201310739222.0A
Authority: CN
Inventors: 郭彦闵; 林立研
Original assignee: Aver Information Inc
Current assignee: Aver Information Inc
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2014-04-30

Abstract

一种自动语音输入系统及其方法在此揭露。自动语音输入系统包含收音元件及语音辨识装置。收音元件用以取得语音；语音辨识装置包含录音元件及语音侦测元件；录音元件用以基于语音去储存数字信号数据；语音侦测元件用以根据数字信号数据，侦测语音于每一单位时段中的振幅及频谱，以判断语音的至少一中断处及中断处的标点符号。

Description

自动语音输入系统及其方法

技术领域

本发明是有关于一种语音输入技术，且特别是有关于一种标点符号自动输入的自动语音输入系统及其方法。

背景技术

在讲求人机互动且运算芯片技术成熟的现今，自动语音输入技术已是目前系统产品所提供服务的发展重点之一，语音输入或语音辨识技术多半主要由隐马可夫模型为主流，利用语音数据所计算出的声纹特征线性以预估编码倒频谱矩阵，通过结果反推原因的机率，进而推论其语音的内容，进入到二十一世纪后，语音辨识技术陆续发展到加入前后文关系的判断方式，这也使得语音辨识的准确率大幅提升。然而，目前虽然语音输入的辨识能力已有不错的准确品质，但自动输入标点符号的功能仍有相当大的改良空间。

以微软推出的Windows7操作系统为例，其内建的语音输入服务在撰写文章或是在欲加入标点符号的场合时必须自行念出「逗号」、「句号」、「问号」或「点」等标点符号名称，使用起来相当不方便。除此之外，由前述可知，目前的语音辨识技术为了增加语音输入辨识结果的准确率，多半在计算模型中加入前后文判断的方式，但如此一来，若须自行念出标点符号名称以输入标点符号，则标点符号名称将容易与标点符号之外的语音文字混合，造成误判。例如：以语音输入方式念一段IP地址「192.168.40.3」时，其中的「.40.3」很容易被判断为「电视里电扇」；又例如欲输入「您好吗？不好意思」时，亦有可能得到「忙着问好不好」的结果，造成使用者在使用上的不便与困扰。

现行的自动语音输入技术须靠使用者自行念出标点符号名称以输入标点符号，且标点符号名称也容易与标点符号之外的语音文字混合，造成误判。因此，如何能利用语音侦测作为语音结尾、语音分段及顿挫的依据，利用频带能量分布状况作为语音扬升与否的依据，针对语音做结尾分析、顿挫分析及抑扬分析来自动判断标点符号，实属当前重要研发课题之一，亦成为当前相关领域极需改进的目标。

发明内容

本发明的一目的是在提供一种自动语音输入系统及自动语音输入方法，以解决先前技术的问题。

于一实施例中，本发明所提供的自动语音输入系统包含收音元件及语音辨识装置。收音元件用以取得语音；语音辨识装置包含录音元件及语音侦测元件；录音元件用以基于语音去储存数字信号数据；语音侦测元件用以根据数字信号数据，侦测语音于每一单位时段中的振幅及频谱，以判断语音的至少一中断处及中断处的一标点符号。

于一实施例中，当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时，则语音侦测元件判断语音是于单位时段为连续，当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时，则语音侦测元件判断语音是于该单位时段为中断并从而具有中断处。

于一实施例中，当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第一预设数量时，则语音侦测元件判断中断处的标点符号是逗号。

于上述实施例中，当中断处的标点符号是逗号时，语音侦测元件将中断处前后一预设时间所对应的数字信号数据中的数据转换成频谱，并计算频谱中超过一频率值的频带能量的标准差，当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时，则语音侦测元件将中断处的标点符号从逗号改成问号。

于一实施例中，当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第二预设数量时，则语音侦测元件判断中断处的标点符号是句号。

于一实施例中，本发明所提供的自动语音输入方法包含：取得语音；基于语音去储存数字信号数据；根据数字信号数据，侦测语音于每一单位时段中的振幅及频谱，以判断语音的至少一中断处及中断处的标点符号。

于一实施例中，当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时，则判断语音是于单位时段为连续，当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时，则判断语音是于单位时段为中断并从而具有中断处。

于一实施例中，当语音是于连续多个所述单位时段为中断且这些单位时段的连续数量达到第一预设数量时，则判断中断处的标点符号是逗号。

于上述实施例中，当中断处的标点符号是逗号时，将中断处前后一预设时间所对应的数字信号数据中的数据转换成频谱，并计算频谱中超过一频率值的频带能量的标准差，当频谱中超过此频率值的频带能量的标准差是背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时，则将中断处的标点符号从逗号改成问号。

于一实施例中，当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第二预设数量时，则判断中断处的标点符号是句号。

综上所述，本发明的技术方案与现有技术相比具有明显的优点和有益效果。通过上述技术方案，可达到相当的技术进步，并具有产业上的广泛利用价值，其优点是利用语音侦测作为语音结尾、语音分段及顿挫的依据，利用频带能量分布状况作为语音扬升与否的依据，针对语音做结尾分析、顿挫分析及抑扬分析来自动判断标点符号。

附图说明

为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂，所附附图的说明如下：

图1是依照本发明一实施例的一种自动语音输入系统的方块图；

图2是依照本发明一实施例的一种自动语音输入系统的示意图；

图3是依照本发明另一实施例的一种自动语音输入系统的示意图；

图4是依照本发明一实施例的一种自动语音输入方法的流程图；

图5是依照本发明一实施例的一种自动语音输入方法的又一流程图；以及

图6是依照本发明一实施例的一种自动语音输入方法的另一流程图。

具体实施方式

为了使本发明的叙述更加详尽与完备，以下将以附图及详细说明清楚说明本发明的精神，任何所属技术领域中具有通常知识者在了解本发明的较佳实施例后，当可由本发明所教示的技术，加以改变及修饰，其并不脱离本发明的精神与范围。另一方面，众所周知的元件与步骤并未描述于实施例中，以避免对本发明造成不必要的限制。

图1是依照本发明一实施例的一种自动语音输入系统的方块图。如图1所示，于一实施例中，本发明所提供的自动语音输入系统包含收音元件110及语音辨识装置120。语音辨识装置120包含录音元件121及语音侦测元件122。在架构上，收音元件110耦接语音辨识装置120的录音元件121及语音侦测元件122，录音元件121耦接语音侦测元件122。实作上，收音元件110可为麦克风；录音元件121可为音效卡。语音侦测元件122的具体实施方式可为软件程序或硬件电路，熟悉此项技艺者应当视当时需要弹性选择其实施方式，而不需全为软件程序或全为硬件电路，可部分为软件程序或部分为硬件电路。

收音元件110用以取得语音。语音在空气中是以波的形式来传递，为类比信号。录音元件121用以基于语音去储存为数字信号数据；语音侦测元件122用以根据数字信号数据，侦测语音于每一单位时段（如：20毫秒）中的振幅及频谱，进行分析处理，以判断语音的中断处及中断处的标点符号。

图2是依照本发明一实施例的一种自动语音输入系统的示意图。如图1、图2所示，当收音元件110取得语音之后，会由语音侦测元件122侦测语音，进行语音的结尾分析、顿挫分析及抑扬分析。首先，语音侦测元件122会先比较语音的振幅和背景噪音的振幅来做结尾分析。录音元件121取得语音的环境会有所谓的环境音（Atmosphere Sound），当无语音状态时，录音元件121只会单纯收到环境音，当有语音状态时，录音元件121便会收到混有环境音的语音。是故把环境音视为背景噪音，将每个单位时段（如：20毫秒）中语音的振幅与背景噪音的振幅做比较，便可据以判断一段语音中的各个中断处。于一实施例中，当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时，则语音侦测元件122判断语音是于单位时段为连续；当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时，则语音侦测元件122判断语音是于该单位时段为中断并从而具有中断处。

于一实施例中，当语音是于连续多个单位时段为中断，且这些单位时段的连续数量达到第一预设数量（如：5）时，则语音侦测元件122判断中断处的标点符号是逗号。举例而言，若前80毫秒有语音，接下来的100毫秒无语音，则判断将无语音的起始点为语音的中断处，至于下一段落的前100毫秒无语音，但接下来的80毫秒有语音，则开始有语音的时间点即为语音中断的结束。当语音中断维持的时间超过5个单位时段（即100毫秒），中断处可视为是语音的段落与段落间的转折承接处，则语音侦测元件122判断中断处的标点符号是逗号，并进入抑扬分析；若语音中断维持的时间并未超过5个单位时段时，中断处可能只是语音中非段落结尾的停顿，例如提供语音的使用者在说话时的迟疑语气，则语音侦测元件122不针对此中断处判断标点符号。

问句与一般句的差别在于高频区的能量分布，此处的高频区定义为超过4000Hz的频带，可将各段落分别进行频谱分析，比较各段落的尾音及背景噪音在高频区的频带能量，以分辨各段落为一般句或是问句。当段落为一般句时，中断处的标点符号即维持逗号；当段落为问句时，中断处的标点符号便由逗号改为问号。于上述实施例中，当中断处的标点符号是逗号时，语音侦测元件122将中断处前后一预设时间（如：100毫秒）所对应的数字信号数据221中的数据转换成频谱，并计算频谱中超过一频率值（如：4000Hz）的频带能量的标准差。当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时，则语音侦测元件122判断中断处前的段落尾音为扬升状态，会自动将中断处的逗号改成加入问号；当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中未超过此频率值的频带能量的标准差的1.5倍时，则语音侦测元件122判断中断处前的段落尾音为平抑状态，会维持中断处的逗号。

于一实施例中，当语音侦测元件122透过频谱分析侦测到中断处前后的语音段落的扬声平仄状态为相同时，中断处前后的语音段落可能为对称句，则语音侦测元件122判断中断处的标点符号为分号。

于一实施例中，语音侦测元件122侦测语音的振幅及频谱，当语音的振幅于某个单位时段中高于其他有语音状态时的语音振幅，即代表语音于某个单位时段中的音量是特别大的，则语音侦测元件122判断中断处的标点符号为惊叹号。

倘若语音为单纯输入IP地址（如：140.116.6.12）的状况，则语音侦测元件122不需判断逗号与句号的分别，仅需进行结尾分析及顿挫分析，并在取得各段落的中断处后，于中断处加入「.」。图3是依照本发明另一实施例的一种自动语音输入系统的示意图。如图1、图3所示，当收音元件110取得语音之后，会由语音侦测元件122侦测语音，当语音侦测元件122侦测到语音中均为数字时，会判断语音内容为IP地址，由于只需判断语音的结尾及中断处，故仅进行语音的结尾分析及顿挫分析。首先，语音侦测元件122会先比较语音的振幅和背景噪音的振幅来做结尾分析，若超过600毫秒未有语音状态产生，则录音元件121会中断录音，不需要于结尾加上任何标点符号，进入顿挫分析。语音侦测元件122会再判断语音是否有中断100毫秒以上的情况，若有，则判定为分段点，加入「.」。

图4是依照本发明一实施例的一种自动语音输入方法的流程图。如图4所示，本发明所提供的自动语音输入方法包含步骤410～470（应了解到，在本实施例中所提及的步骤，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行）。于步骤410中，先取得语音，基于语音去储存数字信号数据；于步骤420～470中，根据数字信号数据，侦测语音于每一单位时段中的振幅及频谱，以判断语音的至少一中断处及中断处的标点符号。

于步骤420中，先比较语音的振幅和背景噪音的振幅来做结尾分析。于步骤430中，若超过600毫秒未有语音状态产生，则中断录音，且自动于结尾加上句号。于步骤440中，进入顿挫分析。于每一单位时段做分析，若前80毫秒有语音，接下来的100毫秒无语音，则判断将无语音的起始点为语音的中断处，至于下一段落的前100毫秒无语音，但接下来的80毫秒有语音，则开始有语音的时间点即为语音中断的结束，于步骤450中，自动于中断处加上逗号。于步骤460中，进入抑扬分析；对中断处前后100毫秒于超过4000HZ的高频区的频谱能量进行频谱分析，比较中断处前100毫秒的段落尾音于超过4000HZ高频区的频谱能量的标准差，以及中断处后100毫秒的背景噪音于超过4000HZ高频区的频谱能量的标准差，用以针对每一段落做语音辨识；当段落尾音的标准差超过背景噪音的标准差的1.5倍时，则判断中断处前的段落尾音为扬升状态，会自动于中断处加入问号，若无此状况，则判断中断处前的段落尾音为平抑状态，会维持中断处的逗号。

图5是依照本发明一实施例的一种自动语音输入方法的又一流程图。如图5所示，于步骤510中，先取得语音。于步骤520中，将语音录音并储存为数字信号数据。接下来进入结尾分析的步骤（如图4中步骤420所示），判断语音的结尾处。于步骤530中，判断语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍。当语音的振幅于单位时段中并未达到背景噪音的平均振幅的1.5倍时，则判断语音是于单位时段为中断，并具有中断处。当语音的振幅于单位时段中达到背景噪音的平均振幅的1.5倍时，代表语音并未中断，但仍需从单位时段中的各语音取样点是否均超过背景噪音的平均振幅的1.5倍，还判断语音是否为连续的。于步骤540中，判断语音的振幅于单位时段中的各语音取样点是否均超过背景噪音的平均振幅的1.5倍，倘若有，则可判定语音为连续的，继续回到步骤530；倘若没有，则可判断语音是于单位时段为中断，并具有中断处。

中断处可能为语音的段落或是结尾处，所以可通过中断的时间长短来判断。于步骤550中，判断中断的单位时段（如：20毫秒）的连续数量是否有达到第一预设数量（如：5）。当中断的单位时段的连续数量有达到第一预设数量时，即语音中断的时间达100毫秒，则于步骤560中继续判断中断的单位时段的连续数量是否有达到第二预设数量（如：30）。当中断的单位时段的连续数量有达到第二预设数量时，即语音中断的时间达600毫秒，则停止录音，于步骤570中，判断此语音的中断处的标点符号为句号（如图4中步骤430所示）。于步骤550中，当中断的单位时段的连续数量经判断未达到第一预设数量时，即语音中断的时间未达100毫秒，于步骤580中，判断此语音的中断处的标点符号为逗号（如图4中步骤450所示）。于步骤590中，进入语音的抑扬分析（如图4中步骤460所示）。

图6是依照本发明一实施例的一种自动语音输入方法的另一流程图。如图6所示，于步骤610中，将中断处所对应的数字信号数据的数据转换成频谱。于步骤620中，对中断处前后一短段时间（如：100毫秒）于超过4000HZ的高频区的频谱能量进行频谱分析。于步骤630中，比较中断处前100毫秒的段落尾音于超过4000HZ高频区的频谱能量的标准差，以及中断处后100毫秒的背景噪音于超过4000HZ高频区的频谱能量的标准差，用以针对每一段落做语音辨识。当段落尾音的标准差未超过背景噪音的标准差的1.5倍时，则判断中断处前的段落尾音为平抑状态，于步骤640中，维持中断处的逗号。当段落尾音的标准差超过背景噪音的标准差的1.5倍时，则判断中断处前的段落尾音为扬升状态，于步骤650中，自动将中断处的逗号改成加入问号。

虽然本发明已以实施方式揭露如上，然其并非用以限定本发明，任何熟悉此技艺者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰，因此本发明的保护范围当视所附的权利要求书所界定的范围为准。

Claims

1.一种自动语音输入系统，其特征在于，包含：

一收音元件，用以取得一语音；以及

一语音辨识装置，包含：一录音元件，用以基于该语音去储存一数字信号数据；以及一语音侦测元件，用以根据该数字信号数据，侦测该语音于每一单位时段中的振幅及频谱，以判断该语音的至少一中断处及该中断处的一标点符号。

2.根据权利要求1所述的自动语音输入系统，其特征在于，当该语音的振幅于该单位时段中为一背景噪音的平均振幅的1.5倍时，则该语音侦测元件判断该语音是于该单位时段为连续，当该语音的振幅于该单位时段中低于该背景噪音的平均振幅的1.5倍时，则该语音侦测元件判断该语音是于该单位时段为中断并从而具有该中断处。

3.根据权利要求2所述的自动语音输入系统，其特征在于，当该语音是于连续多个该单位时段为中断且所述单位时段的连续数量达到一第一预设数量时，则该语音侦测元件判断该中断处的该标点符号是一逗号。

4.根据权利要求3所述的自动语音输入系统，其特征在于，当该中断处的该标点符号是该逗号时，该语音侦测元件将该中断处前后一预设时间所对应的该数字信号数据中的数据转换成频谱，并计算该频谱中超过一频率值的频带能量的标准差，当该频谱中超过该频率值的频带能量的标准差是该背景噪音的噪音频谱中超过该频率值的频带能量的标准差的1.5倍时，则该语音侦测元件将该中断处的该标点符号从该逗号改成一问号。

5.根据权利要求2所述的自动语音输入系统，其特征在于，当该语音是于连续所述单位时段为中断且所述单位时段的连续数量达到一第二预设数量时，则该语音侦测元件判断该中断处的该标点符号是一句号。

6.一种自动语音输入方法，其特征在于，包含：

取得一语音；

基于该语音去储存一数字信号数据；

根据该数字信号数据，侦测该语音于每一单位时段中的振幅及频谱，以判断该语音的至少一中断处及该中断处的一标点符号。

7.根据权利要求6所述的自动语音输入方法，其特征在于，当该语音的振幅于该单位时段中为一背景噪音的平均振幅的1.5倍时，则判断该语音是于该单位时段为连续，当该语音的振幅于该单位时段中低于该背景噪音的平均振幅的1.5倍时，则判断该语音是于该单位时段为中断并从而具有该中断处。

8.根据权利要求7所述的自动语音输入方法，其特征在于，当该语音是于连续多个所述单位时段为中断且所述单位时段的连续数量达到一第一预设数量时，则判断该中断处的该标点符号是一逗号。

9.根据权利要求8所述的自动语音输入方法，其特征在于，当该中断处的该标点符号是该逗号时，将该中断处前后一预设时间所对应的该数字信号数据中的数据转换成频谱，并计算该频谱中超过一频率值的频带能量的标准差，当该频谱中超过该频率值的频带能量的标准差是该背景噪音的噪音频谱中超过该频率值的频带能量的标准差的1.5倍时，则将该中断处的该标点符号从该逗号改成一问号。

10.根据权利要求7所述的自动语音输入方法，其特征在于，当该语音是于连续所述单位时段为中断且所述单位时段的连续数量达到一第二预设数量时，则判断该中断处的该标点符号是一句号。