CN103761064A - 自动语音输入系统及其方法 - Google Patents
自动语音输入系统及其方法 Download PDFInfo
- Publication number
- CN103761064A CN103761064A CN201310739222.0A CN201310739222A CN103761064A CN 103761064 A CN103761064 A CN 103761064A CN 201310739222 A CN201310739222 A CN 201310739222A CN 103761064 A CN103761064 A CN 103761064A
- Authority
- CN
- China
- Prior art keywords
- voice
- interruptions
- unit period
- punctuation mark
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 37
- 238000010586 diagram Methods 0.000 description 10
- 230000033764 rhythmic process Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000000630 rising effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000087 stabilizing effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
一种自动语音输入系统及其方法在此揭露。自动语音输入系统包含收音元件及语音辨识装置。收音元件用以取得语音;语音辨识装置包含录音元件及语音侦测元件;录音元件用以基于语音去储存数字信号数据;语音侦测元件用以根据数字信号数据,侦测语音于每一单位时段中的振幅及频谱,以判断语音的至少一中断处及中断处的标点符号。
Description
技术领域
本发明是有关于一种语音输入技术,且特别是有关于一种标点符号自动输入的自动语音输入系统及其方法。
背景技术
在讲求人机互动且运算芯片技术成熟的现今,自动语音输入技术已是目前系统产品所提供服务的发展重点之一,语音输入或语音辨识技术多半主要由隐马可夫模型为主流,利用语音数据所计算出的声纹特征线性以预估编码倒频谱矩阵,通过结果反推原因的机率,进而推论其语音的内容,进入到二十一世纪后,语音辨识技术陆续发展到加入前后文关系的判断方式,这也使得语音辨识的准确率大幅提升。然而,目前虽然语音输入的辨识能力已有不错的准确品质,但自动输入标点符号的功能仍有相当大的改良空间。
以微软推出的Windows7操作系统为例,其内建的语音输入服务在撰写文章或是在欲加入标点符号的场合时必须自行念出「逗号」、「句号」、「问号」或「点」等标点符号名称,使用起来相当不方便。除此之外,由前述可知,目前的语音辨识技术为了增加语音输入辨识结果的准确率,多半在计算模型中加入前后文判断的方式,但如此一来,若须自行念出标点符号名称以输入标点符号,则标点符号名称将容易与标点符号之外的语音文字混合,造成误判。例如:以语音输入方式念一段IP地址「192.168.40.3」时,其中的「.40.3」很容易被判断为「电视里电扇」;又例如欲输入「您好吗?不好意思」时,亦有可能得到「忙着问好不好」的结果,造成使用者在使用上的不便与困扰。
现行的自动语音输入技术须靠使用者自行念出标点符号名称以输入标点符号,且标点符号名称也容易与标点符号之外的语音文字混合,造成误判。因此,如何能利用语音侦测作为语音结尾、语音分段及顿挫的依据,利用频带能量分布状况作为语音扬升与否的依据,针对语音做结尾分析、顿挫分析及抑扬分析来自动判断标点符号,实属当前重要研发课题之一,亦成为当前相关领域极需改进的目标。
发明内容
本发明的一目的是在提供一种自动语音输入系统及自动语音输入方法,以解决先前技术的问题。
于一实施例中,本发明所提供的自动语音输入系统包含收音元件及语音辨识装置。收音元件用以取得语音;语音辨识装置包含录音元件及语音侦测元件;录音元件用以基于语音去储存数字信号数据;语音侦测元件用以根据数字信号数据,侦测语音于每一单位时段中的振幅及频谱,以判断语音的至少一中断处及中断处的一标点符号。
于一实施例中,当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时,则语音侦测元件判断语音是于单位时段为连续,当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时,则语音侦测元件判断语音是于该单位时段为中断并从而具有中断处。
于一实施例中,当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第一预设数量时,则语音侦测元件判断中断处的标点符号是逗号。
于上述实施例中,当中断处的标点符号是逗号时,语音侦测元件将中断处前后一预设时间所对应的数字信号数据中的数据转换成频谱,并计算频谱中超过一频率值的频带能量的标准差,当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时,则语音侦测元件将中断处的标点符号从逗号改成问号。
于一实施例中,当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第二预设数量时,则语音侦测元件判断中断处的标点符号是句号。
于一实施例中,本发明所提供的自动语音输入方法包含:取得语音;基于语音去储存数字信号数据;根据数字信号数据,侦测语音于每一单位时段中的振幅及频谱,以判断语音的至少一中断处及中断处的标点符号。
于一实施例中,当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时,则判断语音是于单位时段为连续,当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时,则判断语音是于单位时段为中断并从而具有中断处。
于一实施例中,当语音是于连续多个所述单位时段为中断且这些单位时段的连续数量达到第一预设数量时,则判断中断处的标点符号是逗号。
于上述实施例中,当中断处的标点符号是逗号时,将中断处前后一预设时间所对应的数字信号数据中的数据转换成频谱,并计算频谱中超过一频率值的频带能量的标准差,当频谱中超过此频率值的频带能量的标准差是背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时,则将中断处的标点符号从逗号改成问号。
于一实施例中,当语音是于连续多个单位时段为中断且这些单位时段的连续数量达到第二预设数量时,则判断中断处的标点符号是句号。
综上所述,本发明的技术方案与现有技术相比具有明显的优点和有益效果。通过上述技术方案,可达到相当的技术进步,并具有产业上的广泛利用价值,其优点是利用语音侦测作为语音结尾、语音分段及顿挫的依据,利用频带能量分布状况作为语音扬升与否的依据,针对语音做结尾分析、顿挫分析及抑扬分析来自动判断标点符号。
附图说明
为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:
图1是依照本发明一实施例的一种自动语音输入系统的方块图;
图2是依照本发明一实施例的一种自动语音输入系统的示意图;
图3是依照本发明另一实施例的一种自动语音输入系统的示意图;
图4是依照本发明一实施例的一种自动语音输入方法的流程图;
图5是依照本发明一实施例的一种自动语音输入方法的又一流程图;以及
图6是依照本发明一实施例的一种自动语音输入方法的另一流程图。
具体实施方式
为了使本发明的叙述更加详尽与完备,以下将以附图及详细说明清楚说明本发明的精神,任何所属技术领域中具有通常知识者在了解本发明的较佳实施例后,当可由本发明所教示的技术,加以改变及修饰,其并不脱离本发明的精神与范围。另一方面,众所周知的元件与步骤并未描述于实施例中,以避免对本发明造成不必要的限制。
图1是依照本发明一实施例的一种自动语音输入系统的方块图。如图1所示,于一实施例中,本发明所提供的自动语音输入系统包含收音元件110及语音辨识装置120。语音辨识装置120包含录音元件121及语音侦测元件122。在架构上,收音元件110耦接语音辨识装置120的录音元件121及语音侦测元件122,录音元件121耦接语音侦测元件122。实作上,收音元件110可为麦克风;录音元件121可为音效卡。语音侦测元件122的具体实施方式可为软件程序或硬件电路,熟悉此项技艺者应当视当时需要弹性选择其实施方式,而不需全为软件程序或全为硬件电路,可部分为软件程序或部分为硬件电路。
收音元件110用以取得语音。语音在空气中是以波的形式来传递,为类比信号。录音元件121用以基于语音去储存为数字信号数据;语音侦测元件122用以根据数字信号数据,侦测语音于每一单位时段(如:20毫秒)中的振幅及频谱,进行分析处理,以判断语音的中断处及中断处的标点符号。
图2是依照本发明一实施例的一种自动语音输入系统的示意图。如图1、图2所示,当收音元件110取得语音之后,会由语音侦测元件122侦测语音,进行语音的结尾分析、顿挫分析及抑扬分析。首先,语音侦测元件122会先比较语音的振幅和背景噪音的振幅来做结尾分析。录音元件121取得语音的环境会有所谓的环境音(Atmosphere Sound),当无语音状态时,录音元件121只会单纯收到环境音,当有语音状态时,录音元件121便会收到混有环境音的语音。是故把环境音视为背景噪音,将每个单位时段(如:20毫秒)中语音的振幅与背景噪音的振幅做比较,便可据以判断一段语音中的各个中断处。于一实施例中,当语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍时,则语音侦测元件122判断语音是于单位时段为连续;当语音的振幅于单位时段中低于背景噪音的平均振幅的1.5倍时,则语音侦测元件122判断语音是于该单位时段为中断并从而具有中断处。
于一实施例中,当语音是于连续多个单位时段为中断,且这些单位时段的连续数量达到第一预设数量(如:5)时,则语音侦测元件122判断中断处的标点符号是逗号。举例而言,若前80毫秒有语音,接下来的100毫秒无语音,则判断将无语音的起始点为语音的中断处,至于下一段落的前100毫秒无语音,但接下来的80毫秒有语音,则开始有语音的时间点即为语音中断的结束。当语音中断维持的时间超过5个单位时段(即100毫秒),中断处可视为是语音的段落与段落间的转折承接处,则语音侦测元件122判断中断处的标点符号是逗号,并进入抑扬分析;若语音中断维持的时间并未超过5个单位时段时,中断处可能只是语音中非段落结尾的停顿,例如提供语音的使用者在说话时的迟疑语气,则语音侦测元件122不针对此中断处判断标点符号。
问句与一般句的差别在于高频区的能量分布,此处的高频区定义为超过4000Hz的频带,可将各段落分别进行频谱分析,比较各段落的尾音及背景噪音在高频区的频带能量,以分辨各段落为一般句或是问句。当段落为一般句时,中断处的标点符号即维持逗号;当段落为问句时,中断处的标点符号便由逗号改为问号。于上述实施例中,当中断处的标点符号是逗号时,语音侦测元件122将中断处前后一预设时间(如:100毫秒)所对应的数字信号数据221中的数据转换成频谱,并计算频谱中超过一频率值(如:4000Hz)的频带能量的标准差。当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中超过此频率值的频带能量的标准差的1.5倍时,则语音侦测元件122判断中断处前的段落尾音为扬升状态,会自动将中断处的逗号改成加入问号;当频谱中超过此频率值的频带能量的标准差是该背景噪音的噪音频谱中未超过此频率值的频带能量的标准差的1.5倍时,则语音侦测元件122判断中断处前的段落尾音为平抑状态,会维持中断处的逗号。
于一实施例中,当语音侦测元件122透过频谱分析侦测到中断处前后的语音段落的扬声平仄状态为相同时,中断处前后的语音段落可能为对称句,则语音侦测元件122判断中断处的标点符号为分号。
于一实施例中,语音侦测元件122侦测语音的振幅及频谱,当语音的振幅于某个单位时段中高于其他有语音状态时的语音振幅,即代表语音于某个单位时段中的音量是特别大的,则语音侦测元件122判断中断处的标点符号为惊叹号。
倘若语音为单纯输入IP地址(如:140.116.6.12)的状况,则语音侦测元件122不需判断逗号与句号的分别,仅需进行结尾分析及顿挫分析,并在取得各段落的中断处后,于中断处加入「.」。图3是依照本发明另一实施例的一种自动语音输入系统的示意图。如图1、图3所示,当收音元件110取得语音之后,会由语音侦测元件122侦测语音,当语音侦测元件122侦测到语音中均为数字时,会判断语音内容为IP地址,由于只需判断语音的结尾及中断处,故仅进行语音的结尾分析及顿挫分析。首先,语音侦测元件122会先比较语音的振幅和背景噪音的振幅来做结尾分析,若超过600毫秒未有语音状态产生,则录音元件121会中断录音,不需要于结尾加上任何标点符号,进入顿挫分析。语音侦测元件122会再判断语音是否有中断100毫秒以上的情况,若有,则判定为分段点,加入「.」。
图4是依照本发明一实施例的一种自动语音输入方法的流程图。如图4所示,本发明所提供的自动语音输入方法包含步骤410~470(应了解到,在本实施例中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行)。于步骤410中,先取得语音,基于语音去储存数字信号数据;于步骤420~470中,根据数字信号数据,侦测语音于每一单位时段中的振幅及频谱,以判断语音的至少一中断处及中断处的标点符号。
于步骤420中,先比较语音的振幅和背景噪音的振幅来做结尾分析。于步骤430中,若超过600毫秒未有语音状态产生,则中断录音,且自动于结尾加上句号。于步骤440中,进入顿挫分析。于每一单位时段做分析,若前80毫秒有语音,接下来的100毫秒无语音,则判断将无语音的起始点为语音的中断处,至于下一段落的前100毫秒无语音,但接下来的80毫秒有语音,则开始有语音的时间点即为语音中断的结束,于步骤450中,自动于中断处加上逗号。于步骤460中,进入抑扬分析;对中断处前后100毫秒于超过4000HZ的高频区的频谱能量进行频谱分析,比较中断处前100毫秒的段落尾音于超过4000HZ高频区的频谱能量的标准差,以及中断处后100毫秒的背景噪音于超过4000HZ高频区的频谱能量的标准差,用以针对每一段落做语音辨识;当段落尾音的标准差超过背景噪音的标准差的1.5倍时,则判断中断处前的段落尾音为扬升状态,会自动于中断处加入问号,若无此状况,则判断中断处前的段落尾音为平抑状态,会维持中断处的逗号。
图5是依照本发明一实施例的一种自动语音输入方法的又一流程图。如图5所示,于步骤510中,先取得语音。于步骤520中,将语音录音并储存为数字信号数据。接下来进入结尾分析的步骤(如图4中步骤420所示),判断语音的结尾处。于步骤530中,判断语音的振幅于单位时段中为背景噪音的平均振幅的1.5倍。当语音的振幅于单位时段中并未达到背景噪音的平均振幅的1.5倍时,则判断语音是于单位时段为中断,并具有中断处。当语音的振幅于单位时段中达到背景噪音的平均振幅的1.5倍时,代表语音并未中断,但仍需从单位时段中的各语音取样点是否均超过背景噪音的平均振幅的1.5倍,还判断语音是否为连续的。于步骤540中,判断语音的振幅于单位时段中的各语音取样点是否均超过背景噪音的平均振幅的1.5倍,倘若有,则可判定语音为连续的,继续回到步骤530;倘若没有,则可判断语音是于单位时段为中断,并具有中断处。
中断处可能为语音的段落或是结尾处,所以可通过中断的时间长短来判断。于步骤550中,判断中断的单位时段(如:20毫秒)的连续数量是否有达到第一预设数量(如:5)。当中断的单位时段的连续数量有达到第一预设数量时,即语音中断的时间达100毫秒,则于步骤560中继续判断中断的单位时段的连续数量是否有达到第二预设数量(如:30)。当中断的单位时段的连续数量有达到第二预设数量时,即语音中断的时间达600毫秒,则停止录音,于步骤570中,判断此语音的中断处的标点符号为句号(如图4中步骤430所示)。于步骤550中,当中断的单位时段的连续数量经判断未达到第一预设数量时,即语音中断的时间未达100毫秒,于步骤580中,判断此语音的中断处的标点符号为逗号(如图4中步骤450所示)。于步骤590中,进入语音的抑扬分析(如图4中步骤460所示)。
图6是依照本发明一实施例的一种自动语音输入方法的另一流程图。如图6所示,于步骤610中,将中断处所对应的数字信号数据的数据转换成频谱。于步骤620中,对中断处前后一短段时间(如:100毫秒)于超过4000HZ的高频区的频谱能量进行频谱分析。于步骤630中,比较中断处前100毫秒的段落尾音于超过4000HZ高频区的频谱能量的标准差,以及中断处后100毫秒的背景噪音于超过4000HZ高频区的频谱能量的标准差,用以针对每一段落做语音辨识。当段落尾音的标准差未超过背景噪音的标准差的1.5倍时,则判断中断处前的段落尾音为平抑状态,于步骤640中,维持中断处的逗号。当段落尾音的标准差超过背景噪音的标准差的1.5倍时,则判断中断处前的段落尾音为扬升状态,于步骤650中,自动将中断处的逗号改成加入问号。
虽然本发明已以实施方式揭露如上,然其并非用以限定本发明,任何熟悉此技艺者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视所附的权利要求书所界定的范围为准。
Claims (10)
1.一种自动语音输入系统,其特征在于,包含:
一收音元件,用以取得一语音;以及
一语音辨识装置,包含:一录音元件,用以基于该语音去储存一数字信号数据;以及一语音侦测元件,用以根据该数字信号数据,侦测该语音于每一单位时段中的振幅及频谱,以判断该语音的至少一中断处及该中断处的一标点符号。
2.根据权利要求1所述的自动语音输入系统,其特征在于,当该语音的振幅于该单位时段中为一背景噪音的平均振幅的1.5倍时,则该语音侦测元件判断该语音是于该单位时段为连续,当该语音的振幅于该单位时段中低于该背景噪音的平均振幅的1.5倍时,则该语音侦测元件判断该语音是于该单位时段为中断并从而具有该中断处。
3.根据权利要求2所述的自动语音输入系统,其特征在于,当该语音是于连续多个该单位时段为中断且所述单位时段的连续数量达到一第一预设数量时,则该语音侦测元件判断该中断处的该标点符号是一逗号。
4.根据权利要求3所述的自动语音输入系统,其特征在于,当该中断处的该标点符号是该逗号时,该语音侦测元件将该中断处前后一预设时间所对应的该数字信号数据中的数据转换成频谱,并计算该频谱中超过一频率值的频带能量的标准差,当该频谱中超过该频率值的频带能量的标准差是该背景噪音的噪音频谱中超过该频率值的频带能量的标准差的1.5倍时,则该语音侦测元件将该中断处的该标点符号从该逗号改成一问号。
5.根据权利要求2所述的自动语音输入系统,其特征在于,当该语音是于连续所述单位时段为中断且所述单位时段的连续数量达到一第二预设数量时,则该语音侦测元件判断该中断处的该标点符号是一句号。
6.一种自动语音输入方法,其特征在于,包含:
取得一语音;
基于该语音去储存一数字信号数据;
根据该数字信号数据,侦测该语音于每一单位时段中的振幅及频谱,以判断该语音的至少一中断处及该中断处的一标点符号。
7.根据权利要求6所述的自动语音输入方法,其特征在于,当该语音的振幅于该单位时段中为一背景噪音的平均振幅的1.5倍时,则判断该语音是于该单位时段为连续,当该语音的振幅于该单位时段中低于该背景噪音的平均振幅的1.5倍时,则判断该语音是于该单位时段为中断并从而具有该中断处。
8.根据权利要求7所述的自动语音输入方法,其特征在于,当该语音是于连续多个所述单位时段为中断且所述单位时段的连续数量达到一第一预设数量时,则判断该中断处的该标点符号是一逗号。
9.根据权利要求8所述的自动语音输入方法,其特征在于,当该中断处的该标点符号是该逗号时,将该中断处前后一预设时间所对应的该数字信号数据中的数据转换成频谱,并计算该频谱中超过一频率值的频带能量的标准差,当该频谱中超过该频率值的频带能量的标准差是该背景噪音的噪音频谱中超过该频率值的频带能量的标准差的1.5倍时,则将该中断处的该标点符号从该逗号改成一问号。
10.根据权利要求7所述的自动语音输入方法,其特征在于,当该语音是于连续所述单位时段为中断且所述单位时段的连续数量达到一第二预设数量时,则判断该中断处的该标点符号是一句号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310739222.0A CN103761064A (zh) | 2013-12-27 | 2013-12-27 | 自动语音输入系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310739222.0A CN103761064A (zh) | 2013-12-27 | 2013-12-27 | 自动语音输入系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103761064A true CN103761064A (zh) | 2014-04-30 |
Family
ID=50528309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310739222.0A Pending CN103761064A (zh) | 2013-12-27 | 2013-12-27 | 自动语音输入系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761064A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
CN106886364A (zh) * | 2017-02-14 | 2017-06-23 | 深圳市金立通信设备有限公司 | 一种基于语音识别的文本处理方法及终端 |
CN109215640A (zh) * | 2017-06-30 | 2019-01-15 | 深圳大森智能科技有限公司 | 语音识别方法、智能终端及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN86101508A (zh) * | 1986-06-28 | 1988-01-06 | 施国梁 | 语言计算机 |
US20040138881A1 (en) * | 2002-11-22 | 2004-07-15 | Olivier Divay | Automatic insertion of non-verbalized punctuation |
CN1945693A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
CN101206898A (zh) * | 2006-12-22 | 2008-06-25 | 微星科技股份有限公司 | 自动断句的复读装置与复读方法 |
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
-
2013
- 2013-12-27 CN CN201310739222.0A patent/CN103761064A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN86101508A (zh) * | 1986-06-28 | 1988-01-06 | 施国梁 | 语言计算机 |
US20040138881A1 (en) * | 2002-11-22 | 2004-07-15 | Olivier Divay | Automatic insertion of non-verbalized punctuation |
CN1945693A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
CN101206898A (zh) * | 2006-12-22 | 2008-06-25 | 微星科技股份有限公司 | 自动断句的复读装置与复读方法 |
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
WO2018053964A1 (zh) * | 2016-09-20 | 2018-03-29 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
CN106886364A (zh) * | 2017-02-14 | 2017-06-23 | 深圳市金立通信设备有限公司 | 一种基于语音识别的文本处理方法及终端 |
CN109215640A (zh) * | 2017-06-30 | 2019-01-15 | 深圳大森智能科技有限公司 | 语音识别方法、智能终端及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
CN109147765B (zh) | 音频质量综合评测方法及系统 | |
US6321197B1 (en) | Communication device and method for endpointing speech utterances | |
EP0077194B1 (en) | Speech recognition system | |
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
CN108172242B (zh) | 一种改进的蓝牙智能云音箱语音交互端点检测方法 | |
EP3089158A1 (en) | Speech recognition processing device, speech recognition processing method and display device | |
CN100520911C (zh) | 语音引导装置以及具有该语音引导装置的导航装置 | |
US20110276329A1 (en) | Speech dialogue apparatus, dialogue control method, and dialogue control program | |
US9691389B2 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
CN109697981B (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN105706167B (zh) | 有语音的话音检测方法和装置 | |
CN103871416B (zh) | 语音处理设备及语音处理方法 | |
CN103761064A (zh) | 自动语音输入系统及其方法 | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN117577098B (zh) | 一种卫星宽带短报文通信的语音通信方法及系统 | |
JPWO2018016143A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2021136298A1 (zh) | 一种语音处理方法、装置、智能设备及存储介质 | |
FI117953B (fi) | Äänisignaalin käsittelylaite | |
CN104078076A (zh) | 一种语音录入方法及系统 | |
TWI299855B (en) | Detection method for voice activity endpoint | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
CN113096651A (zh) | 语音信号处理方法、装置、可读存储介质及电子设备 | |
CN113129904B (zh) | 声纹判定方法、装置、系统、设备和存储介质 | |
CN113270099B (zh) | 智能语音提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140430 |