CN113393840B - 一种基于语音识别的移动终端控制系统及方法 - Google Patents

一种基于语音识别的移动终端控制系统及方法 Download PDF

Info

Publication number
CN113393840B
CN113393840B CN202110944270.8A CN202110944270A CN113393840B CN 113393840 B CN113393840 B CN 113393840B CN 202110944270 A CN202110944270 A CN 202110944270A CN 113393840 B CN113393840 B CN 113393840B
Authority
CN
China
Prior art keywords
recognized
voice
voice information
information
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110944270.8A
Other languages
English (en)
Other versions
CN113393840A (zh
Inventor
高健力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuoguangda Microelectronics Shenzhen Co ltd
Original Assignee
Shuoguangda Microelectronics Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuoguangda Microelectronics Shenzhen Co ltd filed Critical Shuoguangda Microelectronics Shenzhen Co ltd
Priority to CN202110944270.8A priority Critical patent/CN113393840B/zh
Publication of CN113393840A publication Critical patent/CN113393840A/zh
Application granted granted Critical
Publication of CN113393840B publication Critical patent/CN113393840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于语音识别的移动终端控制系统及方法,涉及语音识别技术领域,获取第一待识别语音信息;根据所获取的第一待识别语音信息判断停顿时长和语音时长;若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长,则获取第二待识别语音信息;获取第二待识别语音信息,判断第二待识别语音信息与第一待识别语音的关联度;若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度,则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长;若所述第一待识别语音信息停顿时长大于第二预设停顿时长,则无法识别语音信息,从而能够使得智能终端能够清楚识别语音信号,不会导致识别中途中断。

Description

一种基于语音识别的移动终端控制系统及方法
技术领域
本发明涉及语音识别技术领域,具体为一种基于语音识别的移动终端控制系统及方法。
背景技术
语音识别技术,利用其开发方法和技术来识别计算机的语言或者文本。目前所使用的语音识别技术在识别人的语音时,在人说话产生停顿时,就不会再去识别;因此,现有的语音识别技术并不精确,容易导致在语音识别到一半的情况下停下来;
通过改进技术来识别语音断句时,需要分析识别语音含有的停顿时间是否在预设值范围内,当检测到停顿时间不在预设长度范围内时,则无法识别语句中的断句;使用例如上式方法对断句进行识别并不精确,由于人说话时是需要经过思考,因此讲话时的停顿是不固定的,通过上述方法来识别语音是并不精确的;
现有一种语音识别方法,申请号为201910745022.3中通过识别第一待处理语音信息获取停顿时长,根据说话时的语速分析应该给予第二段的时长,能够给予人们足够的反应时间使得智能终端识别,但是在识别的过程中,并不能判断出当前所识别的第一语音信息和第二语音信息是否具备关联度,无法让智能终端了解到识别的是处理同一个关键词还是多个关键词,处理的效率并不高。因此,需要对此技术进行改进。
发明内容
本发明的目的在于提供一种基于语音识别的移动终端控制系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于语音识别的移动终端控制方法,该方法包括:
获取第一待识别语音信息;
根据所获取的第一待识别语音信息判断停顿时长和语音时长;
若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长,则获取第二待识别语音信息;
获取第二待识别语音信息,判断第二待识别语音信息与第一待识别语音的关联度;
若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度,则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长;
若所述第一待识别语音信息停顿时长大于第二预设停顿时长,则无法识别语音信息。
进一步的,所述第二待识别语音信息与第一待识别语音信息的关联度具体如下:
根据第一待识别语音信息,分析语音信息中所存在的关键词,标记关键词在第一待识别语音信息中的位置,判断距离关键词所在位置的最接近位置是否存在停顿时长,若存在停顿时长,则判断第二待识别语音信息中是否包括有与关键词相关联的完整关键词;
将第一待识别语音信息中的原关键词数据设定为向量值
Figure 794313DEST_PATH_IMAGE001
,将第二待识别语音信息中存在的完整关键词设定为向量
Figure 866174DEST_PATH_IMAGE002
并与在原关键词后触发数据库中的关键词向量
Figure 916169DEST_PATH_IMAGE003
相比对,m是指数据项;
Figure 516915DEST_PATH_IMAGE004
指第m个关键词向量;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 652361DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 527913DEST_PATH_IMAGE005
完全相等,表示第一待识别语音信息中的原关键词向量
Figure 432415DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 735221DEST_PATH_IMAGE002
的相关度高;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 92384DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 506048DEST_PATH_IMAGE005
不相等,表示第一待识别语音信息中的原关键词向量
Figure 592952DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 942025DEST_PATH_IMAGE002
的相关度低;
Figure 911118DEST_PATH_IMAGE006
其中,
Figure 741190DEST_PATH_IMAGE007
表示第一待识别语音信息中的原关键词向量
Figure 744918DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 530471DEST_PATH_IMAGE002
之间的夹角,
Figure 986860DEST_PATH_IMAGE008
表示第一待识别语音信息中的原关键词向量
Figure 945589DEST_PATH_IMAGE001
的模,
Figure 413611DEST_PATH_IMAGE009
表示第二待识别语音信息中的原关键词向量
Figure 229120DEST_PATH_IMAGE002
的模,
Figure 313751DEST_PATH_IMAGE010
是指第一待识别语音信息中的原关键词向量
Figure 872908DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 461015DEST_PATH_IMAGE002
的相似度;
Figure 385109DEST_PATH_IMAGE011
,表示第一待识别语音信息中的原关键词向量
Figure 488194DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 788725DEST_PATH_IMAGE002
完全相等;
Figure 293656DEST_PATH_IMAGE012
,表示第一待识别语音信息中的原关键词向量
Figure 388651DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 306928DEST_PATH_IMAGE002
不相等。进一步的,获得第二待识别语音信息中形成的最短停顿时长
Figure 83255DEST_PATH_IMAGE013
和最长停顿时长
Figure 505009DEST_PATH_IMAGE014
Figure 705658DEST_PATH_IMAGE015
在触发原关键词后获取数据库中的关键词向量中最长的关键词字数量为
Figure 111232DEST_PATH_IMAGE016
,最短的关键词数量为
Figure 691249DEST_PATH_IMAGE017
,得到第二语音信号标准时长
Figure 233089DEST_PATH_IMAGE018
Figure 935465DEST_PATH_IMAGE019
是指误差停顿时长,
Figure 438122DEST_PATH_IMAGE020
是指不包含停顿时的第一待识别语音信息中的误差时速。
进一步的,一种基于语音识别的移动终端控制系统,该系统包括语音信息拾取模块、语音信息处理模块、语音信息控制模块和中心处理模块;
所述语音信息拾取模块,通过拾取第一待识别语音信息中的停顿时长,分析包括停顿时长的第一待识别语音信息的语音速度和第一待识别语音信息中的语音速度,从而分析得到第二待识别语音信息;
所述语音信息处理模块,获取语音信号中的关键词,判断距离第一待识别语音信息最接近位置是否存在停顿时长,若存在停顿时长,拾取与第二待识别语音信息中相关的完整关键词进行比对,从而能够分析第二语音信号标准时长;
所述语音信息控制模块,在触发原关键词后获取数据库中所保存的关键词数量,以及根据第一待识别语音信息中的停顿时长分析第二语音信号标准时长,从而能够使得智能终端能够清楚识别语音信号,不会导致识别中途中断;
所述中心处理模块用于对上述模块相互控制并处理;所述中心处理模块与语音信息拾取模块、语音信息处理模块和语音信息控制模块相连接。
所述语音信息拾取模块包括语音停顿时长捕捉单元、语音时长捕捉单元、语音速度提取单元和语音时速更新单元;
所述语音停顿时长捕捉单元,获取第一待识别语音信息,分析第一待识别语音信息中是否存在停顿时长,若存在停顿时长则提取停顿时长;
所述语音时长捕捉单元,根据所述第一待识别语音信息,分析在包含或者不包含停顿时长时的第一待识别语音信息的语音时长,从而能够分析出语音时长的区别;
所述语音速度提取单元,根据所述第一待识别语音信息,分析在不包含停顿时长时的第一待识别语音信息的语音速度;
所述语音时速更新单元,根据所述第一待识别语音信息,分析在包含停顿时长时的第一待识别语音信息的语音速度;
所述语音停顿时长捕捉单元的输出端与语音时长捕捉单元、语音速度提取单元和语音时速更新单元的输入端电性连接。
所述语音信息处理模块包括语音停顿位置提取单元、关键词数据库单元、向量对比分析单元和语音关联性分析单元;
所述语音停顿位置提取单元,根据所述第一待识别语音信息,分析在第一待识别语音信息中距离原关键词向量位置的最接近位置是否存在停顿时长,若存在停顿时长,拾取第二待识别语音信息中完整关键词;
所述关键词数据库单元,在触发第一待识别语音信息中原关键词后保存数据库中的关键词向量;
所述向量对比分析单元,将第一待识别语音信息中原关键词与所述数据库中的关键词向量分析比对,从而分析出第一待识别语音信息中的原关键词向量与第二待识别语音信息中存在的完整关键词向量是否相等;
所述语音关联性分析单元,根据第二待识别语音信息中完整关键词与所述数据库中的关键词向量比对分析出相关度,从而能够分析出第一待识别语音信息与第一待识别语音信息是否存在关联,从而能够更好的控制第二语音信号标准时长;
所述语音关联性分析单元的输出端与语音停顿位置提取单元、关键词数据库单元和向量对比分析单元的输入端电性连接。
所述语音信息控制模块包括关键词数量获取单元、语音时长推测单元和语音控制单元;
所述关键词数量获取单元,获取关键词数据库单元所保存最长和最短的关键词向量;
所述语音时长推测单元,根据所述最长和最短的关键词向量得到第二语音信号标准时长的最短时长和最长时长;
所述语音控制单元,获取标准时长内的语音信息使得智能终端对语音信息识别并控制;
所述语音控制单元的输出端与关键词数量获取单元和语音时长推测单元的输入段电性连接。
与现有技术相比,本发明所达到的有益效果是:
1.本发明可以通过所识别的第一待处理语音信息获取第一停顿时长,并从中分析停顿语速和第一待处理语音信息的总语速,分析第一处理信息中的停顿位置和关键词位置,根据所设置的第二待处理语音信息,分析第二待处理语音信息和第一待处理语音信息的相关度,从而能够分析出第二待处理语音信息所提及的关键词是否与第一待处理语音信息中的关键词相同,能够更紧密分析得到第二待处理语音信息的标准时长;通过上述方法,不再仅仅根据语音的时长是否满足预设条件而确定时长特征,保证了只有在人说话完整结束时,智能终端才能去反应控制,提升了识别的精准度和准确度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于语音识别的移动终端控制系统及方法的模块组成示意图;
图2是本发明一种基于语音识别的移动终端控制系统及方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1-图2,本发明提供技术方案:
一种基于语音识别的移动终端控制方法,该方法包括:
获取第一待识别语音信息;
根据所获取的第一待识别语音信息判断停顿时长和语音时长;
若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长,则获取第二待识别语音信息;
获取第二待识别语音信息,判断第二待识别语音信息与第一待识别语音的关联度;
若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度,则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长;
若所述第一待识别语音信息停顿时长大于第二预设停顿时长,则无法识别语音信息。
在判断过程中,当检测到一个人对终端讲到,例如第一待识别语音信息为“hey,siri,帮我打电话给□□□□□□”后续没有与控制终端的交互命令时,则分析出第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长,当检测到停顿时长大于第二停顿时长时,则能够判断出智能终端无需再去识别对应的语音信号;
例如,第一待识别语音信息为“hey,siri,帮我打电话给那什么嗯□□□”第二待识别语音信号为“打电话给那谁□□10086”时,能够判断出第一待识别语音信息和第二待识别语音信息是同一个语音主题;则能够继续分析出两个待识别语音信息的关联度,从而能够分析出相给予的第二时长的具体值;
其中;□是指停顿。
进一步的,所述第二待识别语音信息与第一待识别语音信息的关联度具体如下:
根据第一待识别语音信息,分析语音信息中所存在的关键词,标记关键词在第一待识别语音信息中的位置,判断距离关键词所在位置的最接近位置是否存在停顿时长,若存在停顿时长,则判断第二待识别语音信息中是否包括有与关键词相关联的完整关键词;
将第一待识别语音信息中的原关键词数据设定为向量值
Figure 352988DEST_PATH_IMAGE001
,将第二待识别语音信息中存在的完整关键词设定为向量
Figure 749335DEST_PATH_IMAGE002
并与在原关键词后触发数据库中的关键词向量
Figure 294717DEST_PATH_IMAGE003
相比对,m是指数据项;
Figure 409303DEST_PATH_IMAGE004
指第m个关键词向量;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 393440DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 581976DEST_PATH_IMAGE005
完全相等,表示第一待识别语音信息中的原关键词向量
Figure 626155DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 103404DEST_PATH_IMAGE002
的相关度高;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 953548DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 199853DEST_PATH_IMAGE005
不相等,表示第一待识别语音信息中的原关键词向量
Figure 211671DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 901848DEST_PATH_IMAGE002
的相关度低;
Figure 290104DEST_PATH_IMAGE006
其中,
Figure 390915DEST_PATH_IMAGE007
表示第一待识别语音信息中的原关键词向量
Figure 776897DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 25476DEST_PATH_IMAGE002
之间的夹角,
Figure 155106DEST_PATH_IMAGE008
表示第一待识别语音信息中的原关键词向量
Figure 235057DEST_PATH_IMAGE001
的模,
Figure 729624DEST_PATH_IMAGE021
表示第二待识别语音信息中的原关键词向量
Figure 527815DEST_PATH_IMAGE002
的模,
Figure 398819DEST_PATH_IMAGE022
是指第一待识别语音信息中的原关键词向量
Figure 333277DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 326641DEST_PATH_IMAGE002
的相似度;
Figure 284233DEST_PATH_IMAGE011
,表示第一待识别语音信息中的原关键词向量
Figure 755666DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 685575DEST_PATH_IMAGE002
完全相等;
Figure 912157DEST_PATH_IMAGE012
,表示第一待识别语音信息中的原关键词向量
Figure 294728DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 366590DEST_PATH_IMAGE002
不相等;
当在例子“hey,siri,帮我打电话给那什么嗯□□□”中,所检测到的关键词是指“打电话”,检测到距离关键词最近的是指“那什么嗯”并没有明确表明打电话所指内容,因此,可以触发原关键词“打电话”,获得关键词“打电话”的名单,例如“10086、程先生、贺太太”等,并根据第二待识别信息中“打电话给那谁□□10086”,将10086与关键词库进行比对,分析第一语音待识别信息与第二待识别信息关键词的相似度和相关度,分析出第一语音待识别信息与第二语音待识别信息之间的相关度;
在判断过程中,仅仅只有通过余弦相似度进行比较,才能够分析得到第一待识别语音信息中的原关键词向量与第二待识别语音信息中存在的完整关键词向量之间的相似度,并且只有根据相似度才能够分析得出两个语音信号之间的相关度,促进了两个语音信号的交融程度。
再次过程中,分析判断出第一待识别语音信息中的字数数量,通过根据字数数量能够分析出第一待识别语音中的语速,其中不包括停顿时的语速;通过计算
Figure 744481DEST_PATH_IMAGE023
能够得到停顿时长,并根据停顿时长分析此内的语速。
进一步的,获得第二待识别语音信息中形成的最短停顿时长
Figure 483243DEST_PATH_IMAGE013
和最长停顿时长
Figure 743323DEST_PATH_IMAGE014
Figure 494241DEST_PATH_IMAGE015
在触发原关键词后获取数据库中的关键词向量中最长的关键词字数量为
Figure 523377DEST_PATH_IMAGE016
,最短的关键词数量为
Figure 435969DEST_PATH_IMAGE017
,得到第二语音信号标准时长
Figure 386608DEST_PATH_IMAGE018
Figure 800272DEST_PATH_IMAGE019
是指误差停顿时长,
Figure 824859DEST_PATH_IMAGE020
是指不包含停顿时的第一待识别语音信息中的误差时速;
在此过程汇中,由于关键词的数量并不一致,因此,在这里设置了不同第二标准时长的最长时长和最短时长。
进一步的,一种基于语音识别的移动终端控制系统,该系统包括语音信息拾取模块、语音信息处理模块、语音信息控制模块和中心处理模块;
所述语音信息拾取模块,通过拾取第一待识别语音信息中的停顿时长,分析包括停顿时长的第一待识别语音信息的语音速度和第一待识别语音信息中的语音速度,从而分析得到第二待识别语音信息;
所述语音信息处理模块,获取语音信号中的关键词,判断距离第一待识别语音信息最接近位置是否存在停顿时长,若存在停顿时长,拾取与第二待识别语音信息中相关的完整关键词进行比对,从而能够分析第二语音信号标准时长;
所述语音信息控制模块,在触发原关键词后获取数据库中所保存的关键词数量,以及根据第一待识别语音信息中的停顿时长分析第二语音信号标准时长,从而能够使得智能终端能够清楚识别语音信号,不会导致识别中途中断;
所述中心处理模块用于对上述模块相互控制并处理;所述中心处理模块与语音信息拾取模块、语音信息处理模块和语音信息控制模块相连接。
所述语音信息拾取模块包括语音停顿时长捕捉单元、语音时长捕捉单元、语音速度提取单元和语音时速更新单元;
所述语音停顿时长捕捉单元,获取第一待识别语音信息,分析第一待识别语音信息中是否存在停顿时长,若存在停顿时长则提取停顿时长;
所述语音时长捕捉单元,根据所述第一待识别语音信息,分析在包含或者不包含停顿时长时的第一待识别语音信息的语音时长,从而能够分析出语音时长的区别;
所述语音速度提取单元,根据所述第一待识别语音信息,分析在不包含停顿时长时的第一待识别语音信息的语音速度;
所述语音时速更新单元,根据所述第一待识别语音信息,分析在包含停顿时长时的第一待识别语音信息的语音速度;
所述语音停顿时长捕捉单元的输出端与语音时长捕捉单元、语音速度提取单元和语音时速更新单元的输入端电性连接。
所述语音信息处理模块包括语音停顿位置提取单元、关键词数据库单元、向量对比分析单元和语音关联性分析单元;
所述语音停顿位置提取单元,根据所述第一待识别语音信息,分析在第一待识别语音信息中距离原关键词向量位置的最接近位置是否存在停顿时长,若存在停顿时长,拾取第二待识别语音信息中完整关键词;
所述关键词数据库单元,在触发第一待识别语音信息中原关键词后保存数据库中的关键词向量;
所述向量对比分析单元,将第一待识别语音信息中原关键词与所述数据库中的关键词向量分析比对,从而分析出第一待识别语音信息中的原关键词向量与第二待识别语音信息中存在的完整关键词向量是否相等;
所述语音关联性分析单元,根据第二待识别语音信息中完整关键词与所述数据库中的关键词向量比对分析出相关度,从而能够分析出第一待识别语音信息与第一待识别语音信息是否存在关联,从而能够更好的控制第二语音信号标准时长;
所述语音关联性分析单元的输出端与语音停顿位置提取单元、关键词数据库单元和向量对比分析单元的输入端电性连接。
所述语音信息控制模块包括关键词数量获取单元、语音时长推测单元和语音控制单元;
所述关键词数量获取单元,获取关键词数据库单元所保存最长和最短的关键词向量;
所述语音时长推测单元,根据所述最长和最短的关键词向量得到第二语音信号标准时长的最短时长和最长时长;
所述语音控制单元,获取标准时长内的语音信息使得智能终端对语音信息识别并控制;
所述语音控制单元的输出端与关键词数量获取单元和语音时长推测单元的输入段电性连接。
实施例1:一人对手机控制终端说“请帮我打开那个嗯,那什么□□□软件”“□□□软件名称是那个什么□□□”;
其中,软件是关键词,在触发原关键词后获取数据库中的关键词向量具体为”网易云音乐、支付宝、淘宝、微信、QQ、办公、视频”等;
根据所获取的第一待识别语音信息判断停顿时长和语音时长,记录语音识别过程中的语音字数开始记录时刻
Figure 298566DEST_PATH_IMAGE024
=0和语音字数结束记录时刻
Figure 470921DEST_PATH_IMAGE025
=5,则检索到的含有5个字的关键词是指“网易云音乐”;
Figure 298063DEST_PATH_IMAGE026
是指不包含停顿时的第一待识别语音中的时长,具体为
Figure 301791DEST_PATH_IMAGE026
=2.3,
Figure 821765DEST_PATH_IMAGE027
是指包含停顿时的时长,具体为
Figure 278154DEST_PATH_IMAGE027
=0.95s;
第一待识别语音信息中的字数数量为d=
Figure 236883DEST_PATH_IMAGE025
-
Figure 970484DEST_PATH_IMAGE024
=5-0=5;
得到不包括停顿时长的第一待识别语音中的语速为:
Figure 51572DEST_PATH_IMAGE028
=5/2.3=2.1字/s;
得到包括停顿时长的第一待识别语音中的语速为:
Figure 870624DEST_PATH_IMAGE029
=2.28;
得到停顿时的语速为:
Figure 367464DEST_PATH_IMAGE023
=0.18。
实施例2:获取第二待识别语音信息,根据第一待识别语音信息中的停顿时长形成的向量
Figure 80205DEST_PATH_IMAGE030
预先与第二待识别语音信息中的停顿时长向量
Figure 944912DEST_PATH_IMAGE031
相对比,获得第二待识别语音信息中形成的最短停顿时长
Figure 641472DEST_PATH_IMAGE013
和最长停顿时长
Figure 614108DEST_PATH_IMAGE014
;其中
Figure 384618DEST_PATH_IMAGE019
是指0.3s;检测到所识别的最短的关键词数量={QQ、办公、视频}为
Figure 541929DEST_PATH_IMAGE017
=2,最长的关键词字数量{网易云音乐}为
Figure 601152DEST_PATH_IMAGE016
=5,
Figure 236533DEST_PATH_IMAGE032
Figure 799232DEST_PATH_IMAGE033
因此,第二标准时长的最小值为1.58s,第二标准时长的最大值为3.57s。
在触发原关键词后获取数据库中的关键词向量中最长的关键词字数量为
Figure 330708DEST_PATH_IMAGE016
,最短的关键词数量为
Figure 470702DEST_PATH_IMAGE017
,得到第二语音信号标准时长
Figure 316298DEST_PATH_IMAGE018
Figure 858138DEST_PATH_IMAGE019
是指误差停顿时长,
Figure 560515DEST_PATH_IMAGE020
是指不包含停顿时的第一待识别语音信息中的误差时速。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于语音识别的移动终端控制方法,其特征在于:该方法包括:
获取第一待识别语音信息;
根据所获取的第一待识别语音信息判断停顿时长和语音时长;
若所述第一待识别语音信息停顿时长大于第一预设停顿时长小于第二预设停顿时长,则获取第二待识别语音信息;
获取第二待识别语音信息,判断第二待识别语音信息与第一待识别语音的关联度;
若第二待识别语音信息与第一待识别语音信息的关联度大于预设关联度,则能够根据第一待识别语音信息中的停顿时长获取第二语音信号标准时长;
若所述第一待识别语音信息停顿时长大于第二预设停顿时长,则无法识别语音信息。
2.根据权利要求1所述的一种基于语音识别的移动终端控制方法,其特征在于:所述第二待识别语音信息与第一待识别语音信息的关联度具体如下:
根据第一待识别语音信息,分析语音信息中所存在的关键词,标记关键词在第一待识别语音信息中的位置,判断距离关键词所在位置的最接近位置是否存在停顿时长,若存在停顿时长,则判断第二待识别语音信息中是否包括有与关键词相关联的完整关键词;
将第一待识别语音信息中的原关键词数据设定为向量值
Figure 33728DEST_PATH_IMAGE001
,将第二待识别语音信息中存在的完整关键词设定为向量
Figure 576441DEST_PATH_IMAGE002
并与在原关键词后触发数据库中的关键词向量
Figure 477401DEST_PATH_IMAGE003
相比对,m是指数据项;
Figure 305679DEST_PATH_IMAGE004
指第m个关键词向量;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 633892DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 649253DEST_PATH_IMAGE005
完全相等,表示第一待识别语音信息中的原关键词向量
Figure 88325DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 833427DEST_PATH_IMAGE002
的相关度高;
当检测到第二待识别语音信息中存在的完整关键词向量
Figure 207907DEST_PATH_IMAGE002
与数据库中的关键词向量
Figure 100777DEST_PATH_IMAGE005
不相等,表示第一待识别语音信息中的原关键词向量
Figure 218906DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 818514DEST_PATH_IMAGE002
的相关度低;
Figure 488530DEST_PATH_IMAGE006
其中,
Figure 744062DEST_PATH_IMAGE007
表示第一待识别语音信息中的原关键词向量
Figure 790515DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 244631DEST_PATH_IMAGE002
之间的夹角,
Figure 960914DEST_PATH_IMAGE008
表示第一待识别语音信息中的原关键词向量
Figure 828376DEST_PATH_IMAGE001
的模,
Figure 288307DEST_PATH_IMAGE009
表示第二待识别语音信息中的原关键词向量
Figure 862508DEST_PATH_IMAGE002
的模,
Figure 874326DEST_PATH_IMAGE010
是指第一待识别语音信息中的原关键词向量
Figure 101521DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 224197DEST_PATH_IMAGE002
的相似度;
Figure 652905DEST_PATH_IMAGE011
,表示第一待识别语音信息中的原关键词向量
Figure 976570DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 553045DEST_PATH_IMAGE002
完全相等;
Figure 354779DEST_PATH_IMAGE012
,表示第一待识别语音信息中的原关键词向量
Figure 903572DEST_PATH_IMAGE001
与第二待识别语音信息中存在的完整关键词向量
Figure 257192DEST_PATH_IMAGE002
不相等。
3.根据权利要求1所述的一种基于语音识别的移动终端控制方法,其特征在于:获得第二待识别语音信息中形成的最短停顿时长
Figure 196330DEST_PATH_IMAGE013
和最长停顿时长
Figure 926388DEST_PATH_IMAGE014
Figure 329688DEST_PATH_IMAGE015
在触发原关键词后获取数据库中的关键词向量中最长的关键词字数量为
Figure 729576DEST_PATH_IMAGE016
,最短的关键词数量为
Figure 280643DEST_PATH_IMAGE017
,得到第二语音信号标准时长
Figure 424180DEST_PATH_IMAGE018
Figure 478723DEST_PATH_IMAGE019
是指误差停顿时长,
Figure 642989DEST_PATH_IMAGE020
是指不包含停顿时的第一待识别语音信息中的误差时速。
4.一种基于语音识别的移动终端控制系统,其特征在于:该系统包括语音信息拾取模块、语音信息处理模块、语音信息控制模块和中心处理模块;
所述语音信息拾取模块,通过拾取第一待识别语音信息中的停顿时长,分析包括停顿时长的第一待识别语音信息的语音速度和第一待识别语音信息中的语音速度;
所述语音信息处理模块,获取语音信号中的关键词,判断距离第一待识别语音信息最接近位置是否存在停顿时长,若存在停顿时长,拾取与第二待识别语音信息中相关的完整关键词进行比对;
所述语音信息控制模块,在触发原关键词后获取数据库中所保存的关键词数量,以及根据第一待识别语音信息中的停顿时长分析第二语音信号标准时长;
所述中心处理模块用于对上述模块相互控制并处理;所述中心处理模块与语音信息拾取模块、语音信息处理模块和语音信息控制模块相连接。
5.根据权利要求4所述的一种基于语音识别的移动终端控制系统,其特征在于:所述语音信息拾取模块包括语音停顿时长捕捉单元、语音时长捕捉单元、语音速度提取单元和语音时速更新单元;
所述语音停顿时长捕捉单元,获取第一待识别语音信息,分析第一待识别语音信息中是否存在停顿时长,若存在停顿时长则提取停顿时长;
所述语音时长捕捉单元,根据所述第一待识别语音信息,分析在包含或者不包含停顿时长时的第一待识别语音信息的语音时长;
所述语音速度提取单元,根据所述第一待识别语音信息,分析在不包含停顿时长时的第一待识别语音信息的语音速度;
所述语音时速更新单元,根据所述第一待识别语音信息,分析在包含停顿时长时的第一待识别语音信息的语音速度;
所述语音停顿时长捕捉单元的输出端与语音时长捕捉单元、语音速度提取单元和语音时速更新单元的输入端电性连接。
6.根据权利要求4所述的一种基于语音识别的移动终端控制系统,其特征在于:所述语音信息处理模块包括语音停顿位置提取单元、关键词数据库单元、向量对比分析单元和语音关联性分析单元;
所述语音停顿位置提取单元,根据所述第一待识别语音信息,分析在第一待识别语音信息中距离原关键词向量位置的最接近位置是否存在停顿时长,若存在停顿时长,拾取第二待识别语音信息中完整关键词;
所述关键词数据库单元,在触发第一待识别语音信息中原关键词后保存数据库中的关键词向量;
所述向量对比分析单元,将第一待识别语音信息中原关键词与所述数据库中的关键词向量分析比对;
所述语音关联性分析单元,根据第二待识别语音信息中完整关键词与所述数据库中的关键词向量比对分析出相关度;
所述语音关联性分析单元的输出端与语音停顿位置提取单元、关键词数据库单元和向量对比分析单元的输入端电性连接。
7.根据权利要求4所述的一种基于语音识别的移动终端控制系统,其特征在于:所述语音信息控制模块包括关键词数量获取单元、语音时长推测单元和语音控制单元;
所述关键词数量获取单元,获取关键词数据库单元所保存最长和最短的关键词向量;
所述语音时长推测单元,根据所述最长和最短的关键词向量得到第二语音信号标准时长的最短时长和最长时长;
所述语音控制单元,获取标准时长内的语音信息使得智能终端对语音信息识别并控制;
所述语音控制单元的输出端与关键词数量获取单元和语音时长推测单元的输入段电性连接。
CN202110944270.8A 2021-08-17 2021-08-17 一种基于语音识别的移动终端控制系统及方法 Active CN113393840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110944270.8A CN113393840B (zh) 2021-08-17 2021-08-17 一种基于语音识别的移动终端控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110944270.8A CN113393840B (zh) 2021-08-17 2021-08-17 一种基于语音识别的移动终端控制系统及方法

Publications (2)

Publication Number Publication Date
CN113393840A CN113393840A (zh) 2021-09-14
CN113393840B true CN113393840B (zh) 2021-11-05

Family

ID=77622730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110944270.8A Active CN113393840B (zh) 2021-08-17 2021-08-17 一种基于语音识别的移动终端控制系统及方法

Country Status (1)

Country Link
CN (1) CN113393840B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质
CN115798465B (zh) * 2023-02-07 2023-04-07 天创光电工程有限公司 一种语音输入方法、系统及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2817672A1 (en) * 2013-04-02 2014-10-02 Fahim Saleh Intelligent interactive voice communication system and method
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109377998A (zh) * 2018-12-11 2019-02-22 科大讯飞股份有限公司 一种语音交互方法及装置
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN111429899A (zh) * 2020-02-27 2020-07-17 深圳壹账通智能科技有限公司 基于人工智能的语音响应处理方法、装置、设备及介质
CN111627424A (zh) * 2014-04-23 2020-09-04 谷歌有限责任公司 基于词比较的语音端点定位的方法、系统和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2817672A1 (en) * 2013-04-02 2014-10-02 Fahim Saleh Intelligent interactive voice communication system and method
CN111627424A (zh) * 2014-04-23 2020-09-04 谷歌有限责任公司 基于词比较的语音端点定位的方法、系统和介质
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109599130A (zh) * 2018-12-10 2019-04-09 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109377998A (zh) * 2018-12-11 2019-02-22 科大讯飞股份有限公司 一种语音交互方法及装置
CN111429899A (zh) * 2020-02-27 2020-07-17 深圳壹账通智能科技有限公司 基于人工智能的语音响应处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113393840A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US10937448B2 (en) Voice activity detection method and apparatus
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN109493850B (zh) 成长型对话装置
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
CN113393840B (zh) 一种基于语音识别的移动终端控制系统及方法
CN111797632B (zh) 信息处理方法、装置及电子设备
CN113779208A (zh) 用于人机对话的方法和装置
KR102198424B1 (ko) 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
CN115050372A (zh) 一种音频片段的聚类方法、装置、电子设备和介质
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN113129895B (zh) 一种语音检测处理系统
CN109065026A (zh) 一种录音控制方法及装置
CN110660385A (zh) 一种命令词检测方法及电子设备
CN114171000A (zh) 一种基于声学模型和语言模型的音频识别方法
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
CN114120425A (zh) 一种情绪识别方法、装置、电子设备及存储介质
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN112397073A (zh) 一种音频数据处理方法及装置
CN111785259A (zh) 信息处理方法、装置及电子设备
CN113707130B (zh) 一种语音识别方法、装置和用于语音识别的装置
EP3944230A1 (en) Training voice query models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant