CN117292688B - 一种基于智能语音鼠标的控制方法及智能语音鼠标 - Google Patents

一种基于智能语音鼠标的控制方法及智能语音鼠标 Download PDF

Info

Publication number
CN117292688B
CN117292688B CN202311583116.8A CN202311583116A CN117292688B CN 117292688 B CN117292688 B CN 117292688B CN 202311583116 A CN202311583116 A CN 202311583116A CN 117292688 B CN117292688 B CN 117292688B
Authority
CN
China
Prior art keywords
voice
result
voice recognition
recognition result
mouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311583116.8A
Other languages
English (en)
Other versions
CN117292688A (zh
Inventor
陈海文
何小妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen South China Yingcai Technology Co ltd
Original Assignee
Shenzhen South China Yingcai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen South China Yingcai Technology Co ltd filed Critical Shenzhen South China Yingcai Technology Co ltd
Priority to CN202311583116.8A priority Critical patent/CN117292688B/zh
Publication of CN117292688A publication Critical patent/CN117292688A/zh
Application granted granted Critical
Publication of CN117292688B publication Critical patent/CN117292688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于智能语音鼠标的控制方法及智能语音鼠标,涉及语音识别技术领域,方法包括:执行语音数据采集结果的场景降噪,根据降噪结果生成第一语音识别结果;对降噪结果进行语义识别,通过语义识别结果对第一语音识别结果校正,生成第二语音识别结果;进行新增更改数据接收;将带有稳定标识的语音数据对新增更改数据匹配,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;将第三语音识别结果和关联搜索结果可视化显示。能够解决现有智能语音鼠标存在语音识别准确率较低导致鼠标控制准确性较低的技术问题,可以提高鼠标语音控制数据识别的准确率,从而提高智能语音鼠标的控制精准性和工作效率。

Description

一种基于智能语音鼠标的控制方法及智能语音鼠标
技术领域
本公开涉及语音识别技术领域,并且更具体地,涉及一种基于智能语音鼠标的控制方法及智能语音鼠标。
背景技术
智能语音鼠标是一种通过内置智能语音助手对语音控制指令进行识别,进而实现对鼠标智能化控制的一种电子产品,用户通过简单的语音命令来实现鼠标操作,可以提高办公效率,使得办公生活更加便利和智能。
由于用户所处的办公场景各不相同,且每个用户在进行鼠标语音控制时,发出的语音命令在文字、语速、音色、语气等方面也不完全相同,因此容易造成用户语音命令识别准确率不高的现象,影响了智能语音鼠标的办公效率和用户体验。
现有的智能语音鼠标存在的不足之处在于:由于语音控制数据识别准确率较低导致鼠标控制准确性较低。
发明内容
因此,为了解决上述技术问题,本公开的实施例采用的技术方案如下:
一种基于智能语音鼠标的控制方法,包括以下步骤:判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识;对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
一种智能语音鼠标,包括:鼠标激活状态判断模块,所述鼠标激活状态判断模块用于判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;语音数据采集模块,所述语音数据采集模块用于若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;第一语音识别结果生成模块,所述第一语音识别结果生成模块用于调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识;第一语音识别结果校正模块,所述第一语音识别结果校正模块用于对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;新增更改数据接收模块,所述新增更改数据接收模块用于判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;第二语音识别结果修正模块,所述第二语音识别结果修正模块用于将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;可视化显示模块,所述可视化显示模块用于根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
由于采用了上述技术方法,本公开相对于现有技术来说,取得的技术进步有如下几点:
可以解决现有智能语音鼠标存在语音控制数据识别准确率较低导致鼠标控制准确性较低的技术问题,首先,判断智能语音鼠标是否处于激活状态,其中所述激活状态通过预设时间阈值下的智能键保持状态激活触发;当所述智能语音鼠标处于激活状态时,则调用语音接收传感器对用户的实时语音数据进行采集;基于噪声特征与办公场景的关联性构建场景化数据库,并利用所述场景化数据库对实时语音数据采集结果进行场景降噪,然后对所述降噪结果进行语音识别并实时生成第一语音识别结果,并将所述第一语音识别结果进行可视化显示,其中语音识别可视化显示带有稳定标识;对所述降噪结果进行前后语句的语义识别,并根据语义识别结果对所述第一语音识别结果进行校正,得到第二语音识别结果;在预设周期内判断是否存在更改激活,当存在更改激活时,则通过所述语音接收传感器进行新增更改数据接收;然后将带有稳定标识的语音数据作为匹配数据,对所述新增更改数据进行匹配,根据匹配结果对非稳定标识部分的第二语音识别结果进行修正,得到第三语音识别结果;进一步根据所述第三语音识别结果进行信息关联搜索,最后将第三语音识别结果和关联搜索结果进行可视化显示。通过上述方法可以提高鼠标语音控制数据识别的准确率,从而提高智能语音鼠标的控制精准性和工作效率。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。
图1为本申请提供了一种基于智能语音鼠标的控制方法的流程示意图;
图2为本申请提供了一种基于智能语音鼠标的控制方法中对实时语音数据采集结果进行场景降噪的流程示意图;
图3为本申请提供了一种智能语音鼠标的结构示意图。
附图标记说明:鼠标激活状态判断模块01、语音数据采集模块02、第一语音识别结果生成模块03、第一语音识别结果校正模块04、新增更改数据接收模块05、第二语音识别结果修正模块06、可视化显示模块07。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整的描述。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
基于上述描述,如图1所示,本公开提供了一种基于智能语音鼠标的控制方法,包括:
智能语音鼠标是指可以通过语音控制进行任务操作的鼠标设备,本申请提供的方法用于提高智能语音鼠标语音控制数据识别的准确率,从而达到提高智能语音鼠标的控制精准性和工作效率的目的,所述方法具体实施于一种智能语音鼠标。
判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;
在本申请实施例中,首先,判断智能语音鼠标是否处于激活状态,其中所述激活状态是指可接收语音控制命令的工作状态,所述激活状态通过预设时间阈值下的智能键保持状态激活触发,其中所述预设时间阈值是指智能语音鼠标激活后的状态保持时间,本领域技术人员可根据鼠标实际使用情况进行设置,类似于手机显示屏待机时长,例如:可设置预设时间阈值为5分钟,即智能语音鼠标在激活后5分钟之内无任何操作则自动处于待激活状态;所述智能键为控制智能语音鼠标激活状态的部件,例如:鼠标的按键、滚轮等,可自行设置。
若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;
在本申请实施例中,当所述智能语音鼠标处于待激活状态时,则通过所述智能键激活所述智能语音鼠标;当所述智能语音鼠标处于激活状态时,则调用语音接收传感器对用户实时语音数据进行采集,其中所述语音接收传感器嵌入于所述智能语音鼠标内部,得到实时语音数据采集结果,通过获得实时语音数据采集结果,为下一步进行用户语音命令识别提供了原始数据。
调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识;
在本申请实施例中,首先,基于场景内的噪声特征与办公场景的关联性构建场景化数据库,并根据场景化数据库对所述实时语音数据采集结果进行场景降噪;然后对所述降噪结果进行实时语音识别,得到第一语音识别结果,并将所述第一语音识别结果进行可视化显示,其中可视化显示是指将所述第一语音识别结果转化为可视的文字、图像等,其中第一语音识别结果可视化显示带有稳定标识,所述稳定标识用于表征第一语音识别结果中识别内容的稳定性,例如:一个字、一个词语、一句话的稳定性,其中语音识别内容越清晰,例如:场景内的噪音干扰较小,用户说话比较标准等,容易识别,则表征语音识别结果的更改概率越低,则稳定性越高;语音识别结果越模糊,例如:场景噪音干扰严重,用户说方言等,则表征语音识别结果中的部分内容更改概率越大,则稳定性越低。
通过对第一语音识别结果的可视化显示进行稳定标识,为下一步进行非稳定部分的语音识别结果修正提供了支持,同时可以提高语音识别结果修正的效率和准确性。
如图2所示,在一个实施例中,所述方法还包括:
在所述智能语音鼠标使用前,对所述智能语音鼠标进行场景数据采集,当场景数据采集执行时,通过智能语音鼠标的定位功能生成场景定位数据;
通过语音接收传感器执行场景语音数据采集,并对所述场景语音数据处理,生成噪声信号特征集;
建立噪声信号特征集与场景定位数据的映射,并基于所述映射构建场景化数据库;
当所述智能语音鼠标处于激活状态,则获取智能语音鼠标的实时位置,并以所述实时位置执行场景化数据库的调用,完成实时语音数据采集结果的场景降噪。
在本申请实施例中,首先,在所述智能语音鼠标使用前,对所述智能语音鼠标进行场景数据采集,其中场景数据是指所述智能语音鼠标办公场景或应用场景的类型,例如:办公室、咖啡厅、商场、家里、户外等场景,当场景数据采集执行时,通过智能语音鼠标的定位功能获取当前场景的定位坐标,并根据定位坐标对场景数据进行标识,生成多个场景定位数据,其中每个场景定位数据包括场景类型和对应的定位坐标。
然后通过语音接收传感器按照场景类型进行场景语音数据采集,获得多个场景语音数据,并对所述多个场景语音数据进行语音数据处理,所述语音数据处理是指对场景语音数据进行噪音检测,常用的噪声检测方法包括:轮廓分析法、均相比法、频率变化指数法等多种方法,本领域技术人员可根据场景语音数据的实际情况选择适配的噪音检测方法;获得噪声信号特征集,其中每个噪声信号特征对应一个场景类型;然后基于场景类型,建立噪声信号特征与场景定位数据的映射关联,并基于所述映射关联,以场景定位数据作为子节点,以噪声信号特征作为子节点的叶子节点,构建场景化数据库。通过构建场景化数据库,为下一步进行语音数据的场景降噪提供了支持。
当所述智能语音鼠标处于激活状态时,则通过智能语音鼠标的定位功能获取实时位置坐标,并调用所述场景化数据库对所述实时位置坐标进行场景定位数据匹配,得到所述实时位置坐标的噪声信号特征,并根据所述噪声信号特征获得适配的降噪方法,其中声音降噪方法包括频域滤波法、时域滤波法、自适应滤波法等,可根据噪声信号特征的实际情况进行选择,然后根据适配的降噪方法对实时语音数据采集结果进行降噪,得到实时语音数据的降噪结果。
通过构建场景化数据库,并基于场景定位匹配合适的降噪方法,可以提高语音数据场景降噪的智能化,同时可以提高场景降噪的效率和准确性。
在一个实施例中,所述方法还包括:
建立方言数据库,其中,所述方言数据库通过大数据采集构建;
在进行降噪结果的实时识别过程中,依据预设识别窗口内的语音数据进行所述方言数据库的调用匹配,生成组合数据库;
以所述组合数据库进行降噪结果的重构识别,根据重构识别结果生成所述第一语音识别结果。
在本申请实施例中,基于大数据技术,以方言为检索条件进行信息查询,获得多种类型的方言数据,其中所述方言数据包括方言和对应的普通话解释,并根据方言类型和方言数据的映射关系构建方言数据库,所述方言数据库中存储有多种方言类型和对应的方言数据,其中方言类型本领域技术人员可根据实际情况进行选择。
在对所述降噪结果进行实时语音识别的过程中,获取预设识别窗口内的语音数据,并对所述语音数据进行方言类型分析,其中方言类型分析是指根据方言的音调、音色等声音特征进行智能化分析,例如:可通过相似性比对等方法进行分析,并将相似程度最高的一种或两种方言类型作为方言类型分析结果,得到方言类型,并根据所述方言类型对所述方言数据库中的方言数据进行调用匹配,构建组合数据库,其中所述组合数据库包括普通话数据库和一组或两组对应的方言数据。
然后根据所述组合数据库对所述降噪结果进行重构语音识别,其中重构语音识别是指进行多重语音识别,并将重构语音识别结果作为第一语音识别结果。通过构建方言数据库对降噪结果进行普通话和方言的多重识别,可以进一步提高降噪结果语音识别的准确性。
在一个实施例中,所述方法还包括:
记录用户的语音识别特征,其中,所述语音识别特征为用户认证特征;
当进行降噪结果语音识别时,通过预设账户数据库进行降噪结果的账户匹配,生成用户匹配结果,其中,所述账户数据库中存储有语音识别特征,且所述语音识别特征与用户特征库具有映射关系;
基于所述用户匹配结果调用所述用户特征库,执行语音识别,生成第一语音识别结果。
在本申请实施例中,首先,记录并获取用户的语音识别特征,其中所述语音识别特征为用户认证特征,所述用户认证特征是指具有明显特征区分的语音特征,例如:用户音色特征;获取用户语音特征数量,其中用户语音特征数量为一个或多个,可基于智能语音鼠标的常用用户数量进行设置,其中每个常用用户对应一个用户语音特征,其中用户语音特征包括用户断句习惯、用户发音习惯等,并根据一个或多个用户语音特征构建用户特征库,其中每个用户语音特征对应一个用户特征库;根据多个语音识别特征组建账户数据库,并建立语音识别特征与用户特征库的映射关系。
在对所述降噪结果进行语音识别时,通过所述降噪结果获取用户的实时语音识别特征,并将所述实时语音识别特征输入所述账户数据库进行账户匹配,得到用户匹配结果,并根据所述用户匹配结果调用所述用户特征库,即基于语音识别特征与用户特征库的映射关系匹配获得对应的用户特征库。然后根据所述用户特征库对所述降噪结果进行语音识别,获得第一语音识别结果。通过构建用户特征库对降噪结果进行语音识别,可以提高用户语音特征识别的准确性,从而可以进一步提高用户语音内容识别的准确性。
在一个实施例中,所述方法还包括:
在进行语音识别特征与降噪结果的匹配时,基于预设识别窗口进行一轮特征匹配,生成匹配相似值;
若匹配相似值满足预设相似阈值,则启用所述用户特征库,并生成监督空间;
在所述监督空间内进行识别效果评价,根据识别效果评价结果进行所述用户特征库的启用结果更新。
在本申请实施例中,在进行语音识别特征与降噪结果的匹配时,在预设识别窗口内对所述账户数据库中的多个语音识别特征和所述降噪结果的实时语音识别特征依次进行相似度分析,其中相似度分析方法本领域技术人员可基于语音数据的实际情况进行选择,例如:可基于机器学习构建语音分析回归模型进行相似度分析;获得多个匹配相似值。
获取预设相似阈值,所述预设相似阈值本领域技术人员可根据实际情况进行设置,例如:当多个常用用户的用户语音特征较为相似时,可将相似阈值设置较大,便于进行相似性区分;然后根据所述预设相似阈值对所述多个匹配相似值进行判断,当所述多个匹配相似值中存在匹配相似值大于所述预设相似阈值时,则将匹配相似值对应的语音识别特征标记为关联语音识别特征,当存在多个匹配相似值大于所述预设相似阈值的情况时,则选择多个匹配相似值中相似度最大的匹配相似值对应的语音识别特征作为关联语音识别特征,并根据所述关联语音识别特征启用对应的用户特征库,然后根据所述用户特征库进行语音识别,并在用户语音识别过程中,构建语音识别监督空间,其中语音识别监督空间为启用用户特征库进行语音识别的时间段,例如:启用用户特征库后的10分钟。
然后在所述监督空间内,对语音识别效果进行评价,可通过设置效果评价指标进行判断,其中效果评价指标包括语音识别准确性、语音识别流畅性等,获得识别效果评价结果。设置效果评价阈值,所述效果评价阈值可基于实际情况自行设置,然后根据所述效果评价阈值对所述识别效果评价结果进行判断,当所述识别效果评价结果大于所述效果评价阈值时,表征启用所述用户特征库进行语音识别的识别效果满足当前需求,则继续启用所述用户特征库进行语音识别;当所述识别效果评价结果小于等于所述效果评价阈值时,表征启用所述用户特征库进行语音识别的识别效果不尽如人意,可能存在用户特征库匹配错误的情况,则在进行语音识别时停止使用用户特征库或再次对用户特征库进行匹配更新。
通过生成监督空间对启用用户特征库进行语音识别的效果进行判断,并根据判断结果进行用户特征库的启用结果更新,可以提高用户特征库调用的灵活性,同时也可以提高用户语音识别的准确性。
对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;
在本申请实施例中,结合前后语句对所述降噪结果进行语义识别,并根据语义识别结果对所述第一语音识别结果的识别内容进行校正,获得第二语音识别结果。
在一个实施例中,所述方法还包括:
建立语义识别网络,其中,所述语义识别网络包括执行词性分割的第一隐含网络和执行组合评价的第二隐含网络;
将所述降噪结果输入所述语义识别网络,通过所述第一隐含网络进行所述降噪结果内的词性分割判别;
依据词性分割判别结果生成组合结果,并将组合结果发送至第二隐含网络;
通过所述第二隐含网络进行组合效果语义识别,根据识别结果筛选生成语义识别结果。
在本申请实施例中,首先,构建语义识别网络,其中所述语义识别网络包括执行词性分割的第一隐含网络和执行组合评价的第二隐含网络,其中所述词性分割是指将完整的句子划分为多个短句或词语,例如:动词、名词等;所述组合评价用于对重新组合的语句进行语义效果评价。
将所述降噪结果输入所述语义识别网络,首先通过所述第一隐含网络对所述降噪结果进行词性分割,即将所述降噪结果分割为多个短句或词语,得到词性分割判别结果。然后对所述词性分割判别结果进行随机组合,得到多个组合结果,并将所述多个组合结果发送至第二隐含网络,并通过所述第二隐含网络对所述多个组合结果的依次进行组合效果语义识别,获得多个语义效果识别结果,并将所述多个语义效果识别结果中可信度最高的语义效果识别结果进行输出,其中可信度可通过构建神经网络模型进行分析获得,其中语句出现频次越高,则可信度越高,得到语义识别结果。
通过构建语义识别网络对降噪结果进行词性分割和组合评价,可以提高降噪结果语义分析的全面性,从而提高语义识别结果的准确性。
判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;
在本申请实施例中,获取预设周期,所述预设周期是指用户对第二语音识别结果进行人为准确性分析的时间空窗,可根据实际情况进行设置,例如:设置预设周期为20秒;在所述预设周期内,语音输入者可以人为对第二语音识别结果的准确性进行判断,当第二语音识别结果与语音输入者想要操作的内容完全相同时,则不需要对第二语音识别结果进行更改;当第二语音识别结果与语音输入者想要操作的内容存在差异时,需要对第二语音识别结果进行局部更改,则生成更改激活指令。
当存在更改激活指令时,则通过所述语音接收传感器接收用户的新增更改语音数据。通过生成更改激活指令,可以对用户语音识别中的差异内容进行局部优化,从而提高语音识别结果的准确性。
将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;
在本申请实施例中,首先,将带有稳定标识的语音数据作为匹配定位特征,即有稳定标识的语音数据不用更改,只更改非稳定标识的语音数据,并基于所述匹配定位特征将所述新增更改数据匹配至非稳定标识语音数据的定位位置,然后根据定位匹配结果将所述新增更改数据对非稳定标识部分的第二语音识别结果进行替换,完成非稳定标识部分的第二语音识别结果修正,得到第三语音识别结果。
通过将稳定标识语音数据作为匹配定位特征,只对非稳定标识部分的语音识别结果进行修正,可以提高语音识别结果修正的效率和稳定性。
根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
在本申请实施例中,将所述第三语音识别结果作为鼠标语音控制数据,并根据所述鼠标语音控制数据控制智能语音鼠标对关联内容或关联数据进行搜索,其中搜索是指进行鼠标操作步骤,例如:打开网页等,得到关联搜索结果,最后将所述第三语音识别结果和所述关联搜索结果进行可视化显示。通过上述方法可以解决现有智能语音鼠标存在语音控制数据识别准确率较低导致鼠标控制准确性较低的技术问题,可以提高鼠标语音控制数据识别的准确率,从而提高智能语音鼠标的控制精准性和工作效率。
在一个实施例中,所述方法还包括:
建立纠错通道,所述纠错通道为记录用户修正的补偿通道;
当确认用户进行补偿修正时,依据所述纠错通道建立异常关键词与目标关键词的直通关联;
通过所述直通关联进行后续的语音识别补偿。
在本申请实施例中,构建纠错通道,其中所述纠错通道为记录用户修正的补偿通道,所述纠错通道为用于存储纠错信息的数据库。当确认用户进行补偿修正时,获取补偿修正数据中的异常关键词与目标关键词,其中所述异常关键词为语音识别结果中错误的词语,所述目标关键词为用户对异常关键词进行改正后的词语,即正确用词,并建立所述异常关键词与所述目标关键词的直通映射关联,并将所述直通映射关联存储进所述纠错通道内。
当后续用户进行语音识别补偿修正时,则调用所述纠错通道内的直通映射关联进行语音识别补偿。通过构建纠错通道,可以提高语音识别补偿的效率和准确性。
在一个实施例中,如图3所示提供了一种智能语音鼠标,包括:鼠标激活状态判断模块01、语音数据采集模块02、第一语音识别结果生成模块03、第一语音识别结果校正模块04、新增更改数据接收模块05、第二语音识别结果修正模块06、可视化显示模块07、其中:
鼠标激活状态判断模块01,所述鼠标激活状态判断模块01用于判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;
语音数据采集模块02,所述语音数据采集模块02用于若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;
第一语音识别结果生成模块03,所述第一语音识别结果生成模块03用于调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识;
第一语音识别结果校正模块04,所述第一语音识别结果校正模块04用于对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;
新增更改数据接收模块05,所述新增更改数据接收模块05用于判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;
第二语音识别结果修正模块06,所述第二语音识别结果修正模块06用于将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;
可视化显示模块07,所述可视化显示模块07用于根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
在一个实施例中,所述装置还包括:
场景定位数据生成模块,所述场景定位数据生成模块用于在所述智能语音鼠标使用前,对所述智能语音鼠标进行场景数据采集,当场景数据采集执行时,通过智能语音鼠标的定位功能生成场景定位数据;
噪声信号特征集生成模块,所述噪声信号特征集生成模块用于通过语音接收传感器执行场景语音数据采集,并对所述场景语音数据处理,生成噪声信号特征集;
场景化数据库构建模块,所述场景化数据库构建模块用于建立噪声信号特征集与场景定位数据的映射,并基于所述映射构建场景化数据库;
场景降噪模块,所述场景降噪模块用于当所述智能语音鼠标处于激活状态,则获取智能语音鼠标的实时位置,并以所述实时位置执行场景化数据库的调用,完成实时语音数据采集结果的场景降噪。
在一个实施例中,所述装置还包括:
方言数据库建立模块,所述方言数据库建立模块用于建立方言数据库,其中,所述方言数据库通过大数据采集构建;
组合数据库生成模块,所述组合数据库生成模块用于在进行降噪结果的实时识别过程中,依据预设识别窗口内的语音数据进行所述方言数据库的调用匹配,生成组合数据库;
第一语音识别结果生成模块,所述第一语音识别结果生成模块用于以所述组合数据库进行降噪结果的重构识别,根据重构识别结果生成所述第一语音识别结果。
在一个实施例中,所述装置还包括:
语音识别特征记录模块,所述语音识别特征记录模块用于记录用户的语音识别特征,其中,所述语音识别特征为用户认证特征;
用户匹配结果生成模块,所述用户匹配结果生成模块用于当进行降噪结果语音识别时,通过预设账户数据库进行降噪结果的账户匹配,生成用户匹配结果,其中,所述账户数据库中存储有语音识别特征,且所述语音识别特征与用户特征库具有映射关系;
第一语音识别结果生成模块,所述第一语音识别结果生成模块用于基于所述用户匹配结果调用所述用户特征库,执行语音识别,生成第一语音识别结果。
在一个实施例中,所述装置还包括:
匹配相似值生成模块,所述匹配相似值生成模块用于在进行语音识别特征与降噪结果的匹配时,基于预设识别窗口进行一轮特征匹配,生成匹配相似值;
监督空间生成模块,所述监督空间生成模块用于若匹配相似值满足预设相似阈值,则启用所述用户特征库,并生成监督空间;
启用结果更新模块,所述启用结果更新模块用于在所述监督空间内进行识别效果评价,根据识别效果评价结果进行所述用户特征库的启用结果更新。
在一个实施例中,所述装置还包括:
语义识别网络建立模块,所述语义识别网络建立模块用于建立语义识别网络,其中,所述语义识别网络包括执行词性分割的第一隐含网络和执行组合评价的第二隐含网络;
词性分割判别模块,所述词性分割判别模块用于将所述降噪结果输入所述语义识别网络,通过所述第一隐含网络进行所述降噪结果内的词性分割判别;
组合结果生成模块,所述组合结果生成模块用于依据词性分割判别结果生成组合结果,并将组合结果发送至第二隐含网络;
语义识别结果生成模块,所述语义识别结果生成模块用于通过所述第二隐含网络进行组合效果语义识别,根据识别结果筛选生成语义识别结果。
在一个实施例中,所述装置还包括:
纠错通道建立模块,所述纠错通道建立模块用于建立纠错通道,所述纠错通道为记录用户修正的补偿通道;
直通关联模块,所述直通关联模块用于当确认用户进行补偿修正时,依据所述纠错通道建立异常关键词与目标关键词的直通关联;
语音识别补偿模块,所述语音识别补偿模块用于通过所述直通关联进行后续的语音识别补偿。
综上所述,与现有技术相比,本公开的实施例具有以下技术效果:
(1)通过完善智能语音鼠标中语音识别的步骤和方法,可以提高鼠标语音控制数据识别的准确率,从而提高智能语音鼠标的控制精准性和工作效率。
(2)通过构建场景化数据库,并基于场景定位匹配合适的降噪方法,可以提高语音数据场景降噪的智能化,同时可以提高场景降噪的效率和准确性。
(3)通过生成监督空间对启用用户特征库进行语音识别的效果进行判断,并根据判断结果进行用户特征库的启用结果更新,可以提高用户特征库调用的灵活性,同时也可以提高用户语音识别的准确性。
(4)通过将稳定标识语音数据作为匹配定位特征,只对非稳定标识部分的语音识别结果进行修正,可以提高语音识别结果修正的效率和稳定性。
以上所述实施例仅表达了本公开的几种实施方式,但并不能因此而理解为对发明专利范围的限制。因此,在不脱离如由所附权利要求限定的本公开构思的范围的情况下,本领域普通技术人员可做出各种类型的替换、修改和变更,并且这些替换、修改和变更都属于本公开的保护范围。

Claims (8)

1.一种基于智能语音鼠标的控制方法,其特征在于,所述方法包括:
判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;
若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;
调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识,所述稳定标识用于表征第一语音识别结果中识别内容的稳定性;语音识别内容越清晰,则表征语音识别结果的更改概率越低,则稳定性越高;语音识别结果越模糊,则表征语音识别结果中的部分内容更改概率越大,则稳定性越低;
对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;
判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;
将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,将所述稳定标识语音数据作为匹配定位特征,基于所述匹配定位特征将所述新增更改数据匹配至非稳定标识语音数据的定位位置,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;
根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述智能语音鼠标使用前,对所述智能语音鼠标进行场景数据采集,当场景数据采集执行时,通过智能语音鼠标的定位功能生成场景定位数据;
通过语音接收传感器执行场景语音数据采集,并对所述场景语音数据处理,生成噪声信号特征集;
建立噪声信号特征集与场景定位数据的映射,并基于所述映射构建场景化数据库;
当所述智能语音鼠标处于激活状态,则获取智能语音鼠标的实时位置,并以所述实时位置执行场景化数据库的调用,完成实时语音数据采集结果的场景降噪。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
建立方言数据库,其中,所述方言数据库通过大数据采集构建;
在进行降噪结果的实时识别过程中,依据预设识别窗口内的语音数据进行所述方言数据库的调用匹配,生成组合数据库;
以所述组合数据库进行降噪结果的重构识别,根据重构识别结果生成所述第一语音识别结果。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
记录用户的语音识别特征,其中,所述语音识别特征为用户认证特征;
当进行降噪结果语音识别时,通过预设账户数据库进行降噪结果的账户匹配,生成用户匹配结果,其中,所述账户数据库中存储有语音识别特征,且所述语音识别特征与用户特征库具有映射关系;
基于所述用户匹配结果调用所述用户特征库,执行语音识别,生成第一语音识别结果。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
在进行语音识别特征与降噪结果的匹配时,基于预设识别窗口进行一轮特征匹配,生成匹配相似值;
若匹配相似值满足预设相似阈值,则启用所述用户特征库,并生成监督空间;
在所述监督空间内进行识别效果评价,根据识别效果评价结果进行所述用户特征库的启用结果更新。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
建立语义识别网络,其中,所述语义识别网络包括执行词性分割的第一隐含网络和执行组合评价的第二隐含网络,所述词性分割是指将完整的句子划分为多个短句或词语,所述组合评价用于对重新组合的语句进行语义效果评价;
将所述降噪结果输入所述语义识别网络,通过所述第一隐含网络进行所述降噪结果内的词性分割判别;
依据词性分割判别结果生成组合结果,对所述词性分割判别结果进行随机组合,得到多个组合结果,并将组合结果发送至第二隐含网络;
通过所述第二隐含网络进行组合效果语义识别,根据识别结果筛选生成语义识别结果。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
建立纠错通道,所述纠错通道为记录用户修正的补偿通道;
当确认用户进行补偿修正时,依据所述纠错通道建立异常关键词与目标关键词的直通关联;
通过所述直通关联进行后续的语音识别补偿。
8.一种智能语音鼠标,其特征在于,用于执行权利要求1-7中所述的一种基于智能语音鼠标的控制方法中任意一项方法的步骤,包括:
鼠标激活状态判断模块,所述鼠标激活状态判断模块用于判断智能语音鼠标是否处于激活状态,其中,所述激活状态通过预设时间阈值下的智能键保持状态激活触发;
语音数据采集模块,所述语音数据采集模块用于若所述智能语音鼠标处于激活状态,则调用语音接收传感器执行实时语音数据采集;
第一语音识别结果生成模块,所述第一语音识别结果生成模块用于调用场景化数据库,执行实时语音数据采集结果的场景降噪,并根据降噪结果实时生成第一语音识别结果,并将所述第一语音识别结果可视化显示,其中,可视化显示带有稳定标识,所述稳定标识用于表征第一语音识别结果中识别内容的稳定性;语音识别内容越清晰,则表征语音识别结果的更改概率越低,则稳定性越高;语音识别结果越模糊,则表征语音识别结果中的部分内容更改概率越大,则稳定性越低;
第一语音识别结果校正模块,所述第一语音识别结果校正模块用于对所述降噪结果进行前后语句的语义识别,通过语义识别结果对所述第一语音识别结果校正,生成第二语音识别结果;
新增更改数据接收模块,所述新增更改数据接收模块用于判断预设周期内是否存在更改激活,若存在更改激活,则通过所述语音接收传感器进行新增更改数据接收;
第二语音识别结果修正模块,所述第二语音识别结果修正模块用于将带有稳定标识的语音数据作为匹配数据,对新增更改数据匹配,将所述稳定标识语音数据作为匹配定位特征,基于所述匹配定位特征将所述新增更改数据匹配至非稳定标识语音数据的定位位置,基于匹配结果完成非稳定标识部分的第二语音识别结果修正,生成第三语音识别结果;
可视化显示模块,所述可视化显示模块用于根据第三语音识别结果进行关联搜索,将第三语音识别结果和关联搜索结果可视化显示。
CN202311583116.8A 2023-11-24 2023-11-24 一种基于智能语音鼠标的控制方法及智能语音鼠标 Active CN117292688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311583116.8A CN117292688B (zh) 2023-11-24 2023-11-24 一种基于智能语音鼠标的控制方法及智能语音鼠标

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311583116.8A CN117292688B (zh) 2023-11-24 2023-11-24 一种基于智能语音鼠标的控制方法及智能语音鼠标

Publications (2)

Publication Number Publication Date
CN117292688A CN117292688A (zh) 2023-12-26
CN117292688B true CN117292688B (zh) 2024-02-06

Family

ID=89258921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311583116.8A Active CN117292688B (zh) 2023-11-24 2023-11-24 一种基于智能语音鼠标的控制方法及智能语音鼠标

Country Status (1)

Country Link
CN (1) CN117292688B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267319A (ja) * 2005-03-23 2006-10-05 Nec Corp 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置
JP2014115499A (ja) * 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN114120972A (zh) * 2022-01-28 2022-03-01 科大讯飞华南有限公司 一种基于场景化的语音智能识别方法及系统
CN114791771A (zh) * 2022-04-20 2022-07-26 利辛悟芯信息科技有限公司 智能语音鼠标的交互管理系统及管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US11263198B2 (en) * 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267319A (ja) * 2005-03-23 2006-10-05 Nec Corp 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置
JP2014115499A (ja) * 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN114120972A (zh) * 2022-01-28 2022-03-01 科大讯飞华南有限公司 一种基于场景化的语音智能识别方法及系统
CN114791771A (zh) * 2022-04-20 2022-07-26 利辛悟芯信息科技有限公司 智能语音鼠标的交互管理系统及管理方法

Also Published As

Publication number Publication date
CN117292688A (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN108509619B (zh) 一种语音交互方法及设备
CN108182937B (zh) 关键词识别方法、装置、设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
EP3598437A1 (en) Information processing device, information processing system, information processing method, and program
US7027987B1 (en) Voice interface for a search engine
KR100772660B1 (ko) 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
CN111797632B (zh) 信息处理方法、装置及电子设备
CN108364650B (zh) 语音识别结果的调整装置及方法
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN110060674B (zh) 表格管理方法、装置、终端和存储介质
CN108538294B (zh) 一种语音交互方法及装置
CN108766431B (zh) 一种基于语音识别的自动唤醒方法及电子设备
CN111710337A (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN111414735A (zh) 文本数据的生成方法和装置
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
CN117292688B (zh) 一种基于智能语音鼠标的控制方法及智能语音鼠标
US10282417B2 (en) Conversational list management
CN110099332B (zh) 一种音频环境展示方法及装置
CN109800430B (zh) 一种语义理解方法及系统
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN113436625A (zh) 一种人机交互方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant