CN114842841A - 基于语音识别技术的珠宝终端机交互控制方法及其装置 - Google Patents

基于语音识别技术的珠宝终端机交互控制方法及其装置 Download PDF

Info

Publication number
CN114842841A
CN114842841A CN202210282133.7A CN202210282133A CN114842841A CN 114842841 A CN114842841 A CN 114842841A CN 202210282133 A CN202210282133 A CN 202210282133A CN 114842841 A CN114842841 A CN 114842841A
Authority
CN
China
Prior art keywords
voice
screen
sound intensity
voice recognition
output power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210282133.7A
Other languages
English (en)
Other versions
CN114842841B (zh
Inventor
林哲琼
陶震东
潘迪
叶建芬
曾威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Jewelry Testing Center Guangdong Co ltd
Original Assignee
National Jewelry Testing Center Guangdong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Jewelry Testing Center Guangdong Co ltd filed Critical National Jewelry Testing Center Guangdong Co ltd
Priority to CN202210282133.7A priority Critical patent/CN114842841B/zh
Publication of CN114842841A publication Critical patent/CN114842841A/zh
Application granted granted Critical
Publication of CN114842841B publication Critical patent/CN114842841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于语音识别技术的珠宝终端机交互控制方法及其装置、珠宝终端机,所述方法包括:对两个语音采集装置分别采集到的语音段分别进行语音识别,并从两个语音识别结果中确定有效语音识别结果,然后确定与有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,以分别获取对应的屏幕显示内容和语音反馈内容,实现语音交互功能。同时还根据声强比值确定屏幕操作显示内容在显示屏上的屏幕操作显示区域,以使屏幕显示的界面内容始终距离用户较近。此外,还根据声强比值确定机体左右两侧扬声器的输出功率比,然后基于预设标准输出功率及输出功率比,计算左右两侧扬声器的实际输出功率,使用户获得一个左右耳声强平衡的语音交互环境。

Description

基于语音识别技术的珠宝终端机交互控制方法及其装置
技术领域
本发明涉及珠宝终端机交互控制技术领域,特别是涉及一种基于语音识别技术的珠宝终端机交互控制方法及其装置、珠宝终端机。
背景技术
目前,都是通过与屏幕交互来操作控制珠宝终端机的,珠宝终端机没有语音交互功能,操作方式单一不灵活。当珠宝终端机处理好用户的屏幕交互指令后,会得到对应的处理结果,并会将相关的处理结果显示在珠宝终端机的屏幕的中央和通过多个扬声器以立体声的方式播给用户听。
现有的这种用户与珠宝终端机的交互方式存在以下问题:由于只通过屏幕的中央显示相关信息并通过扬声器以固定的输出功率来播放声音,这样当用户相对于珠宝终端机的当前站立位置发生变动而不再正对屏幕的中央时(例如用户因为需要好好欣赏位于珠宝终端机左侧的展示柜上的珠宝展品而站在珠宝终端机的左侧时),用户可能会距离屏幕的中央比较远,难以看到和操作屏幕的中央的界面内容,导致用户的屏幕交互体验较差,而且珠宝终端机的扬声器播放出的音量是预先设定好的,用户往往难以获得一个左右耳声强平衡的良好的语音交互环境。因此,亟需能给用户带来良好的与珠宝终端机交互体验的技术。
发明内容
本发明的目的是提供一种基于语音识别技术的珠宝终端机交互控制方法及其装置、珠宝终端机,基于语音识别技术,不仅能够使得珠宝终端机具有语音交互功能,提高了用户与珠宝终端机的交互体验,同时,在用户与珠宝终端机交互的过程中,还能基于语音识别技术来使得屏幕显示的界面内容始终距离用户较近,提高用户与屏幕界面的交互体验,而且还基于语音识别技术来使得用户获得一个左右耳声强平衡的良好的语音交互环境。
为了实现上述目的,本发明提供一种基于语音识别技术的珠宝终端机交互控制方法,应用于珠宝终端机,所述珠宝终端机包括机体、设置于所述机体上的显示屏、以及分别设置于所述机体左右两侧的两个语音采集装置和至少两个扬声器;所述交互控制方法包括:
获取所述两个语音采集装置采集到的由当前用户发出的语音段;
对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
作为优选方案,所述基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果,包括:
将两个所述语音识别结果分别与语音样本库中对应的标准语音样本进行对比,获得第一相似度和第二相似度;
对比所述第一相似度和所述第二相似度的大小;
将所述第一相似度和所述第二相似度中相似度较大的所对应的所述语音识别结果确定为有效语音识别结果。
作为优选方案,所述确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,包括:
在预先建立的语音识别结果与屏幕显示控制指令的映射关系以及语音识别结果与屏幕显示控制指令的映射关系中,查找出与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令。
作为优选方案,所述根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域,包括:
在预设的声强比值与屏幕操作显示内容在显示屏上的屏幕操作显示区域之间的映射关系中,查找出与所述声强比值相对应的屏幕操作显示内容在屏幕上的屏幕操作显示区域,进而确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域。
作为优选方案,所述预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,包括:
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值大于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的左侧区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值等于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的中间区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值小于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的右侧区域。
作为优选方案,所述根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比,包括:
在预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系中,查找出与所述声强比值相对应的机体左右两侧的扬声器的输出功率比。
作为优选方案,所述预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系为反比关系。
作为优选方案,所述基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率,包括:
将所述输出功率比乘以预设的标准输出功率,得到所述机体左右两侧的扬声器的实际输出功率。
本发明还提供一种基于语音识别技术的珠宝终端机交互控制装置,包括:
语音获取模块,用于获取所述珠宝终端机的所述两个语音采集装置采集到的由当前用户发出的语音段;
语音识别模块,用于对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
声强比值计算模块,用于在所述语音识别模块判断两个所述语音识别结果的语音相似度大于预设阈值时,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
指令确定模块,用于确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
屏幕操作显示区域确定模块,用于根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
输出功率比确定模块,用于根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
实际输出功率确定模块,用于基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
显示和语音控制模块,用于控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
本发明还提供一种珠宝终端机,包括机体、显示屏、分别设置于所述机体左右两侧的两个语音采集装置和至少两个扬声器、以及控制装置,所述显示屏设置在所述机体上,所述控制装置设置在所述机体内并分别与所述显示屏、两个语音采集装置以及所述至少两个扬声器电连接;
所述两个语音采集装置用于采集由当前用户发出的语音段;
所述控制装置用于:
获取所述两个语音采集装置采集到的由当前用户发出的语音段;
对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
相比于现有技术,本发明的有益效果在于:
本发明提供了一种基于语音识别技术的珠宝终端机交互控制方法及其装置、珠宝终端机,交互控制方法基于语音识别技术,对所述两个语音采集装置采集到的所述语音段分别进行语音识别,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果,然后确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容,从而能够使得珠宝终端机具有语音交互功能,提高了用户与珠宝终端机的交互体验。同时,在用户与珠宝终端机交互的过程中,还能基于语音识别技术,具体为根据两个所述语音段各自对应的平均声音强度的声强比值,以及预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域,来使得屏幕显示的界面内容始终距离用户较近,提高用户与屏幕界面的交互体验。此外,还基于语音识别技术,具体为根据所述声强比值预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比,然后基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率,从而使得用户获得一个左右耳声强平衡的良好的语音交互环境。因此,本发明能大大提高用户与珠宝终端机的交互体验。
附图说明
图1是本发明实施例中的基于语音识别技术的珠宝终端机交互控制方法的流程示意图;
图2是本发明实施例中的基于语音识别技术的珠宝终端机交互控制装置的结构示意图;
图3是本发明实施例中的珠宝终端机的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种基于语音识别技术的珠宝终端机交互控制方法,应用于珠宝终端机。所述珠宝终端机包括机体、设置于所述机体上的显示屏、以及分别设置于所述机体左右两侧的两个语音采集装置和至少两个扬声器。所述交互控制方法包括以下步骤:
S10、获取所述两个语音采集装置采集到的由当前用户发出的语音段。
两个语音采集装置分别位于机体的左右两侧,当两个语音采集装置监听到珠宝终端机周围用户的声音时,珠宝终端机获取两个语音采集装置采集到的由用户当前发出的语音段,例如机体左侧的语音采集装置采集到的语音段标识为第一语音段,机体右侧的语音采集装置采集到的语音段标识为第二语音段,以作区分。
在一个实施例中,根据每个语音采集装置采集到的用户语音的停顿时间,将用户语音划分为多段语音段。
具体的,在检测到用户语音的停顿时间超过预设时间时,则将停顿前的用户语音确定为用户当前发出的语音段。其中,预设时间可以5秒、7秒、10秒等,以表示用户发出的语音具有明显的停顿。
S20、对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值。
由于两个语音采集装置安装在不同地方,受两个语音采集装置与用户之间的距离、语音采集装置各自周围的环境噪音的影响,可能会出现同一个用户说话,由两个语音采集装置采集后,并分析得到的两个语音识别结果不完全相同,例如音量不同,但是音频特征一般不会相差太多的情况,还可能会出现两个语音段由不同用户同时发出,音频特征相差较多,会导致珠宝终端机不知道该执行哪个用户的语音指令或者重复执行两个用户的语音指令的情况。因此,有必要判断两个语音识别结果的语音相似度是否大于预设阈值,若是,则表明是该两段语音是由同一个用户发出的,然后执行步骤S30,若否,则表明是该两段语音不是由同一个用户发出的,后续不做处理,避免所要分析的两个语音段由不同用户发出的情况。
可以理解,根据语音进行语音识别属于较为常见的技术,本发明实施例中对所述两个语音采集装置采集到的所述语音段分别进行语音识别可参见现有的语音识别技术,在此不再赘述。
S30、若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果。
在本发明实施例中,通过计算两个所述语音段各自对应的平均声音强度的声强比值,来判断用户相对珠宝终端机的当前站立位置,以便根据用户相对珠宝终端机的当前站立位置提供完善的交互体验。
此外,为确保语音识别的准确性,以及避免语音识别容易受到环境噪音的干扰,从而提高珠宝终端机对语音识别的抗干扰能力,本发明实施例还将两个语音识别结果与语音样本库的标准语音样本进行对比,以获得有效语音识别结果。
在一个具体的实施例中,上述步骤S30中基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果,具体包括以下步骤:
S31、将两个所述语音识别结果分别与语音样本库中对应的标准语音样本进行对比,获得第一相似度和第二相似度;
S32、对比所述第一相似度和所述第二相似度的大小;
S33、将所述第一相似度和所述第二相似度中相似度较大的所对应的所述语音识别结果确定为有效语音识别结果。
在本发明实施例中,将语音识别结果与语音样本库中的各个标准语音样本进行比对,将与标准语音样本的相似度较大的语音识别结果作为有效的语音识别结果,剔除与标准语音样本的相似度较小的语音识别结果,从而确保语音识别的准确性,以及避免语音识别容易受到环境噪音的干扰,从而提高珠宝终端机对语音识别的抗干扰能力。
S40、确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容。
在一个具体的实施例中,上述步骤S40中所述确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,具体包括以下步骤:
在预先建立的语音识别结果与屏幕显示控制指令的映射关系以及语音识别结果与屏幕显示控制指令的映射关系中,查找出与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令。
在本发明实施例中,屏幕显示控制指令及语音反馈指令两者预先与各个语音识别结果建立有映射关系。基于以上两种映射关系,可以查找出与有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令。在获得屏幕显示控制指令及语音反馈指令后,则可以根据屏幕显示控制指令来获取对应的屏幕显示内容,且根据语音反馈指令获取对应的语音反馈内容。
其中,屏幕显示内容指的是与语音识别结果相对应的显示内容,可供用户操作。示例性的,识别到语音是珠宝选购的指令,则屏幕显示控制指令可以是珠宝选购页面显示控制指令,屏幕显示内容可以是珠宝选购弹窗,该珠宝选购弹窗可供用户进行选购操作。同理的,语音反馈指令指的是与语音识别结果相对应的语音反馈内容,示例性的,语音反馈指令可以是珠宝选购提示语音指令,语音反馈内容可以是“欢迎进行珠宝选购”等。
S50、根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域。
当用户相对于珠宝终端机的当前站立位置发生变动而不再正对屏幕的中央时(例如用户因为需要好好欣赏位于珠宝终端机左侧的展示柜上的珠宝展品而站在珠宝终端机的左侧时),用户可能会距离屏幕的中央比较远,难以看到和操作屏幕的中央的界面内容,导致用户的屏幕交互体验较差。
为解决此问题,在本发明实施例中,通过所述声强比值,来确定上述的屏幕操作显示内容在屏幕上的屏幕操作显示区域,以符合用户当前站立位置的屏幕操作习惯,珠宝终端机的显示屏屏幕交互体验好。
在一个具体的实施例中,上述步骤S50具体包括以下步骤:
在预设的声强比值与屏幕操作显示内容在显示屏上的屏幕操作显示区域之间的映射关系中,查找出与所述声强比值相对应的屏幕操作显示内容在屏幕上的屏幕操作显示区域,进而确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域。
在一个具体的实施例中,所述预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,包括:
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值大于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的左侧区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值等于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的中间区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值小于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的右侧区域。
示例性的,在预设的声强比值与屏幕操作显示内容在显示屏上的屏幕操作显示区域之间的映射关系中,例如左右两侧的声强比值是1:1,声强比值等于1,则屏幕操作显示区域可以是屏幕的中间,使得屏幕操作显示区域刚好正对位于屏幕中间的用户,从而方便用户对屏幕上的屏幕操作显示内容进行操作;又例如左右两侧的声强比值是1.3:1,声强比值大于1,则屏幕操作显示区域可以是屏幕的左侧,使得屏幕操作显示区域刚好正对位于屏幕左侧的用户,从而方便用户对屏幕上的屏幕操作显示内容进行操作;又例如左右两侧的声强比值是1:1.3,声强比值小于1,则屏幕操作显示区域可以是屏幕的右侧,使得屏幕操作显示区域刚好正对着位于屏幕右侧的用户,从而方便用户对屏幕上的屏幕操作显示内容进行操作。如此,屏幕操作显示区域符合用户当前站立位置的屏幕操作习惯,珠宝终端机的屏幕交互体验好。
S60、根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比。
S70、基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率。
在本发明实施例中,标准输出功率指的是珠宝终端机左右两侧扬声器的额定的输出功率,按照对应的输出功率左右两侧扬声器播放声音,站在珠宝终端机中间前侧的用户左右耳听到的声音的强度是相同的,但是由于至少两个扬声器分别位于珠宝终端机机体的左右两侧,站在珠宝终端机左右侧的用户左右耳听到的声音的强度是不同的,并且现有的珠宝终端机的扬声器播放出的音量是预先设定好的,导致用户在不同的位置无法恒定获得一个左右声强平衡的良好的语音交互环境。因此,需要用输出功率比来反应用户相对于珠宝终端机站立的位置,并根据输出功率比来确定机体左右两侧的扬声器的输出功率比,来确定机体左右两侧的扬声器的实际输出功率,从而使得左右两侧的扬声器能够根据用户站立的当前站立位置来播放对应强度的声音,进而使得用户相对于珠宝终端机能够获得一个左右声强平衡的良好的语音交互环境。
在一个具体的实施例中,上述步骤S60具体包括以下步骤:
在预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系中,查找出与所述声强比值相对应的机体左右两侧的扬声器的输出功率比。
在本发明实施例中,根据步骤S30计算的声强比值来确定珠宝终端机的左右侧的扬声器的输出功率比,进而根据预设的标准输出功率和输出功率比,计算机体左右两侧的扬声器的实际输出功率。
在一个具体的实施例中,所述预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系为反比关系。
示例性的,在预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系中,例如左右两侧的声强比值是1:1,则左侧的扬声器和右侧的扬声器的输出功率比可以为1:1,表明用户位于显示屏屏幕的屏幕中间,而左右侧的扬声器的输出功率比可以使得用户的左右声强平衡;又例如左右两侧的声强比值是1.3:1,则左侧的扬声器和右侧的扬声器的输出功率比可以为1:1.3,表明用户位于显示屏屏幕的左侧,而左右侧的扬声器的输出功率比可以使得用户的左右声强平衡;又例如左右两侧的声强比值是1:1.3,则左侧的扬声器和右侧的扬声器的输出功率比可以为1.3:1,表明用户位于显示屏屏幕的右侧,而左右侧的扬声器的输出功率比可以使得用户的左右声强平衡。
在一个具体的实施例中,上述步骤S70具体包括以下步骤:
将所述输出功率比乘以预设的标准输出功率,得到所述机体左右两侧的扬声器的实际输出功率。
本发明实施例在根据输出功率比来确定用户用户相对珠宝终端机的当前站立位置后,将预设的标准输出功率及输出功率比进行乘积,以计算得到珠宝终端机的左右两侧的扬声器的实际输出功率,如此,左右两侧的扬声器能够根据用户站立的当前站立位置来播放对应强度的声音,从而使得用户相对于珠宝终端机能够获得一个左右声强平衡的良好的语音交互环境。
S80、控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
请参阅图2,本发明实施例还提供一种基于语音识别技术的珠宝终端机交互控制装置,包括:
语音获取模块,用于获取所述珠宝终端机的所述两个语音采集装置采集到的由当前用户发出的语音段;
语音识别模块,用于对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
声强比值计算模块,用于在所述语音识别模块判断两个所述语音识别结果的语音相似度大于预设阈值时,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
指令确定模块,用于确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
屏幕操作显示区域确定模块,用于根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
输出功率比确定模块,用于根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
实际输出功率确定模块,用于基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
显示和语音控制模块,用于控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
请参阅图3,本发明实施例还提供一种珠宝终端机1000,可以应用于上述任一实施例中的基于语音识别技术的珠宝终端机交互控制方法。该珠宝终端机1000包括机体11、显示屏12、分别设置于所述机体11左右两侧的两个语音采集装置13和至少两个扬声器14、以及控制装置15,所述显示屏12设置在所述机体11上,所述控制装置15设置在所述机体11内并分别与所述显示屏12、两个语音采集装置13以及所述至少两个扬声器14电连接;
所述两个语音采集装置13用于采集由当前用户发出的语音段;
所述控制装置15用于:
获取所述两个语音采集装置13采集到的由当前用户发出的语音段;
对所述两个语音采集装置13分别采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏12上的屏幕操作显示区域;
根据所述声强比值,并根据预设的声强比值与位于机体11左右两侧的扬声器14的输出功率比的映射关系,确定所述机体11左右两侧的扬声器14的输出功率比;
基于预设的标准输出功率及所述输出功率比,计算所述机体11左右两侧的扬声器14的实际输出功率;
控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体11左右两侧的扬声器14按照各自对应的所述实际输出功率播放所述语音反馈内容。
关于基于语音识别技术的珠宝终端机1000交互控制装置15以及珠宝终端机1000的具体限定可以参见上文中对于基于语音识别技术的珠宝终端机交互控制方法的限定,在此不再赘述。上述基于语音识别技术的珠宝终端机1000交互控制装置15以及珠宝终端机1000中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
相比于现有技术,本发明的有益效果在于:
本发明提供了一种基于语音识别技术的珠宝终端机交互控制方法及其装置、珠宝终端机1000,交互控制方法基于语音识别技术,对所述两个语音采集装置13分别采集到的所述语音段分别进行语音识别,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果,然后确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容,从而能够使得珠宝终端机1000具有语音交互功能,提高了用户与珠宝终端机1000的交互体验。同时,在用户与珠宝终端机1000交互的过程中,还能基于语音识别技术,具体为根据两个所述语音段各自对应的平均声音强度的声强比值,以及声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏12上的屏幕操作显示区域,来使得屏幕显示的界面内容始终距离用户较近,提高用户与屏幕界面的交互体验。此外,还基于语音识别技术,具体为根据所述声强比值以及预设的声强比值与位于机体11左右两侧的扬声器14的输出功率比的映射关系,确定所述机体11左右两侧的扬声器14的输出功率比,然后基于预设的标准输出功率及所述输出功率比,计算所述机体11左右两侧的扬声器14的实际输出功率,从而使得用户获得一个左右耳声强平衡的良好的语音交互环境。因此,本发明能大大提高用户与珠宝终端机1000的交互体验。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现如上述任意一个实施例所述的基于语音识别技术的珠宝终端机交互控制方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由终端设备的处理器执行以完成上述的基于语音识别技术的珠宝终端机交互控制方法,并达到如上述方法一致的技术效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以作出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (10)

1.一种基于语音识别技术的珠宝终端机交互控制方法,其特征在于,应用于珠宝终端机,所述珠宝终端机包括机体、设置于所述机体上的显示屏、以及分别设置于所述机体左右两侧的两个语音采集装置和至少两个扬声器;所述交互控制方法包括:
获取所述两个语音采集装置采集到的由当前用户发出的语音段;
对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
2.如权利要求1所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果,包括:
将两个所述语音识别结果分别与语音样本库中对应的标准语音样本进行对比,获得第一相似度和第二相似度;
对比所述第一相似度和所述第二相似度的大小;
将所述第一相似度和所述第二相似度中相似度较大的所对应的所述语音识别结果确定为有效语音识别结果。
3.如权利要求1所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,包括:
在预先建立的语音识别结果与屏幕显示控制指令的映射关系以及语音识别结果与屏幕显示控制指令的映射关系中,查找出与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令。
4.如权利要求1所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域,包括:
在预设的声强比值与屏幕操作显示内容在显示屏上的屏幕操作显示区域之间的映射关系中,查找出与所述声强比值相对应的屏幕操作显示内容在屏幕上的屏幕操作显示区域,进而确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域。
5.如权利要求4所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,包括:
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值大于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的左侧区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值等于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的中间区域;
若屏幕的左侧平均声音强度与右侧平均声音强度的声强比值小于1,则屏幕操作显示内容在显示屏上的屏幕操作显示区域为所述屏幕的右侧区域。
6.如权利要求1所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比,包括:
在预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系中,查找出与所述声强比值相对应的机体左右两侧的扬声器的输出功率比。
7.如权利要求6所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,
所述预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系为反比关系。
8.如权利要求7所述的基于语音识别技术的珠宝终端机交互控制方法,其特征在于,所述基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率,包括:
将所述输出功率比乘以预设的标准输出功率,得到所述机体左右两侧的扬声器的实际输出功率。
9.一种基于语音识别技术的珠宝终端机交互控制装置,其特征在于,包括:
语音获取模块,用于获取所述珠宝终端机的所述两个语音采集装置采集到的由当前用户发出的语音段;
语音识别模块,用于对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
声强比值计算模块,用于在所述语音识别模块判断两个所述语音识别结果的语音相似度大于预设阈值时,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
指令确定模块,用于确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
屏幕操作显示区域确定模块,用于根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
输出功率比确定模块,用于根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
实际输出功率确定模块,用于基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
显示和语音控制模块,用于控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
10.一种珠宝终端机,其特征在于,包括机体、显示屏、分别设置于所述机体左右两侧的两个语音采集装置和至少两个扬声器、以及控制装置,所述显示屏设置在所述机体上,所述控制装置设置在所述机体内并分别与所述显示屏、两个语音采集装置以及所述至少两个扬声器电连接;
所述两个语音采集装置用于采集由当前用户发出的语音段;
所述控制装置用于:
获取所述两个语音采集装置采集到的由当前用户发出的语音段;
对所述两个语音采集装置采集到的所述语音段分别进行语音识别,得到对应的两个语音识别结果,并判断两个所述语音识别结果的语音相似度是否大于预设阈值;
若是,计算两个所述语音段各自对应的平均声音强度的声强比值,并基于语音样本库的标准语音样本,从两个所述语音识别结果中确定有效语音识别结果;
确定与所述有效语音识别结果相对应的屏幕显示控制指令及语音反馈指令,并根据所述屏幕显示控制指令来获取对应的屏幕显示内容,以及根据所述语音反馈指令获取对应的语音反馈内容;
根据所述声强比值和预设的声强比值与屏幕操作显示内容在屏幕上的屏幕操作显示区域之间的映射关系,确定所述屏幕操作显示内容在所述显示屏上的屏幕操作显示区域;
根据所述声强比值,并根据预设的声强比值与位于机体左右两侧的扬声器的输出功率比的映射关系,确定所述机体左右两侧的扬声器的输出功率比;
基于预设的标准输出功率及所述输出功率比,计算所述机体左右两侧的扬声器的实际输出功率;
控制在所述显示器上的所述屏幕操作显示区域显示所述屏幕操作显示内容,并控制所述机体左右两侧的扬声器按照各自对应的所述实际输出功率播放所述语音反馈内容。
CN202210282133.7A 2022-03-22 2022-03-22 基于语音识别技术的珠宝终端机交互控制方法及其装置 Active CN114842841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210282133.7A CN114842841B (zh) 2022-03-22 2022-03-22 基于语音识别技术的珠宝终端机交互控制方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282133.7A CN114842841B (zh) 2022-03-22 2022-03-22 基于语音识别技术的珠宝终端机交互控制方法及其装置

Publications (2)

Publication Number Publication Date
CN114842841A true CN114842841A (zh) 2022-08-02
CN114842841B CN114842841B (zh) 2024-01-05

Family

ID=82561887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282133.7A Active CN114842841B (zh) 2022-03-22 2022-03-22 基于语音识别技术的珠宝终端机交互控制方法及其装置

Country Status (1)

Country Link
CN (1) CN114842841B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118880A (en) * 1998-05-18 2000-09-12 International Business Machines Corporation Method and system for dynamically maintaining audio balance in a stereo audio system
KR20140046653A (ko) * 2012-10-09 2014-04-21 주식회사 포스코 조명 기기 제어 장치
US20140219471A1 (en) * 2013-02-06 2014-08-07 Apple Inc. User voice location estimation for adjusting portable device beamforming settings
WO2018045743A1 (zh) * 2016-09-06 2018-03-15 中兴通讯股份有限公司 屏幕显示方向的调整方法及装置、存储介质、设备
KR20180041464A (ko) * 2016-10-14 2018-04-24 주식회사 디이씨코리아 가상현실 게임의 사운드 처리 방법 및 어플리케이션
US20220014867A1 (en) * 2018-10-29 2022-01-13 Goertek Inc. Orientated display method and apparatus for audio device, and audio device
CN114120603A (zh) * 2021-11-26 2022-03-01 歌尔科技有限公司 语音控制方法、耳机和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118880A (en) * 1998-05-18 2000-09-12 International Business Machines Corporation Method and system for dynamically maintaining audio balance in a stereo audio system
KR20140046653A (ko) * 2012-10-09 2014-04-21 주식회사 포스코 조명 기기 제어 장치
US20140219471A1 (en) * 2013-02-06 2014-08-07 Apple Inc. User voice location estimation for adjusting portable device beamforming settings
WO2018045743A1 (zh) * 2016-09-06 2018-03-15 中兴通讯股份有限公司 屏幕显示方向的调整方法及装置、存储介质、设备
KR20180041464A (ko) * 2016-10-14 2018-04-24 주식회사 디이씨코리아 가상현실 게임의 사운드 처리 방법 및 어플리케이션
US20220014867A1 (en) * 2018-10-29 2022-01-13 Goertek Inc. Orientated display method and apparatus for audio device, and audio device
CN114120603A (zh) * 2021-11-26 2022-03-01 歌尔科技有限公司 语音控制方法、耳机和存储介质

Also Published As

Publication number Publication date
CN114842841B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN108369805B (zh) 一种语音交互方法、装置和智能终端
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
EP3826012B1 (en) Method and device for evaluating performance of speech enhancement algorithm, electronic device and computer-readable storage medium
CN110335593B (zh) 语音端点检测方法、装置、设备及存储介质
CN108681440A (zh) 一种智能设备音量控制方法及系统
CN109448705B (zh) 一种语音切分方法及装置、计算机装置和可读存储介质
CN106101929A (zh) 一种保护人耳听力方法及移动终端
WO2020048431A1 (zh) 一种语音处理方法、电子设备和显示设备
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN111090412B (zh) 一种音量调节方法、装置及音频设备
EP4033483B1 (en) Method and apparatus for testing vehicle-mounted voice device, electronic device and storage medium
US20240096343A1 (en) Voice quality enhancement method and related device
CN113949955A (zh) 降噪处理方法、装置、电子设备、耳机及存储介质
CN110599989A (zh) 音频处理方法、装置及存储介质
EP2030195B1 (en) Speech differentiation
CN110619888B (zh) 一种ai语音速率调整方法、装置及电子设备
EP4084002B1 (en) Information processing method, electronic equipment, storage medium, and computer program product
CN107680592A (zh) 一种移动终端语音识别方法、及移动终端及存储介质
CN110931019A (zh) 公安语音数据采集方法、装置、设备和计算机存储介质
CN114842841B (zh) 基于语音识别技术的珠宝终端机交互控制方法及其装置
CN113270099B (zh) 智能语音提取方法、装置、电子设备及存储介质
CN110197663A (zh) 一种控制方法、装置及电子设备
CN109274826B (zh) 语音播放模式的切换方法、装置、终端和计算机可读存储介质
CN111785277A (zh) 语音识别方法、装置、计算机可读存储介质以及处理器
US20230239617A1 (en) Ear-worn device and reproduction method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant