CN117409781B - 一种基于智能机顶盒的人机交互管理系统 - Google Patents

一种基于智能机顶盒的人机交互管理系统 Download PDF

Info

Publication number
CN117409781B
CN117409781B CN202311721881.1A CN202311721881A CN117409781B CN 117409781 B CN117409781 B CN 117409781B CN 202311721881 A CN202311721881 A CN 202311721881A CN 117409781 B CN117409781 B CN 117409781B
Authority
CN
China
Prior art keywords
voice
time zone
analysis time
result
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311721881.1A
Other languages
English (en)
Other versions
CN117409781A (zh
Inventor
庄怀耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hengli Digital Technology Co ltd
Original Assignee
Shenzhen Hengli Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hengli Digital Technology Co ltd filed Critical Shenzhen Hengli Digital Technology Co ltd
Priority to CN202311721881.1A priority Critical patent/CN117409781B/zh
Publication of CN117409781A publication Critical patent/CN117409781A/zh
Application granted granted Critical
Publication of CN117409781B publication Critical patent/CN117409781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于智能机顶盒的人机交互管理系统,涉及机顶盒人机交互技术领域;本发明通过使用文本匹配算法与语音模型内预设的语音指令进行匹配,若匹配失败,则获取语音模型内与该文本结果匹配的可能结果;并通过对分析时区内智能机顶盒所处周围环境的人声环境评估指数和户外环境评估指数进行综合分析,得到当前分析时区内环境误差评估指数,由此评估当前唤醒用户发送语音指令时的周围环境影响程度,基于当前分析时区的周围环境影响程度判断当前语音指令匹配结果的准确程度,提高了用户的语音指令识别的准确性,避免误解用户的意思从而错误的执行。

Description

一种基于智能机顶盒的人机交互管理系统
技术领域
本发明涉及机顶盒人机交互技术领域,特别涉及一种基于智能机顶盒的人机交互管理系统。
背景技术
数字视频变换盒,通常称作机顶盒或机上盒,是一个连接电视机与外部信号源的设备,它可以将压缩的数字信号转成电视内容,并在电视机上显示出来。
现有的智能机顶盒在使用过程中通常具备人机交互管理系统,用户发出语音指令对电视进行相应的调节,但现有的智能机顶盒人机交互管理系统在使用过程中还存在以下问题:
在唤醒用户语音指令匹配失败时,不能对智能机顶盒所处周围环境的影响因素进行分析,包括唤醒用户外的其他人员噪声以及智能机顶盒所处区域内的室外噪声;判断当前语音指令匹配结果的准确程度,导致用户的语音指令被错误的识别,准确性较低;
在唤醒用户语音指令匹配失败时,只考虑周围环境因素影响,没有进一步分析唤醒用户自身语音指令的影响程度,考虑较为片面;
为此,推出一种基于智能机顶盒的人机交互管理系统。
发明内容
有鉴于此,本发明提供一种基于智能机顶盒的人机交互管理系统,可以实现对智能机顶盒所处周围环境的影响因素进行分析,判断当前唤醒用户语音指令的准确性,以解决上述背景技术提出的问题。
本发明的目的可以通过以下技术方案实现:包括语音交互模块、语音分析模块、误差判断模块、中央管理模块以及语音模型构建模块;
语音交互模块通过用户在对智能机顶盒进行唤醒后,通过语音对智能机顶盒发出指令,对连接电视进行调节;
语音指令包括但不局限于“打开电视”、“关闭电视”、“调高音量”以及“播放某某电影”。
语音分析模块在用户对机顶盒进行唤醒时,对唤醒用户的音色进行识别和确认,确认完成后,智能机顶盒进行语音指令识别,并在此过程中排除其他说话用户的语音指令,只关注唤醒用户的语音指令;
智能机顶盒对接收到的语音指令进行预处理,预处理包括去噪和增强;并使用语音识别技术将预处理后的语音指令转换为文本,对于识别得到的文本结果,使用文本匹配算法与语音模型内预设的语音指令进行匹配,若匹配失败,则获取语音模型内与该文本结果匹配的可能结果并发送至误差判断模块;
误差判断模块内设置有环境分析单元与指令分析单元;
环境分析单元在唤醒用户语音指令出现匹配失败时,对机顶盒周围的环境影响参数进行分析,得到环境误差评估指数YZC;具体为:
将智能机顶盒被唤醒到开始识别语音指令的过程标记为分析时区;
在智能机顶盒上设置一个麦克风阵列,并在设定的几何形状中布置;通过麦克风阵列同时采集当前分析时区内除唤醒者外多个人员的声音信号;
利用声源定位算法处理麦克风阵列采集到得到人员声音信号,并进行估算得到当前各人员声源与智能机顶盒之间的方向和距离,同时统计当前定位方向或距离的数量,得到人声数量RX;
将各人员声源与智能机顶盒之间的距离值标记为RY;
以当前智能机顶盒语音接收端为起始点向外作水平延长线;基于各人员声源与智能机顶盒之间的方向,以智能机顶盒语音接收端为起始点沿着各人员声源方向作延长线得到角度构建线;
分别计算各条角度构建线与水平延长线之间的角度,得到各人员声源的角度偏离值;
将各人员声源的角度偏离值与设定的多个取值范围进行匹配,得到当前分析时区内各人员的角度影响值RP;设定每个取值范围分别匹配一个人员声源的角度影响值;
声音在传播过程中会受到空气、物体等的阻挡和反射,因此声音从不同角度到达机顶盒的接收端时可能存在衰减、混响或其他变化。
通过声源分离技术将当前分析时区内不同人员声源的声音进行分离和提取,并利用声音处理算法,得到当前分析时区内不同方向人员对应的分贝值RS;
将对应人员的距离值RY、角度影响值RP以及分贝值RS代入公式进行计算得到当前分析时区内各人员的人声评估值RT;其中a1、a2以及a3分别为对应人员距离值RY、角度影响值RP以及分贝值RS的影响权重因子;
将当前分析时区内除唤醒者外各人员的人声评估值RT进行累加计算,得到当前分析时区内人声影响值RM;
将当前分析时区内的人声影响值RM与人声数量RX代入公式进行计算得到当前分析时区的人声环境评估指数RSP;其中RM参考和RX参考分别表示对应型号智能机顶盒的参考人声影响值和参考人声数量;gh1和gh2分别为人声影响值RM与人声数量RX的影响权重因子;
利用门窗状态检测器获取当前分析时区内智能机顶盒所处区域窗户开窗的大小,并标记为KH,单位为厘米;
将当前窗户开窗大小KH与对应的多个取值范围进行匹配,得到开窗影响值CD;设定每个取值范围分别对应一个开窗影响值;
利用风速仪和风向传感器获取当前分析时区内窗户外的风速以及风向;
计算当前分析时区窗户外风向与窗户水平面之间的夹角,得到风向偏离角度;并将当前分析时区内窗户的风向偏离角度与对应的多个取值范围进行匹配,得到当前分析时区内窗户的风向偏离值CR;设定每个取值范围分别对应一个风向偏离值;
将当前分析时区内窗户外的风速值标记为CU;
将当前分析时区内智能机顶盒所处区域窗户的开窗影响值CD、风向偏离值CR以及风速值CU代入公式进行计算得到当前分析时区内的户外环境评估指数RTY;其中CD参考、CR参考以及CU参考分别为开窗影响值CD、风向偏离值CR以及风速值CU的参考值;
当窗户开放范围较广且外面风速较大时,风会产生较大的噪声,这种风噪声可能会对语音识别造成干扰。风噪声通常具有较高的频率成分,而语音信号的频率范围主要集中在较低的频率范围内,这使得风噪声更容易干扰语音信号;
开窗大小以及外面的风速风向也会影响室内的空气流通和质量。较强的风会加速空气流动,可能会扰乱室内的声学环境,在一定程度上影响语音信号的传播和接收。
将当前分析时区内的人声环境评估指数RSP和户外环境评估指数RTY代入公式进行计算得到当前分析时区的环境误差评估指数YZC;其中RSP允许和RTY允许分别表示对应型号智能机顶盒的人声环境允许指数和户外环境允许指数;ue1和ue2分别为人声环境评估指数RSP和户外环境评估指数RTY的影响权重因子;
指令分析单元在唤醒用户语音指令出现匹配失败时,对唤醒用户的语音指令进行分析,得到指令误差评估指数ZLP;具体为:
提取预处理后的唤醒用户语音指令的音频时长,单位为秒,同时获取当前唤醒用户语音指令所对应的识别文本结果;统计文本结果的识别字数,并与唤醒用户语音指令的音频时长进行整合,得到当前唤醒用户语音指令数据包;
将当前分析时区内唤醒用户的语音指令数据包与对应的多个预设数据包进行匹配;得到唤醒用户语音指令数据包匹配结果以及语速估值YS;设定每个预设数据包分别对应一个匹配结果和语速估值YS;其中匹配结果包括语速较快、语速过快、语速正常、语速较慢以及语速过慢;
唤醒用户的语速较快可能会影响语音识别的准确性,而语速较慢表示用户说话连续性与流畅性较低;语速估值YS越大代表当前语音指令过快或过慢。
将当前分析时区内唤醒用户的语音指令识别文本结果与该文本结果匹配的可能结果之间进行比对,得到两者之间的差异字数量YT;
基于当前分析时区内唤醒用户的语音指令识别文本总字数与可能结果的总字数之间的比对结果,将上述参数代入公式进行计算得到当前分析时区内唤醒用户的指令误差评估指数ZLP;其中Z1和Z2分别表示语音指令识别文本总字数与可能结果的总字数;ΔZ表示语音指令识别文本总字数与可能结果总字数之间的允许差值;YS允许和YT允许分别表示语速允许估值和差异字允许数量;
将当前分析时区内的环境误差评估指数YZC和指令误差评估指数ZLP代入公式进行计算得到当前分析时区的结果误差评估指数JGV;其中YZC阈值和ZLP阈值分别表示环境误差阈值指数和指令误差阈值指数;uy1和uy2分别为环境误差评估指数YZC和指令误差评估指数ZLP的影响权重因子;
将当前分析时区内得到的结果误差评估指数JGV与预设的阈值范围进行比对,具体为:
当结果误差评估指数JGV低于预设的阈值范围时,则直接执行智能模型内与该文本结果匹配的可能结果;
当结果误差评估指数JGV处于预设的阈值范围时,则向唤醒用户播报智能模型内与该文本结果匹配的可能结果,唤醒用户反馈“确认”指令后执行该结果,若唤醒用户否定该文本结果匹配的可能结果,则对当前分析时区内的结果误差评估指数JGV进行解析后,基于解析结果执行以下结果:
S1:通过语音向唤醒用户播报“当前语音指令识别环境较为嘈杂,请在正常环境下使用语音指令,或直接通过手机APP进行调节”;
S2:通过智能机顶盒控制当前机顶盒所处区域内智能窗户的开窗大小或直接关闭,或通过语音向唤醒用户播报“当前窗外风噪影响较大,请调节窗户开窗大小或直接关闭”;
S3:通过语音向唤醒用户播报“对不起,您的语速较快或较慢,请再说一次”;
当结果误差评估指数JGV高于预设的阈值范围时,则直接对当前分析时区内的结果误差评估指数JGV进行解析,并基于解析结果执行S1、S2或S3操作后,提示唤醒用户再次说出语音指令;
将上述分析结果与执行结果发送至语音模型构建模块进行整合更新;
中央管理模块用于智能机顶盒连接和控制室内各类智能设备,包括智能家居设备和安全设备;
语音模型构建模块用于接收各次语音指令的分析和执行结果,并进行整合更新;
若当前用户的误差评估指数JGV处于预设的阈值范围时,则向唤醒用户播报智能模型内与该文本结果匹配的可能结果,唤醒用户反馈“确认”指令,则对该次分析结果进行整合,当该唤醒用户下次语音指令分析过程与匹配程度高于对应阈值,则直接执行,提高了智能化。
与现有技术相比,本发明的有益效果是:
本发明通过使用文本匹配算法与语音模型内预设的语音指令进行匹配,若匹配失败,则获取语音模型内与该文本结果匹配的可能结果;并通过对分析时区内智能机顶盒所处周围环境的人声环境评估指数和户外环境评估指数进行综合分析,得到当前分析时区内环境误差评估指数,由此评估当前唤醒用户发送语音指令时的周围环境影响程度,基于当前分析时区的周围环境影响程度判断当前语音指令匹配结果的准确程度,提高了用户的语音指令识别的准确性,避免误解用户的意思从而错误的执行。
本发明通过在唤醒用户语音指令匹配失败时,基于智能机顶盒所处周围环境的环境误差评估指数,对唤醒用户的语音指令进行分析,得到当前分析时区内唤醒用户的指令误差评估指数,由此评估当前唤醒用户发送该条语音时说话的语速和流畅性,将当前分析时区内的环境误差评估指数与指令误差评估指数之间进行综合分析,得到当前分析时区的结果误差评估指数,基于结果误差评估指数的比对结果,判断当前唤醒用户语音指令所匹配可能结果的准确性,并基于上述分析过程进行整合更新,提高了智能化程度。
附图说明
在下面结合附图对于示例性实施例的描述中,本申请的更多细节、特征和优点被公开,在附图中:
图1为本发明的原理框图。
具体实施方式
下面将参照附图更详细地描述本申请的若干个实施例以便使得本领域技术人员能够实现本申请。本申请可以体现为许多不同的形式和目的并且不应局限于本文所阐述的实施例。提供这些实施例以使得本申请全面且完整,并充分地向本领域技术人员传达本申请的范围。所述实施例并不限定本申请。
除非另有定义,本文中使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是,诸如那些在通常使用的字典中定义的之类的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义,并且将不在理想化或过于正式的意义上进行解释,除非本文中明确地如此定义。
实施例
请参阅图1所示,一种基于智能机顶盒的人机交互管理系统,包括语音交互模块、语音分析模块、误差判断模块、中央管理模块以及语音模型构建模块;
语音交互模块通过用户在对智能机顶盒进行唤醒后,通过语音对智能机顶盒发出指令,对连接电视进行调节;
需要说明的是,语音指令包括但不局限于“打开电视”、“关闭电视”、“调高音量”以及“播放某某电影”。
语音分析模块在用户对机顶盒进行唤醒时,对唤醒用户的音色进行识别和确认,确认完成后,智能机顶盒进行语音指令识别,并在此过程中排除其他说话用户的语音指令,只关注唤醒用户的语音指令;
智能机顶盒对接收到的语音指令进行预处理,预处理包括去噪和增强;并使用语音识别技术将预处理后的语音指令转换为文本,对于识别得到的文本结果,使用文本匹配算法与语音模型内预设的语音指令进行匹配,若匹配失败,则获取语音模型内与该文本结果匹配的可能结果并发送至误差判断模块;
误差判断模块内设置有环境分析单元与指令分析单元;
环境分析单元在唤醒用户语音指令出现匹配失败时,对机顶盒周围的环境影响参数进行分析,得到环境误差评估指数YZC;具体为:
将智能机顶盒被唤醒到开始识别语音指令的过程标记为分析时区;
在智能机顶盒上设置一个麦克风阵列,并在设定的几何形状中布置;通过麦克风阵列同时采集当前分析时区内除唤醒者外多个人员的声音信号;
利用声源定位算法处理麦克风阵列采集到得到人员声音信号,并进行估算得到当前各人员声源与智能机顶盒之间的方向和距离,同时统计当前定位方向或距离的数量,得到人声数量RX;
将各人员声源与智能机顶盒之间的距离值标记为RY;
以当前智能机顶盒语音接收端为起始点向外作水平延长线;基于各人员声源与智能机顶盒之间的方向,以智能机顶盒语音接收端为起始点沿着各人员声源方向作延长线得到角度构建线;
分别计算各条角度构建线与水平延长线之间的角度,得到各人员声源的角度偏离值;
将各人员声源的角度偏离值与设定的多个取值范围进行匹配,得到当前分析时区内各人员的角度影响值RP;设定每个取值范围分别匹配一个人员声源的角度影响值;
需要说明的是,声音在传播过程中会受到空气、物体等的阻挡和反射,因此声音从不同角度到达机顶盒的接收端时可能存在衰减、混响或其他变化。
通过声源分离技术将当前分析时区内不同人员声源的声音进行分离和提取,并利用声音处理算法,得到当前分析时区内不同方向人员对应的分贝值RS;
将对应人员的距离值RY、角度影响值RP以及分贝值RS代入公式进行计算得到当前分析时区内各人员的人声评估值RT;其中a1、a2以及a3分别为对应人员距离值RY、角度影响值RP以及分贝值RS的影响权重因子;其中影响权重因子由本领域技术人员根据实际使用进行自定义设置,如人员距离值RY、角度影响值RP以及分贝值RS的影响权重因子具体数值可以为1.2、1.4、1.83;
将当前分析时区内除唤醒者外各人员的人声评估值RT进行累加计算,得到当前分析时区内人声影响值RM;
将当前分析时区内的人声影响值RM与人声数量RX代入公式进行计算得到当前分析时区的人声环境评估指数RSP;其中RM参考和RX参考分别表示对应型号智能机顶盒的参考人声影响值和参考人声数量;gh1和gh2分别为人声影响值RM与人声数量RX的影响权重因子;人声影响值RM与人声数量RX的影响权重因子的具体取值可以自定义设置为0.6、0.4;
利用门窗状态检测器获取当前分析时区内智能机顶盒所处区域窗户开窗的大小,并标记为KH,单位为厘米;
将当前窗户开窗大小KH与对应的多个取值范围进行匹配,得到开窗影响值CD;设定每个取值范围分别对应一个开窗影响值;
利用风速仪和风向传感器获取当前分析时区内窗户外的风速以及风向;
计算当前分析时区窗户外风向与窗户水平面之间的夹角,得到风向偏离角度;
并将当前分析时区内窗户的风向偏离角度与对应的多个取值范围进行匹配,得到当前分析时区内窗户的风向偏离值CR;设定每个取值范围分别对应一个风向偏离值;
将当前分析时区内窗户外的风速值标记为CU;
将当前分析时区内智能机顶盒所处区域窗户的开窗影响值CD、风向偏离值CR以及风速值CU代入公式进行计算得到当前分析时区内的户外环境评估指数RTY;其中CD参考、CR参考以及CU参考分别为开窗影响值CD、风向偏离值CR以及风速值CU的参考值;开窗影响值CD、风向偏离值CR以及风速值CU的影响权重因子可以自定义设置为1.5、1.3、0.9;
需要说明的是,当窗户开放范围较广且外面风速较大时,风会产生较大的噪声,这种风噪声可能会对语音识别造成干扰。风噪声通常具有较高的频率成分,而语音信号的频率范围主要集中在较低的频率范围内,这使得风噪声更容易干扰语音信号;
开窗大小以及外面的风速风向也会影响室内的空气流通和质量。较强的风会加速空气流动,可能会扰乱室内的声学环境,在一定程度上影响语音信号的传播和接收。
将当前分析时区内的人声环境评估指数RSP和户外环境评估指数RTY代入公式进行计算得到当前分析时区的环境误差评估指数YZC;其中RSP允许和RTY允许分别表示对应型号智能机顶盒的人声环境允许指数和户外环境允许指数;ue1和ue2分别为人声环境评估指数RSP和户外环境评估指数RTY的影响权重因子;人声环境评估指数RSP和户外环境评估指数RTY的影响权重因子可以自定义设置为0.65、0.35;
指令分析单元在唤醒用户语音指令出现匹配失败时,对唤醒用户的语音指令进行分析,得到指令误差评估指数ZLP;具体为:
提取预处理后的唤醒用户语音指令的音频时长,单位为秒,同时获取当前唤醒用户语音指令所对应的识别文本结果;统计文本结果的识别字数,并与唤醒用户语音指令的音频时长进行整合,得到当前唤醒用户语音指令数据包;
将当前分析时区内唤醒用户的语音指令数据包与对应的多个预设数据包进行匹配;得到唤醒用户语音指令数据包匹配结果以及语速估值YS;设定每个预设数据包分别对应一个匹配结果和语速估值YS;其中匹配结果包括语速较快、语速过快、语速正常、语速较慢以及语速过慢;
需要说明的是,唤醒用户的语速较快可能会影响语音识别的准确性,而语速较慢表示用户说话连续性与流畅性较低;语速估值YS越大代表当前语音指令过快或过慢。
将当前分析时区内唤醒用户的语音指令识别文本结果与该文本结果匹配的可能结果之间进行比对,得到两者之间的差异字数量YT;
基于当前分析时区内唤醒用户的语音指令识别文本总字数与可能结果的总字数之间的比对结果,将上述参数代入公式进行计算得到当前分析时区内唤醒用户的指令误差评估指数ZLP;其中Z1和Z2分别表示语音指令识别文本总字数与可能结果的总字数;ΔZ表示语音指令识别文本总字数与可能结果总字数之间的允许差值;YS允许和YT允许分别表示语速允许估值和差异字允许数量;
将当前分析时区内的环境误差评估指数YZC和指令误差评估指数ZLP代入公式进行计算得到当前分析时区的结果误差评估指数JGV;其中YZC阈值和ZLP阈值分别表示环境误差阈值指数和指令误差阈值指数;uy1和uy2分别为环境误差评估指数YZC和指令误差评估指数ZLP的影响权重因子;环境误差评估指数YZC和指令误差评估指数ZLP的影响权重因子可以自定义为1.37、1.69;
将当前分析时区内得到的结果误差评估指数JGV与预设的阈值范围进行比对,具体为:
当结果误差评估指数JGV低于预设的阈值范围时,则直接执行智能模型内与该文本结果匹配的可能结果;
当结果误差评估指数JGV处于预设的阈值范围时,则向唤醒用户播报智能模型内与该文本结果匹配的可能结果,唤醒用户反馈“确认”指令后执行该结果,若唤醒用户否定该文本结果匹配的可能结果,则对当前分析时区内的结果误差评估指数JGV进行解析后,基于解析结果执行以下结果:
S1:通过语音向唤醒用户播报“当前语音指令识别环境较为嘈杂,请在正常环境下使用语音指令,或直接通过手机APP进行调节”;
S2:通过智能机顶盒控制当前机顶盒所处区域内智能窗户的开窗大小或直接关闭,或通过语音向唤醒用户播报“当前窗外风噪影响较大,请调节窗户开窗大小或直接关闭”;
S3:通过语音向唤醒用户播报“对不起,您的语速较快或较慢,请再说一次”;
当结果误差评估指数JGV高于预设的阈值范围时,则直接对当前分析时区内的结果误差评估指数JGV进行解析,并基于解析结果执行S1、S2或S3操作后,提示唤醒用户再次说出语音指令;
将上述分析结果与执行结果发送至语音模型构建模块进行整合更新;
中央管理模块用于智能机顶盒连接和控制室内各类智能设备,包括智能家居设备和安全设备;
语音模型构建模块用于接收各次语音指令的分析和执行结果,并进行整合更新;
需要说明的是,若当前用户的误差评估指数JGV处于预设的阈值范围时,则向唤醒用户播报智能模型内与该文本结果匹配的可能结果,唤醒用户反馈“确认”指令,则对该次分析结果进行整合,当该唤醒用户下次语音指令分析过程与匹配程度高于对应阈值,则直接执行,提高了智能化。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种基于智能机顶盒的人机交互管理系统,其特征在于,包括:
语音交互模块:用于用户在对智能机顶盒进行唤醒后,通过语音对智能机顶盒发出指令,对连接电视进行调节;
语音分析模块:用于用户对机顶盒进行唤醒时,对唤醒用户的音色进行识别和确认,确认完成后,智能机顶盒进行语音指令识别,并在此过程中排除其他说话用户的语音指令,只关注唤醒用户的语音指令;
智能机顶盒对接收到的语音指令进行预处理,预处理包括去噪和增强;并使用语音识别技术将预处理后的语音指令转换为文本,对于识别得到的文本结果,使用文本匹配算法与语音模型内预设的语音指令进行匹配,若匹配失败,则获取语音模型内与该文本结果匹配的可能结果并发送至误差判断模块;
误差判断模块:内设置有环境分析单元与指令分析单元;环境分析单元在唤醒用户语音指令出现匹配失败时,对机顶盒周围的环境影响参数进行分析,得到环境误差评估指数,具体步骤一为:
201:将智能机顶盒被唤醒到开始识别语音指令的过程标记为分析时区;在智能机顶盒上设置一个麦克风阵列,并在设定的几何形状中布置;通过麦克风阵列同时采集当前分析时区内除唤醒者外多个人员的声音信号;
202:利用声源定位算法处理麦克风阵列采集到得到人员声音信号,并进行估算得到当前各人员声源与智能机顶盒之间的方向和距离,同时统计当前定位方向或距离的数量,得到人声数量RX;将各人员声源与智能机顶盒之间的距离值标记为RY;
203:以当前智能机顶盒语音接收端为起始点向外作水平延长线;基于各人员声源与智能机顶盒之间的方向,以智能机顶盒语音接收端为起始点沿着各人员声源方向作延长线得到角度构建线;
分别计算各条角度构建线与水平延长线之间的角度,得到各人员声源的角度偏离值;
将各人员声源的角度偏离值与设定的多个取值范围进行匹配,得到当前分析时区内各人员的角度影响值RP;设定每个取值范围分别匹配一个人员声源的角度影响值;
204:通过声源分离技术将当前分析时区内不同人员声源的声音进行分离和提取,并利用声音处理算法,得到当前分析时区内不同方向人员对应的分贝值RS;
将对应人员的距离值RY、角度影响值RP以及分贝值RS的数值代入公式进行计算得到当前分析时区内各人员的人声评估值RT;其中a1、a2以及a3分别为对应人员距离值RY、角度影响值RP以及分贝值RS的影响权重因子;
205:将当前分析时区内除唤醒者外各人员的人声评估值RT进行累加计算,得到当前分析时区内人声影响值RM;
将当前分析时区内的人声影响值RM与人声数量RX代入公式进行计算得到当前分析时区的人声环境评估指数RSP;其中RM参考和RX参考分别表示对应型号智能机顶盒的参考人声影响值和参考人声数量;gh1和gh2分别为人声影响值RM与人声数量RX的影响权重因子;
具体步骤二为:
301:利用门窗状态检测器获取当前分析时区内智能机顶盒所处区域窗户开窗的大小,并标记为KH;
302:将当前窗户开窗大小KH与对应的多个取值范围进行匹配,得到开窗影响值CD;设定每个取值范围分别对应一个开窗影响值;
303:利用风速仪和风向传感器获取当前分析时区内窗户外的风速以及风向;计算当前分析时区窗户外风向与窗户水平面之间的夹角,得到风向偏离角度;
304:并将当前分析时区内窗户的风向偏离角度与对应的多个取值范围进行匹配,得到当前分析时区内窗户的风向偏离值CR;设定每个取值范围分别对应一个风向偏离值;将当前分析时区内窗户外的风速值标记为CU;
305:将当前分析时区内智能机顶盒所处区域窗户的开窗影响值CD、风向偏离值CR以及风速值CU代入公式进行计算得到当前分析时区内的户外环境评估指数RTY;其中CD参考、CR参考以及CU参考分别为开窗影响值CD、风向偏离值CR以及风速值CU的参考值;
306:将当前分析时区内的人声环境评估指数RSP和户外环境评估指数RTY代入公式进行计算得到当前分析时区的环境误差评估指数YZC;其中RSP允许和RTY允许分别表示对应型号智能机顶盒的人声环境允许指数和户外环境允许指数;ue1和ue2分别为人声环境评估指数RSP和户外环境评估指数RTY的影响权重因子;
指令分析单元在唤醒用户语音指令出现匹配失败时,对唤醒用户的语音指令进行分析,得到指令误差评估指数;对当前分析时区内的环境误差评估指数和指令误差评估指数之间进行综合分析得到结果误差评估指数;将当前分析时区内得到的结果误差评估指数与预设的阈值范围进行比对,并基于比对结果执行相应的操作。
2.根据权利要求1所述的一种基于智能机顶盒的人机交互管理系统,其特征在于,对唤醒用户的语音指令进行分析的具体步骤为:
401:提取预处理后的唤醒用户语音指令的音频时长,单位为秒,同时获取当前唤醒用户语音指令所对应的识别文本结果;统计文本结果的识别字数,并与唤醒用户语音指令的音频时长进行整合,得到当前唤醒用户语音指令数据包;
402:将当前分析时区内唤醒用户的语音指令数据包与对应的多个预设数据包进行匹配;得到唤醒用户语音指令数据包匹配结果以及语速估值YS;设定每个预设数据包分别对应一个匹配结果和语速估值YS;其中匹配结果包括语速较快、语速过快、语速正常、语速较慢以及语速过慢;
403:将当前分析时区内唤醒用户的语音指令识别文本结果与该文本结果匹配的可能结果之间进行比对,得到两者之间的差异字数量YT;
404:基于当前分析时区内唤醒用户的语音指令识别文本总字数与可能结果的总字数之间的比对结果,将上述参数代入公式进行计算得到当前分析时区内唤醒用户的指令误差评估指数ZLP;其中Z1和Z2分别表示语音指令识别文本总字数与可能结果的总字数;ΔZ表示语音指令识别文本总字数与可能结果总字数之间的允许差值;YS允许和YT允许分别表示语速允许估值和差异字允许数量。
3.根据权利要求2所述的一种基于智能机顶盒的人机交互管理系统,其特征在于,得到结果误差评估指数JGV的具体过程为:将当前分析时区内的环境误差评估指数YZC和指令误差评估指数ZLP代入公式进行计算得到当前分析时区的结果误差评估指数JGV;其中YZC阈值和ZLP阈值分别表示环境误差阈值指数和指令误差阈值指数;uy1和uy2分别为环境误差评估指数和指令误差评估指数的影响权重因子。
4.根据权利要求3所述的一种基于智能机顶盒的人机交互管理系统,其特征在于,将当前分析时区内得到的结果误差评估指数与预设的阈值范围进行比对,并基于比对结果执行相应的操作,具体为:
601:当结果误差评估指数低于预设的阈值范围时,则直接执行智能模型内与该文本结果匹配的可能结果;
602:当结果误差评估指数处于预设的阈值范围时,则向唤醒用户播报智能模型内与该文本结果匹配的可能结果,唤醒用户反馈“确认”指令后执行该结果,若唤醒用户否定该文本结果匹配的可能结果,则对当前分析时区内的结果误差评估指数进行解析后,基于解析结果执行以下结果:
S1:通过语音向唤醒用户播报预设文本一;
S2:通过智能机顶盒控制当前机顶盒所处区域内智能窗户的开窗大小或直接关闭,或通过语音向唤醒用户播报预设文本二;
S3:通过语音向唤醒用户播报预设文本三;
603:当结果误差评估指数高于预设的阈值范围时,则直接对当前分析时区内的结果误差评估指数进行解析,并基于解析结果执行S1、S2或S3操作后,提示唤醒用户再次说出语音指令。
CN202311721881.1A 2023-12-14 2023-12-14 一种基于智能机顶盒的人机交互管理系统 Active CN117409781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311721881.1A CN117409781B (zh) 2023-12-14 2023-12-14 一种基于智能机顶盒的人机交互管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311721881.1A CN117409781B (zh) 2023-12-14 2023-12-14 一种基于智能机顶盒的人机交互管理系统

Publications (2)

Publication Number Publication Date
CN117409781A CN117409781A (zh) 2024-01-16
CN117409781B true CN117409781B (zh) 2024-03-12

Family

ID=89494759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311721881.1A Active CN117409781B (zh) 2023-12-14 2023-12-14 一种基于智能机顶盒的人机交互管理系统

Country Status (1)

Country Link
CN (1) CN117409781B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN106328143A (zh) * 2015-06-23 2017-01-11 中兴通讯股份有限公司 语音控制方法、装置和移动终端
CN107016993A (zh) * 2017-05-15 2017-08-04 成都铅笔科技有限公司 一种智能家居的语音交互系统及方法
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN108986809A (zh) * 2018-08-30 2018-12-11 广东小天才科技有限公司 一种便携式设备及其唤醒方法和装置
CN112839261A (zh) * 2021-01-14 2021-05-25 海信电子科技(深圳)有限公司 一种提升语音指令匹配度的方法及显示设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096307A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN106328143A (zh) * 2015-06-23 2017-01-11 中兴通讯股份有限公司 语音控制方法、装置和移动终端
CN107016993A (zh) * 2017-05-15 2017-08-04 成都铅笔科技有限公司 一种智能家居的语音交互系统及方法
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN108986809A (zh) * 2018-08-30 2018-12-11 广东小天才科技有限公司 一种便携式设备及其唤醒方法和装置
CN112839261A (zh) * 2021-01-14 2021-05-25 海信电子科技(深圳)有限公司 一种提升语音指令匹配度的方法及显示设备

Also Published As

Publication number Publication date
CN117409781A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
US10657945B2 (en) Noise control method and device
CN106440192A (zh) 一种家电控制方法、装置、系统及智能空调
CN109074806A (zh) 控制分布式音频输出以实现语音输出
CN106898348A (zh) 一种出声设备的去混响控制方法和装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110223690A (zh) 基于图像与语音融合的人机交互方法及装置
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN109298642A (zh) 采用智能音箱进行监控的方法及装置
US20140309994A1 (en) Apparatus and method for voice processing
CN103124165A (zh) 自动增益控制
WO2019233228A1 (zh) 电子设备及设备控制方法
CN110956965A (zh) 一种基于声纹识别的个性化智能家居安全控制系统及方法
CN114902688B (zh) 内容流处理方法和装置、计算机系统和介质
CN205754809U (zh) 一种机器人自适应音量调节系统
CN103945140B (zh) 视频字幕的生成方法及系统
WO2022247245A1 (zh) 空调器的语音控制方法及空调器
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN115482830B (zh) 语音增强方法及相关设备
CN108171951A (zh) 一种基于蓝牙的智能家居遥控器
US20180158462A1 (en) Speaker identification
CN109361995A (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
KR100556365B1 (ko) 음성 인식장치 및 방법
CN117480554A (zh) 语音增强方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant