CN116863913B - 一种语音控制的跨屏互动控制方法 - Google Patents

一种语音控制的跨屏互动控制方法 Download PDF

Info

Publication number
CN116863913B
CN116863913B CN202310770962.4A CN202310770962A CN116863913B CN 116863913 B CN116863913 B CN 116863913B CN 202310770962 A CN202310770962 A CN 202310770962A CN 116863913 B CN116863913 B CN 116863913B
Authority
CN
China
Prior art keywords
index
voice
user
instruction
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310770962.4A
Other languages
English (en)
Other versions
CN116863913A (zh
Inventor
王晓帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Goodview Electronic Technology Co ltd
Original Assignee
Shanghai Goodview Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Goodview Electronic Technology Co ltd filed Critical Shanghai Goodview Electronic Technology Co ltd
Priority to CN202310770962.4A priority Critical patent/CN116863913B/zh
Publication of CN116863913A publication Critical patent/CN116863913A/zh
Application granted granted Critical
Publication of CN116863913B publication Critical patent/CN116863913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音控制的跨屏互动控制方法。该语音控制的跨屏互动控制方法,包括以下步骤:获取用户的语音信息并将其转换为文本指令,当文本指令与控制指令的对比结果超过一定阈值,则第二电子设备显示控制指令对应场景;统计并分析出用户体验感指数,再据其分析出新语音识别方法;在下一次语音控制时由用户选择正确的语音识别方法并更新语音识别方法。本发明通过在第一电子设备将控制指令发送给第二电子设备后,第一电子设备计算出用户体验感指数,根据体验感指数分析出新语音识别方法,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,达到了提升用户体验感的效果,解决了用户体验感不好的问题。

Description

一种语音控制的跨屏互动控制方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音控制的跨屏互动控制方法。
背景技术
随着智能家居和智能设备的普及,人们对于跨屏互动控制方法的需求越来越高。传统的控制方式,如遥控器或触摸屏,已经无法满足用户的便捷和智能化需求。因此,一种更为智能和人性化的控制方式是语音控制。语音控制具有语音识别、语音理解和语音交互等技术要求,能够实现用户与设备之间的自然对话,使得跨屏互动更加简便和高效。
目前,已经有一些语音控制的跨屏互动控制方法得到了研究和应用。其中,一种常见的技术是基于智能音箱的语音控制。用户可以通过智能音箱,发出语音指令来控制不同的设备,例如智能电视、智能灯光和智能家电等。这种方法利用了语音助手和云服务来进行语音识别和语义理解,然后将指令传递给相应的设备进行控制。
例如公开号为:CN114339335A的发明专利公开的一种车载多媒体影院系统及其控制方法,包括:控制中心、扬声器、显示屏、网络模块、蓝牙模块、储模块、语音模块,控制中心与扬声器、显示屏、网络模块连接,控制中心与语音模块连接,蓝牙模块与显示屏连接,存储模块与显示屏连接,显示屏与网络模块连接,扬声器与显示屏连接。突破座舱屏幕的原有功能定义,基于高算力的处理器,高分辨率的显示,不受限于原有屏幕尺寸,提供了三屏同时播放的宽阔视野,有效地打造观影视觉空间的潜力;车载影院模式的联动机制,座椅、车窗、天窗遮阳帘、影院音效,其中各模块可自定义程度较高。
例如公开号为:CN103856807A的发明专利公开的一种跨屏互动控制方法及装置,包括:第一电子设备及第二电子设备的跨屏互动系统,第一电子设备以及第二电子设备存在通信连接,包括:第一电子设备接收用户针对第一应用程序的跨屏操作指令,第一应用程序安装在第一电子设备本地;根据跨屏操作指令,向第二电子设备发送跨屏控制请求;第二电子设备接收到跨屏控制请求后,在本地启动与第一应用程序相对应的第二应用程序;向第一电子设备发送跨屏控制响应;第一电子设备接收第二电子设备发送的跨屏控制响应,获得对第二应用程序的跨屏控制权限。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中,在通过语音完成跨屏互动控制时,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题。
发明内容
本申请实施例通过提供一种语音控制的跨屏互动控制方法,解决了现有技术中,在通过语音完成跨屏互动控制时,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题,实现了提高用户的使用体验感、减少语音识别误解和提升整体性能。
本申请实施例提供了一种语音控制的跨屏互动控制方法,包括以下步骤:S1,第一电子设备连通第二电子设备,在第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景;S2,第一电子设备获取用户的语音信息,通过语音识别方法将语音信息转换为文本指令,将文本指令与控制指令进行对比得到对比结果,若对比结果超过一定阈值,则第一电子设备将控制指令发送给第二电子设备,在第二电子设备上显示控制指令对应场景;S3,当第一电子设备将控制指令发送给第二电子设备后,第一电子设备统计并分析语音信息、文本指令和对比结果得出用户体验感指数,根据体验感指数分析出新语音识别方法;S4,第一电子设备在下一次接收用户的语音信息后,向用户同时展示新语音识别方法得出的文本指令和原本的语音识别方法得出的文本指令,由用户选择正确的语音识别方法,并将第一电子设备的语音识别方法更新为用户选择的语音识别方法。
进一步的,所述第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景具体指:在第一电子设备中设置控制指令和控制指令对应场景,当第一电子设备和第二电子设备接通后,第一电子设备将控制指令和控制指令对应场景发送给第二电子设备并由第二电子设备进行存储;所述在第一电子设备中设置控制指令和控制指令对应场景具体包括预设的控制指令和控制指令对应场景,还包括用户设置的控制指令和控制指令对应场景。
进一步的,所述文本指令与控制指令进行对比得到对比结果的具体过程为:通过自然语言处理将文本指令进行预处理,在将文本指令与控制指令进行模糊匹配,通过公式计算文本指令与控制指令的相似度Q,其中,e为自然常数,α为修正因子,A为文本指令的特征向量,B为控制指令的特征向量,|A|和|B|分别表示特征向量A和B的模长,将相似度Q作为对比结果输出。
进一步的,所述S3中的统计并分析语音信息和对比结果得出用户体验感指数具体指:统计并分析用户录入的音频信息和用户录入音频的时间信息,得出用户的语音重复录入指数,统计并分析语音信息和对比结果的契合度,根据语音重复录入指数和契合度计算出用户的体验感指数。
进一步的,所述录入音频的时间信息包括录入音频的初始时间、持续时间和结束时间;根据用户录入音频的初始时间和结束时间,获取用户录入的第g-1个和第g个音频之间的时间间隔ΔTg-1,g,g=1,2,...,k,k为音频总数;对比第g-1个音频对应的文本指令和第g个音频对应的文本指令/>之间的相关度ψW,/>其中,λ是设定的文本指令相关度的修正因子;当相关度ψW连续大于一定阈值时,结合音频录入的时间间隔ΔTg-1,g得出为同一个文本指令的评定指数ηW,通过公式/>计算出相关度ψW连续大于一定阈值时对应的音频为同一个文本指令的评定指数ηW,其中,λ1和λ2分别为前后音频对应的文本指令相关度的影响因子和前后音频时间间隔的影响因子;将评定指数ηW超过规定指数对应的音频均记为同一个文本指令Tx,τ,其中,x为文本指令T的内容,τ为内容x对应文本指令T的数量序号,数量序号为0,1,2,...,τ。
进一步的,所述语音重复录入指数具体计算过程为:统计评定指数ηW超过规定指数对应的同一个文本指令的总数量σ1,并统计连续为同一文本指令对应音频中的第一个音频Yfirst和最后一个音频Ylast之间的时间间隔计算出同一个文本指令的重复录入指数η重复,具体计算公式为:/>计算出同一指令连续输入识别的重复指数η重复,其中,λ3是权重因子。
进一步的,所述统计并分析语音信息和对比结果的契合度具体指:获取评定指数ηW超过规定指数的同一个文本指令Tx,τ及其总数量σ1,计算同文本指令契合影响指数η文本,同文本指令契合影响指数η文本的具体计算公式为:其中,λ4表示修正因子;获取文本指令与控制指令的相似度Q,计算出用户语音信息R和控制指令的初始契合指数K其中,ΔQ表示文本指令与控制指令的相似度Q的符合规定值,/>分别表示设定的语音信息和相似度的权重因子;根据同文本指令契合影响指数η文本和初始契合指数K计算得出契合度K,契合度K具体计算公式为:/>其中,/>和/>分别表示设定的同文本指令契合影响指数和初始契合指数的权重因子。
进一步的,所述得出用户体验感指数的具体过程为:获取重复录入指数η重复和契合度K,并根据其计算出体验感指数η体验,得出其中,γ1和γ2分别为设定的重复录入指数和契合度的体验感指数影响权值,ΔT为设定的将语音信息转换为正确文本指令所需的标准时间。
进一步的,所述根据体验感指数分析出新语音识别方法的具体步骤为:当体验感指数低于一定阈值时,第一电子设备获取用户设置的用于语音识别方法转换的语种,统计体验感指数低于一定阈值的语音信息:识别每条语音信息对应的语种,对语音信息中识别出不同语种的次数Li进行统计,按时间顺序将语音信息排序,根据前后两个语音信息对应语种的不一致性,统计出语种切换频率通过公式/>得出不同语种对于体验感的影响指数/>其中,Li为第i种语种被识别到的次数,i=1,2,...,m,语种库中共有m种语种,/>表示第i种语种设置的平均切换频率,a1和a2分别是不同语种次数对体验感的影响权重因子和不同语种切换频率对体验感的影响权重因子;在语种确定的情况下,提取语音信息的语音特征,对语音信息进行不同语种对应方言的识别,通过公式/>找到契合度ψθ最高的方言作为方言识别结果,其中,θR是语音信息的语音特征,θj是第一电子设备中预设方言库中第j种方言的语音特征,j=1,2,...,n,方言库中共有n种方言,μ是设定的方言契合度修正因子;根据方言识别结果,将通过语音信息识别出的不同方言进行次数Rj的统计,按时间顺序将语音信息排序,根据前后两个语音信息对应方言的不一致性,统计出方言切换频率/>通过公式/>得出不同方言对于体验感的影响指数/>Rj是第j种方言被识别到的次数,/>表示第j种语种设置的平均切换频率,a3和a4分别是不同方言次数对体验感的影响权重因子和不同方言切换频率对体验感的影响权重因子;将影响指数最高的语种设置为新语音识别方法的识别语种,将影响指数最高的方言设置为新语音识别方法的识别方言,第一电子设备保留前一次的语音识别方法并加入新语音识别方法。
进一步的,所述将第一电子设备的语音识别方法更新为用户选择的语音识别方法具体指:当下一次第一电子设备接收到用户语音信息时,通过保留的前一次的语音识别方法和新加入的新语音识别方法分别进行语音信息转换,并将转换出的文本指令展现给用户,由用户选择正确的文本指令,将用户选择的文本指令对应的语音识别方法更新为下一次语音转换用的识别方法,并删除未被用户选择的文本指令对应的语音识别方法,同时将其记为未来一定时间内不通过其进行语音转换。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过在第一电子设备将控制指令发送给第二电子设备后,第一电子设备计算出用户体验感指数,根据体验感指数分析出新语音识别方法,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,从而将第一电子设备中原有的语音识别方法替换为新语音识别方法,使得下一次识别用户的语音信息更加准确,进而实现了提高用户的使用体验感、减少语音识别误解和提升整体性能,有效解决了现有技术中,在通过语音完成跨屏互动控制时,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题。
2、通过统计用户在一段时间内连续重复录入同一个文本指令对应的语音信息计算出重复录入指数,并统计语音信息和控制指令的契合度,再根据重复录入指数和契合度,计算出体验感指数,从而采用了更全面地评估用户的体验感指数,进而实现了客观地评估用户的操作行为和语音控制的响应质量,减少主观因素的干扰,提供更客观、可靠的用户体验评估结果。
3、通过在体验感指数低于一定阈值时,使第一电子设备获取用户设置的用于语音识别方法转换的语种,统计体验感指数低于一定阈值的语音信息,识别语音信息对应的语种,并统计出语种切换频率和不同语种对于体验感的影响指数,在确定语种后,识别语音信息对应的方言,并统计出方言切换频率和不同方言对于体验感的影响指数,将影响指数最高的语种和方言设置为新语音识别方法的识别语种和方言,从而当出现多个用户进行语音控制时,选择其中最多人使用的语种和方言作为新的语音识别方法,进而实现了了解用户的语言偏好和需求变化,持续优化语音识别方法,提供更符合用户习惯和喜好的个性化用户体验,增加用户的满意度。
附图说明
图1为本申请实施例提供的语音控制的跨屏互动控制方法流程图;
图2为本申请实施例提供的用户体验感指数获取流程图;
图3为本申请实施例提供的新语音识别方法分析流程图。
具体实施方式
本申请实施例通过提供一种语音控制的跨屏互动控制方法,解决了现有技术中,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题的问题,在第一电子设备将控制指令发送给第二电子设备后,第一电子设备计算出用户体验感指数,根据体验感指数分析出新语音识别方法,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,实现了提高用户的使用体验感、减少语音识别误解和提升整体性能。
本申请实施例中的技术方案为解决上述,在通过语音完成跨屏互动控制时,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题,总体思路如下:
通过在第一电子设备将控制指令发送给第二电子设备后,第一电子设备统计用户在一段时间内连续重复录入同一个文本指令对应的语音信息计算出重复录入指数,并统计语音信息和控制指令的契合度,再根据重复录入指数和契合度,计算出用户体验感指数,当体验感指数低于一定阈值时,使第一电子设备获取用户设置的用于语音识别方法转换的语种,统计体验感指数低于一定阈值的语音信息,识别语音信息对应的语种,并统计出语种切换频率和不同语种对于体验感的影响指数,在确定语种后,识别语音信息对应的方言,并统计出方言切换频率和不同方言对于体验感的影响指数,将影响指数最高的语种和方言设置为新语音识别方法的识别语种和方言,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,最后将第一电子设备中原有的语音识别方法替换为新语音识别方法,使得下一次识别用户的语音信息更加准确,达到了提高用户的使用体验感、减少语音识别误解和提升整体性能。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
如图1所示,为本申请实施例提供的语音控制的跨屏互动控制方法流程图,该方法包括以下步骤:S1,第一电子设备连通第二电子设备,在第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景;S2,第一电子设备获取用户的语音信息,通过语音识别方法将语音信息转换为文本指令,将文本指令与控制指令进行对比得到对比结果,若对比结果超过一定阈值,则第一电子设备将控制指令发送给第二电子设备,在第二电子设备上显示控制指令对应场景;S3,当第一电子设备将控制指令发送给第二电子设备后,第一电子设备统计并分析语音信息、文本指令和对比结果得出用户体验感指数,根据体验感指数分析出新语音识别方法;S4,第一电子设备在下一次接收用户的语音信息后,向用户同时展示新语音识别方法得出的文本指令和原本的语音识别方法得出的文本指令,由用户选择正确的语音识别方法,并将第一电子设备的语音识别方法更新为用户选择的语音识别方法。
进一步的,第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景具体指:在第一电子设备中设置控制指令和控制指令对应场景,当第一电子设备和第二电子设备接通后,第一电子设备将控制指令和控制指令对应场景发送给第二电子设备并由第二电子设备进行存储;在第一电子设备中设置控制指令和控制指令对应场景具体包括预设的控制指令和控制指令对应场景,还包括用户设置的控制指令和控制指令对应场景。
在本实施例中,第一电子设备用于录制用户语音信息并将语音信息转换为文本指令,用户选择正确的文本指令,并设置该文本指令对应的控制指令,同时设置该控制指令对应的控制场景,第二电子设备与第一电子设备连通后,能够从第一电子设备上下载该控制指令及控制指令对应的控制指令对应的控制场景,避免重复设置。
进一步的,文本指令与控制指令进行对比得到对比结果的具体过程为:通过自然语言处理将文本指令进行预处理,在将文本指令与控制指令进行模糊匹配,通过公式计算文本指令与控制指令的相似度Q,其中,e为自然常数,α为修正因子,A为文本指令的特征向量,B为控制指令的特征向量,|A|和|B|分别表示特征向量A和B的模长,将相似度Q作为对比结果输出。
进一步的,如图2所示,为本申请实施例提供的用户体验感指数获取流程图,S3中的统计并分析语音信息和对比结果得出用户体验感指数具体指:统计并分析用户录入的音频信息和用户录入音频的时间信息,得出用户的语音重复录入指数,统计并分析语音信息和对比结果的契合度,根据语音重复录入指数和契合度计算出用户的体验感指数。
在本实施例中,通过分析用户的语音信息,得出用户语音重复录入指数,该重复录入指数指在连续一段时间内,基于同一个文本指令对应的控制指令多次录入语音信息。
进一步的,录入音频的时间信息包括录入音频的初始时间、持续时间和结束时间;根据用户录入音频的初始时间和结束时间,获取用户录入的第g-1个和第g个音频之间的时间间隔ΔTg-1,g,g=1,2,...,k,k为音频总数;对比第g-1个音频对应的文本指令和第g个音频对应的文本指令/>之间的相关度ψW,/>其中,λ是设定的文本指令相关度的修正因子;当相关度ψW连续大于一定阈值时,结合音频录入的时间间隔ΔTg-1,g得出为同一个文本指令的评定指数ηW,通过公式/>计算出相关度ψW连续大于一定阈值时对应的音频为同一个文本指令的评定指数ηW,其中,λ1和λ2分别为前后音频对应的文本指令相关度的影响因子和前后音频时间间隔的影响因子;将评定指数ηW超过规定指数对应的音频均记为同一个文本指令Tx,τ,其中,x为文本指令T的内容,τ为内容x对应文本指令T的数量序号,数量序号为0,1,2,...,τ。
在本实施例中,面对同一段时间内前后两个连续的音频,连续统计每两个相邻音频对应的文本指令的相关度,当相关度连续大雨一定阈值时,对这段时间内的音频进行评定,评定这段时间内的音频为同一个文本指令的评定指数,其中,连续次数为预设值,包括不小于2的自然数。
进一步的,语音重复录入指数具体计算过程为:统计评定指数ηW超过规定指数对应的同一个文本指令的总数量σ1,并统计连续为同一文本指令对应音频中的第一个音频Yfirst和最后一个音频Ylast之间的时间间隔计算出同一个文本指令的重复录入指数η重复,具体计算公式为:/>计算出同一指令连续输入识别的重复指数η重复,其中,λ3是权重因子。
在本实施例中,时间间隔具体指同一文本指令对应音频中的第一个音频Yfirst的结束时间到最后一个音频Ylast的结束时间之间的一段时间。设置前后两个音频的时间间隔最大阈值,当超过该阈值时,前后两个音频不计入重复录入的统计范围。当前后两个音频若都是文本指令与控制指令的对比结果超过一定阈值(预设的允许第一电子设备发送控制指令的阈值),且二者时间间隔没有超过最大阈值,则特殊的不计入重复录入指数的计算范围。
进一步的,统计并分析语音信息和对比结果的契合度具体指:获取评定指数ηW超过规定指数的同一个文本指令Tx,τ及其总数量σ1,计算同文本指令契合影响指数η文本,同文本指令契合影响指数η文本的具体计算公式为:其中,λ4表示修正因子;获取文本指令与控制指令的相似度Q,计算出用户语音信息R和控制指令的初始契合指数K其中,ΔQ表示文本指令与控制指令的相似度Q的符合规定值,/>和/>分别表示设定的语音信息和相似度的权重因子;根据同文本指令契合影响指数η文本和初始契合指数K计算得出契合度K,契合度K具体计算公式为:其中,/>和/>分别表示设定的同文本指令契合影响指数和初始契合指数的权重因子。
进一步的,得出用户体验感指数的具体过程为:获取重复录入指数η重复和契合度K,并根据其计算出体验感指数η体验,得出其中,γ1和γ2分别为设定的重复录入指数和契合度的体验感指数影响权值,ΔT为设定的将语音信息转换为正确文本指令所需的标准时间。
在本实施例中,文本指令和控制指令的相关度区别于语音信息和控制指令的初步契合指数。文本指令由语音信息转换而来,转换过程中有所偏差,所以借助一系列修正因子和权重因子来缓解转换偏差对语音信息和控制指令初步契合指数带来的影响。
进一步的,如图3所示,为本申请实施例提供的新语音识别方法分析流程图,根据体验感指数分析出新语音识别方法的具体步骤为:当体验感指数低于一定阈值时,第一电子设备获取用户设置的用于语音识别方法转换的语种,统计体验感指数低于一定阈值的语音信息:识别每条语音信息对应的语种,对语音信息中识别出不同语种的次数Li进行统计,按时间顺序将语音信息排序,根据前后两个语音信息对应语种的不一致性,统计出语种切换频率通过公式/>得出不同语种对于体验感的影响指数/>其中,Li为第i种语种被识别到的次数,i=1,2,...,m,语种库中共有m种语种,表示第i种语种设置的平均切换频率,a1和a2分别是不同语种次数对体验感的影响权重因子和不同语种切换频率对体验感的影响权重因子;在语种确定的情况下,提取语音信息的语音特征,对语音信息进行不同语种对应方言的识别,通过公式/>找到契合度ψθ最高的方言作为方言识别结果,其中,θR是语音信息的语音特征,θj是第一电子设备中预设方言库中第j种方言的语音特征,j=1,2,...,n,方言库中共有n种方言,μ是设定的方言契合度修正因子;根据方言识别结果,将通过语音信息识别出的不同方言进行次数Rj的统计,按时间顺序将语音信息排序,根据前后两个语音信息对应方言的不一致性,统计出方言切换频率/>通过公式/>得出不同方言对于体验感的影响指数/>Rj是第j种方言被识别到的次数,/>表示第j种语种设置的平均切换频率,a3和a4分别是不同方言次数对体验感的影响权重因子和不同方言切换频率对体验感的影响权重因子;将影响指数最高的语种设置为新语音识别方法的识别语种,将影响指数最高的方言设置为新语音识别方法的识别方言,第一电子设备保留前一次的语音识别方法并加入新语音识别方法。
在本实施例中,当需要面对多个用户进行语音控制时,用户的语种和方言无法确定,所以需要提前预设多种语种库和对应语种的方言库。由于不同用户的语种和方言会对识别结果造成偏差,所以使用根据平时语种和方言的影响指数对语音识别方法进行调整,并且还能够根据影响值持续对语音识别方法进行持续优化,找到符合大多数用户的语音识别方法,提供个性化的用户体验。
进一步的,将第一电子设备的语音识别方法更新为用户选择的语音识别方法具体指:当下一次第一电子设备接收到用户语音信息时,通过保留的前一次的语音识别方法和新加入的新语音识别方法分别进行语音信息转换,并将转换出的文本指令展现给用户,由用户选择正确的文本指令,将用户选择的文本指令对应的语音识别方法更新为下一次语音转换用的识别方法,并删除未被用户选择的文本指令对应的语音识别方法,同时将其记为未来一定时间内不通过其进行语音转换。
在本实施例中,由于新语音识别方法并不一定能够直接满足用户的语音识别要求,所以多次识别调整出新语音识别方法由用户选择适合的正确的语音识别方法。此外,当方言识别有误的情况下,出现新语音识别方法效果不如原有的语音识别方法效果好时,通过保留原有的语音识别方法并提供通过原有语音识别方法得到的文本指令给用户选择,有效的解决了替换后新语音识别方法不如原有的语音识别方法识别效果准确带来的用户体验感降低,同时通过同时展示原有语音识别方法得到的文本指令转换结果和新语音识别方法得到的文本指令转换结果,便于用户对前后两种方法进行对比,从而避免来回调整语音识别方法带来的麻烦。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:本申请实施例通过在第一电子设备将控制指令发送给第二电子设备后,第一电子设备计算出用户体验感指数,根据体验感指数分析出新语音识别方法,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,从而将第一电子设备中原有的语音识别方法替换为新语音识别方法,使得下一次识别用户的语音信息更加准确,进而实现了提高用户的使用体验感、减少语音识别误解和提升整体性能,有效解决了现有技术中,在通过语音完成跨屏互动控制时,由于用户语音不标准,需要多次对用户输入的语音信息进行识别,存在用户体验感不好的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种语音控制的跨屏互动控制方法,其特征在于,包括以下步骤:
S1,第一电子设备连通第二电子设备,在第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景;
S2,第一电子设备获取用户的语音信息,通过语音识别方法将语音信息转换为文本指令,将文本指令与控制指令进行对比得到对比结果,若对比结果超过一定阈值,则第一电子设备将控制指令发送给第二电子设备,在第二电子设备上显示控制指令对应场景;
S3,当第一电子设备将控制指令发送给第二电子设备后,第一电子设备统计并分析语音信息、文本指令和对比结果得出用户体验感指数,根据体验感指数分析出新语音识别方法;
S4,第一电子设备在下一次接收用户的语音信息后,向用户同时展示新语音识别方法得出的文本指令和原本的语音识别方法得出的文本指令,由用户选择正确的语音识别方法,并将第一电子设备的语音识别方法更新为用户选择的语音识别方法;
所述S3中的统计并分析语音信息和对比结果得出用户体验感指数具体指:统计并分析用户录入的音频信息和用户录入音频的时间信息,得出用户的语音重复录入指数,统计并分析语音信息和对比结果的契合度,根据语音重复录入指数和契合度计算出用户的体验感指数;
所述统计并分析语音信息和对比结果的契合度具体指:
获取评定指数超过规定指数的同一个文本指令/>及其总数量/>,计算同文本指令契合影响指数/>,同文本指令契合影响指数/>的具体计算公式为:/>,其中,/>表示修正因子;
获取文本指令与控制指令的相似度Q,计算出用户语音信息R和控制指令的初始契合指数,/>,其中,/>表示文本指令与控制指令的相似度Q的符合规定值,/>和/>分别表示设定的语音信息和相似度的权重因子;
根据同文本指令契合影响指数和初始契合指数/>计算得出契合度/>,契合度具体计算公式为:/>,其中,/>和/>分别表示设定的同文本指令契合影响指数和初始契合指数的权重因子;
所述得出用户体验感指数的具体过程为:
获取重复录入指数和契合度/>,并根据其计算出体验感指数/>,得出,其中,/>和/>分别为设定的重复录入指数和契合度的体验感指数影响权值,/>为设定的将语音信息转换为正确文本指令所需的标准时间,表示同一个文本指令的重复录入指数;
所述录入音频的时间信息包括录入音频的初始时间、持续时间和结束时间;
根据用户录入音频的初始时间和结束时间,获取用户录入的第g-1个和第g个音频之间的时间间隔,/>,k为音频总数;
对比第g-1个音频对应的文本指令和第g个音频对应的文本指令/>之间的相关度,/>,其中,/>是设定的文本指令相关度的修正因子;
当相关度连续大于一定阈值时,结合音频录入的时间间隔/>得出为同一个文本指令的评定指数/>,通过公式/>计算出相关度/>连续大于一定阈值时对应的音频为同一个文本指令的评定指数/>,其中,/>和/>分别为前后音频对应的文本指令相关度的影响因子和前后音频时间间隔的影响因子;
将评定指数超过规定指数对应的音频均记为同一个文本指令/>,其中,x为文本指令T的内容,/>为内容x对应文本指令T的数量序号,数量序号为/>
2.如权利要求1所述语音控制的跨屏互动控制方法,其特征在于,所述第一电子设备和第二电子设备中设置相同的控制指令和控制指令对应场景具体指:在第一电子设备中设置控制指令和控制指令对应场景,当第一电子设备和第二电子设备接通后,第一电子设备将控制指令和控制指令对应场景发送给第二电子设备并由第二电子设备进行存储;
所述在第一电子设备中设置控制指令和控制指令对应场景具体包括预设的控制指令和控制指令对应场景,还包括用户设置的控制指令和控制指令对应场景。
3.如权利要求1所述语音控制的跨屏互动控制方法,其特征在于:所述文本指令与控制指令进行对比得到对比结果的具体过程为:通过自然语言处理将文本指令进行预处理,在将文本指令与控制指令进行模糊匹配,通过公式计算文本指令与控制指令的相似度Q,其中,e为自然常数,/>为修正因子,A为文本指令的特征向量,B为控制指令的特征向量,/>和/>分别表示特征向量A和B的模长,将相似度Q作为对比结果输出。
4.如权利要求3所述语音控制的跨屏互动控制方法,其特征在于,所述语音重复录入指数具体计算过程为:
统计评定指数超过规定指数对应的同一个文本指令的总数量/>,并统计连续为同一文本指令对应音频中的第一个音频/>和最后一个音频/>之间的时间间隔/>
计算出同一个文本指令的重复录入指数,具体计算公式为:,其中,/>是权重因子。
5.如权利要求4所述语音控制的跨屏互动控制方法,其特征在于,所述根据体验感指数分析出新语音识别方法的具体步骤为:
当体验感指数低于一定阈值时,第一电子设备获取用户设置的用于语音识别方法转换的语种,统计体验感指数低于一定阈值的语音信息:
识别每条语音信息对应的语种,对语音信息中识别出不同语种的次数进行统计,按时间顺序将语音信息排序,根据前后两个语音信息对应语种的不一致性,统计出语种切换频率/>,通过公式/>得出不同语种对于体验感的影响指数/>,其中,/>为第i种语种被识别到的次数,/>,语种库中共有m种语种,/>表示第i种语种设置的平均切换频率,/>和/>分别是不同语种次数对体验感的影响权重因子和不同语种切换频率对体验感的影响权重因子;
在语种确定的情况下,提取语音信息的语音特征,对语音信息进行不同语种对应方言的识别,通过公式找到契合度/>最高的方言作为方言识别结果,其中,/>是语音信息的语音特征,/>是第一电子设备中预设方言库中第j种方言的语音特征,/>,方言库中共有n种方言,/>是设定的方言契合度修正因子;
根据方言识别结果,将通过语音信息识别出的不同方言进行次数的统计,按时间顺序将语音信息排序,根据前后两个语音信息对应方言的不一致性,统计出方言切换频率,通过公式/>得出不同方言对于体验感的影响指数,/>是第j种方言被识别到的次数,/>表示第j种语种设置的平均切换频率,/>和/>分别是不同方言次数对体验感的影响权重因子和不同方言切换频率对体验感的影响权重因子;
将影响指数最高的语种设置为新语音识别方法的识别语种,将影响指数最高的方言设置为新语音识别方法的识别方言,第一电子设备保留前一次的语音识别方法并加入新语音识别方法。
6.如权利要求5所述语音控制的跨屏互动控制方法,其特征在于,所述将第一电子设备的语音识别方法更新为用户选择的语音识别方法具体指:当下一次第一电子设备接收到用户语音信息时,通过保留的前一次的语音识别方法和新加入的新语音识别方法分别进行语音信息转换,并将转换出的文本指令展现给用户,由用户选择正确的文本指令,将用户选择的文本指令对应的语音识别方法更新为下一次语音转换用的识别方法,并删除未被用户选择的文本指令对应的语音识别方法,同时将其记为未来一定时间内不通过其进行语音转换。
CN202310770962.4A 2023-06-28 2023-06-28 一种语音控制的跨屏互动控制方法 Active CN116863913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310770962.4A CN116863913B (zh) 2023-06-28 2023-06-28 一种语音控制的跨屏互动控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310770962.4A CN116863913B (zh) 2023-06-28 2023-06-28 一种语音控制的跨屏互动控制方法

Publications (2)

Publication Number Publication Date
CN116863913A CN116863913A (zh) 2023-10-10
CN116863913B true CN116863913B (zh) 2024-03-29

Family

ID=88226093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310770962.4A Active CN116863913B (zh) 2023-06-28 2023-06-28 一种语音控制的跨屏互动控制方法

Country Status (1)

Country Link
CN (1) CN116863913B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
KR20200018184A (ko) * 2018-08-01 2020-02-19 엘지전자 주식회사 인공지능 이동 로봇
CN111354351A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制装置、语音交互装置、语音识别服务器以及存储介质
CN113168836A (zh) * 2018-09-27 2021-07-23 株式会社OPTiM 计算机系统、语音识别方法以及程序
CN114530148A (zh) * 2020-10-30 2022-05-24 华为终端有限公司 一种控制方法、装置及电子设备
WO2023082703A1 (zh) * 2021-11-12 2023-05-19 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US20220130377A1 (en) * 2020-10-27 2022-04-28 Samsung Electronics Co., Ltd. Electronic device and method for performing voice recognition thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200018184A (ko) * 2018-08-01 2020-02-19 엘지전자 주식회사 인공지능 이동 로봇
CN113168836A (zh) * 2018-09-27 2021-07-23 株式会社OPTiM 计算机系统、语音识别方法以及程序
CN111354351A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制装置、语音交互装置、语音识别服务器以及存储介质
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN114530148A (zh) * 2020-10-30 2022-05-24 华为终端有限公司 一种控制方法、装置及电子设备
WO2023082703A1 (zh) * 2021-11-12 2023-05-19 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN116863913A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN109862393B (zh) 视频文件的配乐方法、系统、设备及存储介质
CN105074822B (zh) 用于音频分类和处理的装置和方法
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
EP3255633B1 (en) Audio content recognition method and device
WO2011033597A1 (ja) 信号分類装置
WO2023207801A1 (zh) 视频流帧率调整方法及其装置、设备、介质、产品
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US7010483B2 (en) Speech processing system
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN110970056A (zh) 一种从视频中分离音源的方法
US5559925A (en) Determining the useability of input signals in a data recognition system
Yamashita et al. Improving the Naturalness of Simulated Conversations for End-to-End Neural Diarization.
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN116863913B (zh) 一种语音控制的跨屏互动控制方法
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
KR102294817B1 (ko) 동영상 분석 장치 및 방법
US11418821B1 (en) Classifying segments of media content using closed captioning
CN114996509A (zh) 训练视频特征提取模型和视频推荐的方法和装置
CN114299361A (zh) 视频质量确定模型的训练方法、视频推荐方法及装置
JP2002044610A (ja) 信号検出方法、装置及びそのプログラム、記録媒体
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant