CN113470638B - 槽位填充的方法、芯片、电子设备和可读存储介质 - Google Patents

槽位填充的方法、芯片、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113470638B
CN113470638B CN202110606549.5A CN202110606549A CN113470638B CN 113470638 B CN113470638 B CN 113470638B CN 202110606549 A CN202110606549 A CN 202110606549A CN 113470638 B CN113470638 B CN 113470638B
Authority
CN
China
Prior art keywords
user
slot
voice data
slot position
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110606549.5A
Other languages
English (en)
Other versions
CN113470638A (zh
Inventor
陈祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Glory Smart Technology Development Co ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202110606549.5A priority Critical patent/CN113470638B/zh
Publication of CN113470638A publication Critical patent/CN113470638A/zh
Application granted granted Critical
Publication of CN113470638B publication Critical patent/CN113470638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Abstract

本申请涉及智能语音技术领域,提供了一种槽位填充的方法、芯片、电子设备和可读存储介质,电子设备可以是手机、平板电脑、可穿戴设备、车载设备、智能音箱等,该方法包括:获取用户输入的多个语音数据;当所述多个语音数据中相同的目标槽位的数量大于或等于数量阈值时,确定所述目标槽位的多个候选槽位值;向所述用户展示所述多个候选槽位值;获取所述用户输入的第一指示信息,所述第一指示信息用于指示所述多个候选槽位值中的第一槽位值;在所述目标槽位处填充所述第一槽位值。以上方法可以提升用户体验。

Description

槽位填充的方法、芯片、电子设备和可读存储介质
技术领域
本申请涉及智能语音技术领域,具体涉及一种槽位填充的方法、芯片、电子设备和可读存储介质。
背景技术
随着智能语音识别技术的快速发展,人们采用语音的方式和智能设备进行交互的场景越来越普遍。当用户向智能设备发出语音时,由智能设备对用户发出的语音进行解析,并根据解析得到的语义进行相应的操作,能够减少用户手动操作设备,方便了用户使用。
例如,当用户需要设置闹钟时,可以通过唤醒智能设备后,对智能设备说出“五点钟叫我”,然后由智能设备进行语音识别后,设置五点钟的闹钟。
然而,在语音识别过程中,可能会由于人的口音、语速等原因,导致语音识别结果不准确。例如用户说出“十三分钟后叫我”这句话时,智能设备可能识别为“三分钟后叫我”的语义,语音识别的结果和用户的期望产生偏差,影响交互体验。
发明内容
本申请提供了一种槽位填充的方法、芯片、电子设备和可读存储介质,能够提高语音识别结果的准确性。
第一方面,提供了一种槽位填充的方法,包括:获取用户输入的多个语音数据;当所述多个语音数据中相同的目标槽位的数量大于或等于数量阈值时,确定所述目标槽位的多个候选槽位值;向所述用户展示所述多个候选槽位值;获取所述用户输入的第一指示信息,所述第一指示信息用于指示所述多个候选槽位值中的第一槽位值;在所述目标槽位处填充所述第一槽位值。
上述方法可以由电子设备执行。在用户和电子设备进行语音交互时,用户多次说出同一句话,电子设备则可以获取用户输入的多个语音数据,通过对语音数据进行解析,得到多个槽位。电子设备解析到的槽位中,相同的目标槽位的数量能够表征用户重复一句话的次数。当相同的目标槽位的数量大于或等于预设的数量阈值时,电子设备自动识别出此时用户对识别结果并不满意,因此则针对目标槽位提供与目标槽位上已有的槽位值具有关联关系的多个候选槽位值,并进行展示,以供用户选择。然后电子设备根据用户输入的第一指示信息,从多个候选槽位值中选出符合用户意图的第一槽位值,并将第一槽位置填充至目标槽位,生成匹配用户意图的语音数据识别结果,从而完成了语音识别结果的自动纠错。
电子设备能够根据用户重复同一句话的次数自动识别出用户对识别结果存在不满意的态度时,根据目标槽位中已有的槽位值展示出可能符合用户期望的多个候选槽位值,然后基于用户的主动选择从候选槽位值中确定出符合用户意图的槽位值进行回填,避免了用户手动修改语音数据识别结果带来的不便,实现了通过用户的简单选择即可得到匹配用户意图的槽位值,进而得到匹配用户意图的语音数据识别结果,在方便操作的同时还提高了语音数据识别结果的准确性,提高了用户的交互体验。
可选地,当所述目标槽位包括多个槽位元素时,所述确定所述目标槽位的多个候选槽位值,包括:向所述用户展示所述多个槽位元素;获取所述用户输入的第二指示信息,所述第二指示信息用于指示所述多个槽位元素中的第一槽位元素;根据所述第二指示信息向所述用户展示所述第一槽位元素对应的所述多个候选槽位值。
当目标槽位中包括多个槽位元素时,可能不止一个槽位元素存在识别有误的情况,此时,电子设备可以将这多个槽位元素进行展示,以供用户选择是哪一个槽位元素需要修改。然后,电子设备根据用户输入的第二指示信息,从多个槽位元素中选出需要修改的槽位元素,并将需要修改的槽位元素上的槽位值所关联的多个候选槽位值进行展示,以供用户再次选择需要修改成哪个槽位值。在这样的两级确认机制下,电子设备能够对语音数据识别结果进行精准的修改,进一步确保了目标槽位中存在多个槽位元素时识别结果的准确性。
可选地,所述多个候选槽位值的发音相似度大于或等于相似度阈值。
上述多个候选槽位值可以为近似发音的字,还可以读音相同的同音字。读音相同或相近的字是造成语音识别错误的一个重要原因,电子设备提供多个发音相似或者同音字这样的候选槽位值以供用户选择,使用户能够快速纠正语音识别结果。
可选地,所述向所述用户展示所述多个候选槽位值,包括:通过显示屏向所述用户展示所述多个候选槽位值。
电子设备通过显示屏向用户展示多个候选槽位值,使得用户对待选的选项能够一目了然,因此能够更快速的做出选择,提高了语音识别的效率;同时,相比采用语音形式播报候选槽位值的方式,能够避免用户不留神听错或漏听的情况,因此能够更为准确地获取用户的意图,提高了语音数据识别结果的准确性。
可选地,所述多个候选槽位值为读音相似的数字。
当多个候选槽位值为读音相似的数字的时候,这些候选槽位值对应的含义可以是时间或金额的数量。电子设备通过对数字类的槽位值进行纠错,例如在设置闹钟的时候,准确地识别时间槽位,可以准时提醒用户,以免耽误用户的安排;例如在设置金额类的槽位的时候,可以准确设置金额,避免识别错误导致用户财产受到损失。
可选地,所述方法还包括:将包括所述第一槽位值的语音数据识别结果展示在界面上。
上述语音数据识别结果中包括符合用户意图的第一槽位值,当电子设备可以将语音数据识别结果展示在自身的界面上,便于用户简单明了的得知经过纠错后的语音数据识别结果,避免了用户手动查看是否识别准确带来的不便,提高了用户体验。
可选地,所述数量阈值为三。
如果将数量阈值设置为二,用户重复一句话两次就确定进行纠错则存在一定概率的误判;如果将数量阈值设置为四,则用户重复同一句话四次已经可能引起用户的不良情绪,因此将数量阈值设置为三,能够在准确判断用户纠错意图的前提下不引起用户反感,确保了用户的交互体验。
第二方面,提供了一种槽位填充的装置,包括由软件和/或硬件组成的单元,该单元用于执行第一方面所述的技术方案中任意一种方法。
第三方面,提供了一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第一方面所述的技术方案中任意一种方法。
第四方面,本申请实施例提供一种芯片,包括处理器;处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面所述的技术方案中任意一种方法。
可选地,所述芯片还包括存储器,存储器与处理器通过电路或电线连接。
进一步可选地,所述芯片还包括通信接口。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得该处理器执行第一方面所述的技术方案中任意一种方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在电子设备上运行时,使得该电子设备执行第一方面所述的技术方案中任意一种方法。
附图说明
图1是本申请实施例提供的一例终端设备100的结构示意图;
图2是本申请实施例提供的终端设备100的软件结构框图;
图3是本申请实施例提供的一例电子设备根据用户语音无法准确设置提醒的交互图;
图4为本申请实施例提供的语音业务系统的结构示意图;
图5是本申请实施例提供的一例槽位填充的方法的流程示意图;
图6是本申请实施例提供的又一例槽位填充的方法的流程示意图;
图7是本申请实施例提供的一例电子设备根据用户语音设置提醒的交互图;
图8是本申请实施例提供的又一例槽位填充的方法的流程示意图;
图9为本申请实施例提供的一例电子设备根据用户语音识别姓名槽的交互图;
图10是本申请实施例提供的一例槽位填充的装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
本申请实施例提供的槽位填充的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
示例性的,图1是本申请实施例提供的一例终端设备100的结构示意图。终端设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中,终端设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是终端设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电,也可以用于终端设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其它终端设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端设备100的结构限定。在本申请另一些实施例中,终端设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其它一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。图1中的天线1和天线2的结构仅为一种示例。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其它功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端设备100可以通过无线通信技术与网络以及其它设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备100可以包括1个或N个显示屏194,N为大于1的正整数。
终端设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其它数字信号。例如,当终端设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样,终端设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
终端设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中,终端设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端设备100根据压力传感器180A检测所述触摸操作强度。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端设备100是翻盖机时,终端设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端设备100在各个方向上(一般为三轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端设备100通过发光二极管向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端设备100附近有物体。当检测到不充分的反射光时,终端设备100可以确定终端设备100附近没有物体。终端设备100可以利用接近光传感器180G检测用户手持终端设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端设备100对电池142加热,以避免低温导致终端设备100异常关机。在其它一些实施例中,当温度低于又一阈值时,终端设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入,产生与终端设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端设备100中,不能和终端设备100分离。
终端设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明终端设备100的软件结构。
图2是本申请实施例的终端设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。
Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
为了便于理解,本申请以下实施例将以具有图1和图2所示结构的终端设备为例,结合附图和应用场景,对本申请实施例提供的槽位填充的方法进行具体阐述。通常在用户和终端设备进行语音交互的时候,例如通过语音的方式设置提醒时,可以参见图3所示图3中,以电子设备为智能语音设备为例,当用户说出“13分钟叫我”这句话时,智能语音设备经过识别,向用户反馈“好的,3分钟后提醒您”。此时,用户发现智能语音设备识别有误,于是再次说出“13分钟叫我”这句话,智能语音设备依然会向用户反馈“好的,3分钟后提醒您”,用户又一次重复“13分钟叫我”这句话,智能语音设备的识别结果依然有误,如此反复多次都得不到准确的识别结果的情况下,可能会引起用户的不良情绪,导致用户体验不佳。本申请实施例中,电子设备可以在用户多次重复同一句话时,判断出用户多次重复是因为识别结果有误导致,因此电子设备将和识别得到的结果相近的几个结果展示给用户,由用户主动选择出和用户意图匹配的结果来修正识别得到的结果,确保语音识别结果的准确性,从而提升用户的语音交互体验。
首先,为了更为清楚的介绍本申请实施例的应用场景,这里示例性地介绍本申请实施例可能涉及的相关内容。
(1)语音业务系统,或称对话业务系统。参见图4,示出了本申请实施例提供的语音业务系统示意图。如图4所示,该语音系统可以包括语音识别(Automatic SpeechRecognition,ASR)模块41、语义理解(Natural Language Understanding,NLU)模块42、对话管理(Dialogue Management,DM)模块43、自然语言生成(Natural LanguageGeneration,NLG)模块44以及语音合成(Text To Speech,TTS)模块45。
其中,语音识别模块41用于将用户46输入的语音信息转化成文本信息。
语义理解模块42用于根据语音识别模块41输出的文本信息进行语义理解,得到语义信息,该语义信息通常包括意图和槽位值。
对话管理模块43用于根据语义理解模块42输出的语义信息以及对话状态,更新系统状态,并输出下一步的系统动作。
对话管理模块43中包括对话状态追踪(Dialog State Tracking,DST)子模块和对话决策(Dialog Policy,DP)子模块。对话状态追踪子模块用于维护和更新对话状态,对话决策子模块用于根据对话状态和语义信息等,产生系统行为,以决定下一步的动作。
本申请实施例中,对话管理模块43的输出可以具体表现为执行指令,该执行指令用于指示下一步的动作。例如,用户46的输入语音信息为“播放歌曲A”,对话管理模块13输出播放歌曲A的执行指令,电子设备响应于该执行指令,自动播放歌曲A。
自然语言生成模块44用于将对话管理模块43输出的系统动作进行文本化,得到自然语言文本。
语音合成模块45用于将自然语言生成模块44输出的自然语言文本转化为语音信息,得到输出语音。
(2)意图、槽位和槽位值。
意图可以是指用户语音中表达的用户目的。例如,用户语音为“深圳今天的天气怎么样”,该语音的意图为“查询天气”。又例如,用户语音为“播放一首歌曲”,该语音的意图为“推荐音乐”。再如,用户语音为“13分钟后叫我”,该语音的意图为“设置闹钟”。
每个意图下可以配置有一个或多个槽位。槽位是指系统需要从用户语音中收集的关键信息。例如,针对查询天气这一意图,配置的槽位可以包括地点槽位和时间槽位。地点槽位用于确定需要查询哪个地点的天气,时间槽位用于确定需要查询什么时候的天气。
槽位包括槽位值等属性,槽位值是指槽位的具体参数,又可称为槽位的实体。例如,用户语音为“今天深圳的天气怎么样”,从该语音中可以提取出地点槽位和时间槽位,地点槽位的实体为“深圳”,时间槽位的实体为当前的系统日期“2021年5月10日”。再如,用户语音为“13分钟后叫我”,从该语音中可以提取出时间槽位,时间槽位的实体为“13分钟后”。
具体应用中,可以预先设置意图类别,以及每个意图类别下所配置的槽位。示例性地,在本申请实施例中,推荐音乐意图下配置的槽位包括但不限于目标设备槽位,该目标设备槽位用于指示接续对话业务的目标设备。例如,手机需要将对话业务接续至大屏,此时,源设备为手机,目标设备为大屏。
电子设备可以基于上述语音业务系统,与用户进行一轮或多轮的人机对话,以实现相应的语音业务。
下面以电子设备为执行主体,对本申请实施例如何进行槽位填充进行描述,该电子设备可以为上述图1和图2所描述的终端设备。
图5是本申请实施例提供的一例槽位填充的方法流程示意图。如图5所示,该方法包括:
S501、获取用户输入的多个语音数据,当所述多个语音数据中相同的目标槽位的数量大于或等于数量阈值时,确定所述目标槽位的多个候选槽位值。
S502、向所述用户展示所述多个候选槽位值。
S503、获取所述用户输入的第一指示信息,所述第一指示信息用于指示所述多个候选槽位值中的第一槽位值。
S504、在所述目标槽位处填充所述第一槽位值。
在用户和电子设备进行语音交互时,用户多次说出同一句话,电子设备则可以获取用户输入的多个语音数据,通过对语音数据进行解析,得到每条语音对应的槽位。通常,有些类型的槽位容易存在误识别的情况,例如数字槽位中,“十”容易被识别为“四”,“十三”容易被识别为“三”;再如,姓名槽位中,同音字只能被识别出其中一种,电子设备可以将这些容易识别错误的槽位作为目标槽位。
电子设备对多个语音数据进行解析所到的槽位中,相同的目标槽位的数量能够表征用户重复一句话的次数。当相同的目标槽位的数量大于或等于预设的数量阈值时,即用户重复同一句话的次数大于或等于数量阈值时,电子设备自动识别出此时用户对识别结果并不满意,因此则针对目标槽位提供与目标槽位上已有的槽位值具有关联关系的多个候选槽位值,并进行展示,以供用户选择,因此无需用户再次输入复杂的修改信息来进行纠错。
可选地,上述目标槽位中的槽位值和多个候选槽位值具有关联关系,该关联关系可以是同音字关系,也可以是读音接近的数字或汉字等。可选地,上述关联关系可以是预先设定的对应关系,例如“三”对应“十三”、“三十”、“三十三”和“四十三”,再如“轻”对应“青”、“清”和“倾”,以及“四”对应“十”、“十四”等。可选地,每个槽位上可以关联的候选槽位值可以存在多个,电子设备可以遍历所有关联的候选槽位值并进行展示,也可以只筛选几个高频的候选槽位值进行展示,本实施例对此不做限定。
可选地,上述数量阈值可以是根据经验进行设置的,通常可以取大于一的自然数,例如二、三、四等等。优选的,上述数量阈值可以设置为三,如果将数量阈值设置为二,用户重复一句话两次就确定进行纠错则存在一定概率的误判;如果将数量阈值设置为四,则用户重复同一句话四次已经可能引起用户的不良情绪,因此将数量阈值设置为三,能够在准确判断用户纠错意图的前提下不引起用户反感,确保了用户的交互体验。
然后电子设备根据用户输入的第一指示信息,从多个候选槽位值中选出符合用户意图的第一槽位值,并将第一槽位置填充至目标槽位,从而生成匹配用户意图的语音数据识别结果,从而完成了语音识别结果的自动纠错。
该方法中,电子设备能够根据用户重复同一句话的次数自动识别出用户对识别结果存在不满意的态度,然后根据目标槽位中已有的槽位值展示出可能符合用户期望的多个候选槽位值,然后基于用户的主动选择从候选槽位值中确定出符合用户意图的槽位值进行回填,避免了用户手动修改语音数据识别结果带来的不便,实现了通过用户的简单选择即可得到匹配用户意图的槽位值,进而得到匹配用户意图的语音数据识别结果,在方便操作的同时还提高了语音数据识别结果的准确性,提高了用户的交互体验。
可选地,目标槽位上填充数字类槽位值时,可以是时间槽位值、金额槽位值或者表示数量的计数槽位值,例如用户说:“设置10分钟后的闹钟”,数字槽位值则为时间槽位值;用户说:我要买五个手机,数字槽位值则为计数槽位值;用户说:充值四十元话费,数字槽位值为金额槽位值。本申请实施例的流程还可以参见图6所示的流程。如图6所示,当用户和电子设备进行语音交互时,如果涉及数字类的槽位值时,电子设备可以开始计数。该数字类的槽位值可以是时间、数量或者金额等,例如用户说:设置值十分钟后的闹钟,此时数字时时间槽位置、我要买五个手机、重置四十元话费当用户重复包含这个数字的语句达到预设的门限的时候,电子设备怎判定对这个槽位值的识别不准确,然后构造针对该槽位值对应的槽位的确认咨询语句,例如:A.3分钟、B.13分钟、C.43分钟。由用户针对构造出的确认咨询语句进行确认,电子设备将用户确认的槽位值回填至对应的槽位上,实现将原先不准确的槽位值进行替换,从而得到符合用户意图的语音数据识别结果,并将语音数据识别结果展示给用户。
例如图7所示,当用户重复三次“13分钟叫我”后,电子设备判断语音数据识别结果可能不符合用户的意图,则在界面上显示针对时间槽位三个选项:A.3分钟、B.13分钟、C.43分钟,此时用户点击界面上的B选项,或者说出“选B”,电子设备则将“13分钟”这个槽位值填充至时间槽位,得到符合用户意图的语音数据识别结果,然后根据语音数据识别结果设置十三分钟后的闹钟。可选地,当电子设备将针对时间槽位的三个选项展示给用户时,如果用户采用语音的方式,例如说出“选B”来确认选项,由于A、B、C的发音相比容易混淆的数字的发音更容易被电子设备准确地识别,因此,电子设备能够准确识别出用户意图,提高语音数据识别结果的准确性,也可以避免手动操作,提升了用户的交互体验。
在一个实施例中,如果目标槽位包括多个槽位元素时,则可以采用二级确认机制来对语音数据识别结果进行纠正,例如当姓名槽中存在多个多音字的时候,电子设备首先确定是姓名槽中哪个槽位元素需要修改(即哪个字需要修改),然后再确定这个需要修改的槽位元素需要改成什么槽位值(即这个位置上的字要改成哪个字)。具体可以参见图8所示的流程,包括:当用户和电子设备进行语音交互时,涉及到包含多个槽位元素的时候,电子设备开始计数。这多个槽位元素可以对应目标槽位中的多个同音字。当电子设备确定目标槽位的数量是否大于或等于预设的数量阈值,例如是否达到3次。若是,则电子设备向用户展示目标槽位中的多个槽位元素,然后接收用户输入的第二指示信息,该第二指示信息用于指示多个槽位元素中的第一槽位元素,该第一槽位元素为用户主动选择出的需要进行修改的槽位元素,例如姓名槽中哪个位置上的字需要修改。然后电子设备根据第二指示信息向用户展示第一槽位元素对应的多个候选槽位值,例如展示第二指示信息所指示的需要修改的那个字的多个同音字,也可以把已经识别出的需要修改的字作为候选槽位值中的一个。之后,电子设备可以根据用户针对多个候选槽位值输入的第一指示信息确定出第一槽位值,从而进行目标槽位的填充,得到符合用户意图的语音数据识别结果,还可以将语音数据时别结果回复给用户。例如姓名槽中包括多个同音字的情况,则可以采用二级确认机制来对语音数据识别结果进行纠正,即电子设备首先确定是姓名槽中哪个槽位元素需要修改(即哪个位置上的字需要修改),然后再确定这个需要修改的槽位元素需要改成什么槽位值(即这个位置上的字要改成哪个字)。在这样的两级确认机制下,电子设备能够对语音数据识别结果进行精准的修改,进一步确保了目标槽位中存在多个槽位元素时识别结果的准确性。
例如图9所示,当用户说出“张薇笑”时,电子设备识别为“张微笑”,如果用户第三次重复说出“张薇笑”时,电子设备判断语音数据识别结果可能不符合用户的意图,则展示:A-替换第一个字,B-替换第二个字、C-替换第三个字,或者电子设备询问:哪个字需要替换,来向用户提供第一级确认机制。用户可以点击B选项,或者说出“第二个字”,电子设备则基于用户反馈展示出第二个字“微”的相关联的选项:1-微笑的微、2-紫薇的薇、3威风的威,来向用户提供第二级确认机制。用户则点选“2”或者说出“选2”,电子设备可以将“张薇笑”更新至姓名槽。
该方法能够实现在目标槽位中存在多个槽位元素的情况下,电子设备首先基于用户意图首先确认需要修改的对象,然后再次根据用户意图针对要修改的对象确认与用户意图匹配的槽位值,在这样的两级确认机制下,能够对语音数据识别结果进行精准的修改,进一步确保了目标槽位中存在多个槽位元素时语音数据识别结果的准确性。
可选地,电子设备还可以在对一个槽位元素修改完成的情况下,继续对另一个槽位元素进行修改,例如电子设备对第一个槽位元素上的同音字进行修改后,再提示用户选择其他的槽位元素进行选择,当用户选择第二个槽位元素时,则向用户展示第二个槽位元素关联的多个候选的同音字,以此类推,电子设备可以完成多个槽位元素的纠错。可选地,电子设备也可以不用选择具体的槽位元素,而是直接依次展示每个槽位元素所关联的多个候选槽位值,然后依次接收用户的选择指令,从而完成目标槽位中多个槽位元素的槽位值的确定,以此来减少用户输入的次数,简化操作,简化交互流程。
在一些实施例中,上述多个候选槽位值的发音相似度大于或等于相似度阈值。上述多个候选槽位值可以为近似发音的字,还可以读音相同的同音字。读音相同或相近的字是造成语音识别错误的一个重要原因,电子设备能够提供多个发音相似或者同音字这样的候选槽位值以供用户选择,使用户能够快速纠正语音数据识别结果。
在一些实施例中,电子设备还可以通过显示屏向所述用户展示所述多个候选槽位值,使得用户对待选的选项能够一目了然,因此能够更快速的做出选择,提高了语音识别的效率;同时,相比采用语音形式播报候选槽位值的方式,能够避免用户不留神听错或漏听的情况,因此能够更为准确地获取用户的意图,提高了语音数据识别结果的准确性。
在一些实施例中,当多个候选槽位值为读音相似的数字的时候,例如“三”、“十三”和“三十”,这些候选槽位值对应的含义可以是时间、金额或物品的数量等。该方法通过对数字类的槽位值进行准确的识别,例如在设置闹钟的时候,准确地识别时间槽位,可以准时提醒用户,以免耽误用户的安排;例如在设置金额类的槽位的时候,可以准确设置金额,避免识别错误导致用户财产受到损失。
在上述各个实施例的基础上,上述语音数据识别结果中还包括符合用户意图的第一槽位值,电子设备可以将包括第一槽位值的语音数据识别结果展示在界面上,便于用户简单明了的得知经过纠错后的语音数据识别结果,避免了用户手动查看是否识别准确带来的不便,提高了用户体验。
上文详细介绍了本申请提供的槽位填充的方法的示例。可以理解的是,相应的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请可以根据上述方法示例对槽位填充的装置进行功能模块的划分,例如,可以将各个功能划分为各个功能模块,也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图10示出了本申请提供的一种槽位填充的装置的结构示意图。装置1000包括:
第一获取模块1001,用于获取用户输入的多个语音数据。
确定模块1002,用于当所述多个语音数据中相同的目标槽位的数量大于或等于数量阈值时,确定所述目标槽位的多个候选槽位值。
第二获取模块1003,用于向所述用户展示所述多个候选槽位值,并获取所述用户输入的第一指示信息,所述第一指示信息用于指示所述多个候选槽位值中的第一槽位值。
填充模块1004,用于在所述目标槽位处填充所述第一槽位值。
可选地,当所述目标槽位包括多个槽位元素时,确定模块1002,具体用于向所述用户展示所述多个槽位元素;并获取所述用户输入的第二指示信息,所述第二指示信息用于指示所述多个槽位元素中的第一槽位元素;以及根据所述第二指示信息向所述用户展示所述第一槽位元素对应的所述多个候选槽位值。
可选地,所述多个候选槽位值的发音相似度大于或等于相似度阈值。
可选地,第二获取模块1003,具体用于通过显示屏向所述用户展示所述多个候选槽位值。
可选地,所述多个候选槽位值为读音相似的数字。
可选地,装置1000还可以包括:展示模块,用于将包括所述第一槽位值的语音数据识别结果展示在界面上。
可选地,所述数量阈值为三。
装置1000执行槽位填充的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述,此处不再赘述。
本申请实施例还提供了一种芯片,包括处理器;处理器用于读取并执行存储器中存储的计算机程序,以执行如上述方法实施例中的槽位填充的方法。
本申请实施例还提供了一种电子设备,包括上述处理器。本实施例提供的电子设备可以是图1所示的终端设备100,用于执行上述槽位填充的方法。在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和存储模块。其中,处理模块可以用于对终端设备的动作进行控制管理,例如,可以用于支持终端设备执行显示单元、检测单元和处理单元执行的步骤。存储模块可以用于支持终端设备执行存储程序代码和数据等。存储模块,可以用于支持终端设备与其它设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其它终端设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的终端设备可以为具有图1所示结构的设备。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行上述任一实施例所述的槽位填充的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的槽位填充的方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种槽位填充的方法,其特征在于,所述槽位填充的方法用于用户和电子设备进行语音交互,所述槽位填充的方法包括:
响应于用户输入的第一语音数据,输出第一应答信息,所述第一应答信息与所述第一语音数据相对应,其中,所述第一应答信息为不符合用户意图的语音数据识别结果;
响应于所述用户输入的第二语音数据,输出多个选项,所述多个选项与所述第二语音数据中的目标槽位相对应,其中,所述第二语音数据与所述第一语音数据相同,每个所述选项包括对应的选项编号;
接收所述用户的第四语音数据,所述第四语音数据包括一个所述选项编号;
将所述第四语音数据中包括的选项编号对应的选项填充至所述目标槽位,并输出第二应答信息,其中,所述第二应答信息为符合用户意图的语音数据识别结果;
所述第一应答信息和所述第二应答信息均为语音信息。
2.根据权利要求1所述的方法,其特征在于,所述第二语音数据包括多个槽位,输出多个选项包括:输出目标槽位对应的多个选项,所述输出所述目标槽位的多个选项,包括:
向所述用户展示多个槽位元素;
获取所述用户输入的第二指示信息,所述第二指示信息用于指示所述多个槽位元素中的第一槽位元素,所述第一槽位元素为所述用户主动选择出的需要进行修改的槽位元素;
根据所述第二指示信息向所述用户展示所述第一槽位元素对应的所述多个选项。
3.根据权利要求1所述的方法,其特征在于,所述多个选项的发音相似度大于或等于相似度阈值。
4.根据权利要求1至3中任一项所述的方法,其特征在于,输出多个选项,包括:
通过显示屏向所述用户展示所述多个选项。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述多个选项为读音相似的数字。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
将包括所述第二语音识别结果展示在界面上。
7.根据权利要求1至3任一项所述的方法,其特征在于,在响应于所述用户输入的第二语音数据,输出多个选项之前,所述方法还包括:
响应于用户输入的第三语音数据,输出第三应答信息,所述第三应答信息与所述第三语音数据相对应,所述第三语音数据与所述第一语音数据相同。
8.一种槽位填充的芯片,其特征在于,包括处理器;所述处理器用于读取并执行存储器中存储的计算机程序,以执行如权利要求1至7中任一项所述的方法。
9.一种电子设备,其特征在于,包括:处理器、存储器和接口;
所述处理器、存储器和接口相互配合,使得所述电子设备执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至7中任一项所述的方法。
CN202110606549.5A 2021-05-28 2021-05-28 槽位填充的方法、芯片、电子设备和可读存储介质 Active CN113470638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606549.5A CN113470638B (zh) 2021-05-28 2021-05-28 槽位填充的方法、芯片、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606549.5A CN113470638B (zh) 2021-05-28 2021-05-28 槽位填充的方法、芯片、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN113470638A CN113470638A (zh) 2021-10-01
CN113470638B true CN113470638B (zh) 2022-08-26

Family

ID=77872004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606549.5A Active CN113470638B (zh) 2021-05-28 2021-05-28 槽位填充的方法、芯片、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113470638B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063360A1 (ja) * 2010-11-12 2012-05-18 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
CN111724775A (zh) * 2019-03-22 2020-09-29 华为技术有限公司 一种语音交互方法及电子设备
CN111881675A (zh) * 2020-06-30 2020-11-03 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备及存储介质
CN112242143A (zh) * 2019-07-19 2021-01-19 北京字节跳动网络技术有限公司 一种语音交互方法、装置、终端设备及存储介质
CN112835494A (zh) * 2019-11-22 2021-05-25 北京安云世纪科技有限公司 一种语音识别结果纠错方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2365188B (en) * 2000-07-20 2004-10-20 Canon Kk Method for entering characters
JP2007156107A (ja) * 2005-12-05 2007-06-21 Canon Inc 音声認識装置およびその方法
CN102831894B (zh) * 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和系统
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
US11003839B1 (en) * 2017-04-28 2021-05-11 I.Q. Joe, Llc Smart interface with facilitated input and mistake recovery

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063360A1 (ja) * 2010-11-12 2012-05-18 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
CN111724775A (zh) * 2019-03-22 2020-09-29 华为技术有限公司 一种语音交互方法及电子设备
CN112242143A (zh) * 2019-07-19 2021-01-19 北京字节跳动网络技术有限公司 一种语音交互方法、装置、终端设备及存储介质
CN112835494A (zh) * 2019-11-22 2021-05-25 北京安云世纪科技有限公司 一种语音识别结果纠错方法及装置
CN111881675A (zh) * 2020-06-30 2020-11-03 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113470638A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN112231025B (zh) Ui组件显示的方法及电子设备
CN110910872B (zh) 语音交互方法及装置
CN113704014B (zh) 日志获取系统、方法、电子设备及存储介质
CN110138959B (zh) 显示人机交互指令的提示的方法及电子设备
CN110825469A (zh) 语音助手显示方法及装置
CN111819533B (zh) 一种触发电子设备执行功能的方法及电子设备
CN111742539B (zh) 一种语音控制命令生成方法及终端
KR20210062704A (ko) 인간-컴퓨터 상호작용 방법 및 전자 장치
CN115589051B (zh) 充电方法和终端设备
CN114115512A (zh) 信息显示方法、终端设备及计算机可读存储介质
CN113641271A (zh) 应用窗口的管理方法、终端设备及计算机可读存储介质
WO2022143258A1 (zh) 一种语音交互处理方法及相关装置
CN113488042B (zh) 一种语音控制方法及电子设备
CN111768765B (zh) 语言模型生成方法和电子设备
CN113380240B (zh) 语音交互方法和电子设备
WO2022007757A1 (zh) 跨设备声纹注册方法、电子设备及存储介质
CN115641867A (zh) 语音处理方法和终端设备
CN113407300B (zh) 应用误杀评估方法及相关设备
CN115437601A (zh) 图像排序方法、电子设备、程序产品及介质
CN113470638B (zh) 槽位填充的方法、芯片、电子设备和可读存储介质
CN114079642B (zh) 一种邮件处理方法及电子设备
CN115706916A (zh) 一种基于位置信息的Wi-Fi连接方法及装置
CN114003241A (zh) 应用程序的界面适配显示方法、系统、电子设备和介质
CN114664306A (zh) 一种编辑文本的方法、电子设备和系统
CN114430441A (zh) 来电提示方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230912

Address after: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New Area, Pudong New Area, Shanghai

Patentee after: Shanghai Glory Smart Technology Development Co.,Ltd.

Address before: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee before: Honor Device Co.,Ltd.