CN113744728A - 一种语音处理方法、装置、设备及存储介质 - Google Patents

一种语音处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113744728A
CN113744728A CN202111012283.8A CN202111012283A CN113744728A CN 113744728 A CN113744728 A CN 113744728A CN 202111012283 A CN202111012283 A CN 202111012283A CN 113744728 A CN113744728 A CN 113744728A
Authority
CN
China
Prior art keywords
target
result
semantic analysis
determining
sender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111012283.8A
Other languages
English (en)
Inventor
张建军
陈真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority to CN202111012283.8A priority Critical patent/CN113744728A/zh
Publication of CN113744728A publication Critical patent/CN113744728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种语音处理方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及车联网和智能座舱技术。具体实现方案为:确定发送方输入的语音信息的语境信息;获取所述语音信息的至少两个语义解析结果;根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果。根据本公开的技术,能够精准定位用户意图。

Description

一种语音处理方法、装置、设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及车联网和智能座舱技术,具体涉及一种语音处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的广泛普及,人机交互被应用到各个领域。目前,在车联网领域内,车主与车机端交互的主要方式为语音交互。因此,准确识别用户意图,对语音交互至关重要。
发明内容
本公开提供了一种语音处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种语音处理方法,该方法包括:
确定发送方输入的语音信息的语境信息;
获取所述语音信息的至少两个语义解析结果;
根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果。
根据本公开的另一方面,提供了一种语音处理装置,该装置包括:
语境信息确定模块,用于确定发送方输入的语音信息的语境信息;
解析结果获取模块,用于获取所述语音信息的至少两个语义解析结果;
目标结果选择模块,用于根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的语音处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任一实施例所述的语音处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的语音处理方法。
根据本公开的技术,能够精准定位用户意图。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种语音处理方法的流程图;
图2是根据本公开实施例提供的另一种语音处理方法的流程图;
图3是根据本公开实施例提供的又一种语音处理方法的流程图;
图4是根据本公开实施例提供的一种语音处理装置的结构示意图;
图5是用来实现本公开实施例的语音处理方法的电子设备的框图;
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种语音处理方法的流程图。本公开实施例适用于如何对语音进行处理的情况,尤其适用于用户与车机端交互,用户向车机端所输入的语音信息存在多种含义(即语音信息没有明确表达出用户意图)的场景下,如何对用户语音信息进行处理,以精准定位用户意图的情况。该实施例可以由配置在电子设备中的语音处理装置来执行,该装置可以采用软件和/或硬件的方式实现。可选的,该电子设备可以是车机端,还可以是服务端等。如图1所示,本实施例提供的语音处理方法可以包括:
S101,确定发送方输入的语音信息的语境信息。
本实施例中,所谓发送方即为任一具有与车机端交互需求的一方,比如车辆中的驾驶员、副驾驶员或其他用户等。语音信息为发送方通过语音向车机端发送的服务请求;进一步的,本实施例中发送方向车机端所输入的语音信息能够表达出多种含义,比如“红日”,这一语音信息具有“播放歌曲《红日》”和“介绍百科红日”等两种含义。
语境信息用于表征发送方在何种情景下向车机端输入语音信息;可选的,语境信息中包括所有影响语义解析结果的因素。进一步的,语境信息可以包括车机端状态的相关信息,比如车机端当前显示的界面标识,其中界面标识用于唯一表征某一具体的界面,可以是界面ID;语境信息还可以包括发送方表达语音信息所采用的语言、音调等;此外,语境信息还可以包括发送方表达语音信息时发送方与车机端之间的相对距离等。
可选的,若本实施例的执行主体为车机端,则车机端可以通过语音采集模块(比如麦克风),采集发送方输入的语音信息,并确定语音信息的语境信息。例如,车机端可以根据车机端状态,确定语音信息的语境信息;或者,车机端在采集发送方的语音信息时,同步采集包括发送方的场景图像(比如,发送方向车机端输入语音信息时,发送方位于车辆内,则车机端可以同步采集整个车辆内部的图像),进而可以对所采集的场景图像进行识别与分析,以确定语音信息的语境信息等。
进一步的,若本实施例的执行主体为服务端,则车机端可以通过语音采集模块(比如麦克风),采集发送方输入的语音信息,并同步采集包括发送方的场景图像;之后,车机端可以将所采集的语音信息和场景图像发送至服务端,由服务端根据场景图像,确定发送方输入语音信息的语境信息。
需要说明的是,考虑到车机端和服务端的网络质量、存储空间、以及计算能力等,本实施例的执行主体优选为服务端。进一步的,在车机端硬件设施和网络质量等满足需求的情况下,本实施例的执行主体也可以是车机端。示例性的,在执行主体为服务端的情况下,考虑到服务端直接确定语境信息,需要车机端传输数据(比如场景图像等),进而会占用车机端的网络资源,因此服务端可以获取车机端传输的语音信息的语境信息。
S102,获取语音信息的至少两个语义解析结果。
本实施例中,所谓语义解析结果为对语音信息进行语音识别,得到语音信息对应的文本内容,并对文本内容进行语义解析得到。
可选的,若本实施例的执行主体为车机端,则车机端可以将发送方输入的语音信息分发到至少两个语义解析模块,由每个语义解析模块分别对语音信息进行解析,进而车机端可以获取到每个语义解析模块对语音信息的语义解析结果。或者,车机端可以向服务端发送语义请求,由服务端将语音信息分发至不同的语义解析模块,进而车机端可以获取服务端反馈的语音信息的至少两个语义解析结果。其中,语义解析模块可以配置于车机端中,或者可以独立于车机端配置于其他设备中。
进一步的,若本实施例的执行主体为服务端,则服务端可以向至少两个语义解析模块发送包括语音信息的语义请求,由每个语义解析模块分别对语音信息进行解析;进而服务端可以获取到每个语义解析模块对语音信息的语义解析结果。其中,语义解析模块可以配置于服务端中,或者可以独立于服务端配置于其他设备中。
S103,根据语境信息,从至少两个语义解析结果中选择目标解析结果。
本实施例中,目标解析结果即为能够表达发送方真正意图的语义解析结果。
一种可实施方式,本实施例可以基于语境信息,对至少两个语义解析结果进行统计分析,进而确定目标解析结果。
又一种可实施方式,可以通过神经网络模型来确定目标解析结果。例如,将语境信息和至少两个语义解析结果一并输入至预先训练的匹配模型中,由匹配模型输出目标解析结果。
需要指出的是,对于同一语音信息存在多种表达含义的情况下,现有技术直接根据语义解析模块对语音信息的解析结果确定用户意图,存在语义误召问题;而本实施例通过结合语音信息的语境信息,能够从不同语义解析结果中精准定位目标解析结果,即用户真正意图,从而可以有效解决语义误召问题,提升用户满意度。
本公开实施例提供的技术方案,对于同一语音信息存在多种表达含义的情况下,通过结合语音信息的语境信息,能够从不同语义解析结果中精准定位目标解析结果,即用户真正意图,有效解决了现有语音交互过程中所存在的语义误召问题,为人机交互的顺利进行提供了保证;此外,本方案也提升了语音处理的智能化程度。
在上述实施例的基础上,作为本申请实施例的一种可选方式,根据语境信息,从至少两个语义解析结果中选择目标解析结果之后,还可以执行目标解析结果,并向发送方输出执行结果。
具体的,若本实施例的执行主体为车机端,则车机端在确定目标解析结果之后,可以直接执行目标解析结果,并可以向发送方输出执行结果。其中输出执行结果的方式可以是语音播报,也可以是界面展示,还可以是语音播报和界面展示两者结合等。
比如,语音信息为“XX超市”,语义解析结果A为“介绍百科XX超市”,语义解析结果B为“在地图中搜索附近的XX超市”;如果目标解析结果为语义解析结果B,则车机端将执行语义解析结果B,并在车机端的地图界面中展示出附近XX超市的搜索结果,以便发送方查看。
又如,语音信息为“打开空调”,在车家互联的智能家居环境中,“打开空调”可对应有语义解析结果C“打开家里的空调”和语义解析结果D“打开车里的空调”;如果目标解析结果为语义解析结果D,则车机端将执行语义解析结果D,并可以向发送方播报固定话术,比如“空调已打开”等。
进一步的,若本实施例的执行主体为服务端,则服务端在确定目标解析结果之后,可以向车机端反馈目标解析结果,由车机端执行目标解析结果,并向发送方输出执行结果。
需要说明的是,本实施例在精准定位用户意图之后,可以向用户输出执行用户意图之后的结果,进一步完善了方案。
图2是根据本公开实施例提供的另一种语音处理方法的流程图,本实施例在上述实施例的基础上,进一步对如何“确定发送方输入语音信息的语境信息”进行详细解释说明。如图2所示,本实施例提供的语音处理方法可以包括:
S201,根据车机端界面状态,确定发送方输入的语音信息的语境信息。
本实施例中,车机端界面状态可以包括发送方向车机端输入语音信息时,车机端界面展示和运行状态等。
一种可实施方式,可以将发送方向车机端输入语音信息时,车机端显示屏上正在展示的界面作为目标界面,并将目标界面标识作为语音信息的语境信息。
或者,可以将发送方向车机端输入语音信息时,车机端显示屏上正在展示的界面,以及此时在后台运行的界面作为目标界面,并将目标界面标识作为语音信息的语境信息。
又一种可实施方式,可以根据车机端界面状态,以及发送方位置信息和/或历史交互记录,确定发送方输入的语音信息的语境信息。其中,历史交互记录可以包括一段时间内车机端与发送方之间的交互记录;考虑到内存资源占用等因素,本实施例中历史交互记录优选包括车机端与发送方之间基于上一语音信息的交互记录,具体可以包括发送方向车机端输入的上一语音信息,以及车机端基于上一语音信息的解析结果向发送方输出的内容。所谓上一语音信息为发送方在向车机端输入S201中的语音信息之前,向车机端所输入的语音信息。
例如,可以确定发送方向车机端输入语音信息时,车机端显示屏上正在展示的界面,是否与车机端响应发送方的上一语音信息后车机端所展示的界面相同;若相同,则将车机端显示屏上正在展示的界面作为目标界面;否则,将车机端显示屏上正在展示的界面,以及车机端响应发送方的上一语音信息后车机端所展示的界面一并作为目标界面;将目标界面标识作为语音信息的语境信息。
又如,可以将发送方向车机端输入语音信息时,车机端显示屏上正在展示的界面作为目标界面;同时根据发送方位置信息,确定发送端与车机端之间的相对距离;从而可以将目标界面标识和相对距离一并作为语境信息。
或者,可以确定发送方向车机端输入语音信息时,车机端显示屏上正在展示的界面,是否与车机端响应发送方的上一语音信息后车机端所展示的界面相同;若相同,则将车机端显示屏上正在展示的界面作为目标界面;否则,将车机端显示屏上正在展示的界面,以及车机端响应发送方的上一语音信息后车机端所展示的界面一并作为目标界面;同时根据发送方位置信息,确定发送端与车机端之间的相对距离;从而可以将目标界面标识和相对距离一并作为语境信息。
S202,获取语音信息的至少两个语义解析结果。
S203,根据语境信息,从至少两个语义解析结果中选择目标解析结果。
本公开实施例提供的技术方案,通过结合车机端界面状态,能够确定发送方输入语音信息的语境信息,为确定语境信息提供了一种可选方式,同时为后续结合语音信息的语境信息,从不同语义解析结果中精准定位目标解析结果提供了数据支撑。此外,本实施例在确定语境信息时,还结合发送方位置信息和/或历史交互记录等其他因素,使得语境信息更精准和全面,进而进一步提高了最终确定的目标解析结果的准确度。
图3是根据本公开实施例提供的又一种语音处理方法的流程图,本实施例在上述实施例的基础上,在语境信息包括目标界面标识的情况下,对如何“根据语境信息,从至少两个语义解析结果中选择目标解析结果”进行详细解释说明。如图3所示,本实施例提供的语音处理方法可以包括:
S301,确定发送方输入的语音信息的语境信息,其中语境信息包括目标界面标识。
S302,获取语音信息的至少两个语义解析结果。
S303,根据目标界面标识,确定与目标界面关联的目标场景。
可选的,本实施例可以根据目标界面标识,从预先建立的语境映射关系表中进行查找,以确定与目标界面关联的目标场景。
一种可实施方式,本实施例可以根据车机端所支持的服务(或者可以称为垂类),每一服务所包含的功能(或者称为意图),以及车机端能够向用户展示的界面等,构建语境映射关系表。可选的,语境映射关系表中一个场景可以由一个服务和该服务下的一种功能组成。其中服务包括但不限于地图、天气、音乐、电话和游戏等;比如对于地图而言,该地图这一服务可以具有导航、周边搜索、以及沿途搜索等多种功能。
示例性的,语境映射关系表中一个界面可以关联一个或多个场景。比如表1所示,card_type表示服务,intent表示功能。对于车机地图界面而言,可以关联地图(map)和周边搜索(nearby)所组成的场景,还可以关联音乐(music)和播放(play)所组成的场景等。进一步的,一个场景也可以关联一个或多个界面。比如,对于地图沿途搜索场景而言,可以关联车机地图界面,还可以关联车机地图导航界面等。
表1语境映射关系表
card_type intent 说明 界面
map nearby 地图周边搜索 车机地图界面
music Play 音乐播放 车机地图界面
passing_point search 地图沿途搜索 车机地图界面
passing_point search 地图沿途搜索 车机地图导航界面
map route 导航 车机地图导航界面
music play 音乐播放 音乐播放界面
music collect 音乐专辑 音乐播放界面
需要说明的是,表1只是简单的列出了一些场景与界面之间的对应关系进行说明,语境映射关系表中还可以包括其他界面与场景之间的对应关系,本实施例对此不做限定。
为了能够更全面覆盖多种场景,以便更精准定位用户的任何意图。进一步的,在构建语境映射关系表时,还可以结合用户与车机端的历史交互记录等。
示例性的,语境映射关系表中场景与界面之间的对应关系还可以根据车机端服务功能的新增、删除、以及升级更新情况,用户与车机端之间的新增交互记录等,动态调整。比如,新增一条场景与界面之间的对应关系。
以本实施例的执行主体是服务端为例进行说明。服务端可以以目标界面表示为索引,从预先建立的语境映射关系表中进行查找,以获取与目标界面关联的目标场景。其中,目标场景的数量可以为一个或多个,本实施例中优选为多个。
S304,根据至少两个语义解析结果与目标场景之间的匹配结果,从至少两个语义解析结果中选择目标解析结果。
可选的,如果所获取的语义解析结果中包括card_type、intent和data等相关字段,则可以直接将语义解析结果与目标场景进行匹配;如果所获取的语义解析结果不是采用字段形式组成,则可以将语义解析结果解析成包括card_type、intent和data等相关字段的形式。其中data用于表征语音请求得到的具体数据。比如,语义解析结果为“在地图中搜索附近的XX超市”,则可以将其解析为包括card_type=map,intent=周边搜索,data=XX超市的字段形式。
可选的,在确定与目标界面关联的目标场景之后,可以将每一语义解析结果均与目标场景进行匹配;若只存在一个与目标场景匹配的语义解析结果,则将该匹配的语义解析结果作为目标解析结果。
示例性的,若存在至少两个与目标场景匹配的语义解析结果,则根据目标场景的优先级,确定匹配的语义解析结果的优先级;根据匹配的语义解析结果的优先级,从匹配的语义解析结果中,确定目标解析结果。
本实施例中,一个界面可以关联多个场景,各场景之间具有一定的优先级,表征各场景被召回的顺序。可选的,场景之间的优先级可以基于服务所支持的各种功能之间的先后顺序,以及用户与车机端之间的历史交互记录等确定。
若目标界面标识只有一个,则此时所获取的目标场景为一个目标界面下的多个场景。可选的,一个语义解析结果最多匹配一个目标场景。进而若存在至少两个与目标场景匹配的语义解析结果,比如语义解析结果A与目标场景a匹配,语义解析结果B与目标场景b匹配,则可以将在目标界面下,目标场景的优先级作为匹配的语义解析结果的优先级,比如将目标场景a的优先级“第一”作为语义解析结果A的优先级,将目标场景b的优先级“第二”作为语义解析结果B的优先级;进而根据匹配的语义解析结果的优先级,从匹配的语义解析结果中选择一个,作为目标解析结果。比如,将匹配的语义解析结果中优先级最高的语义解析结果,作为目标解析结果。进一步的,如果匹配的语义解析结果的优先级相同,则可以基于设定的打分规则为匹配的每一语义解析结果打分,并将分值最高的语义解析结果作为目标解析结果。
又如,若目标界面标识包括两个或两个以上,则此时所获取的目标场景为两个或两个目标界面下的场景。进而若存在至少两个与目标场景匹配的语义解析结果,且与语义解析结果匹配的目标场景对应不同目标界面,比如语义解析结果C与目标场景c匹配,语义解析结果D与目标场景d匹配,其中目标场景c与目标界面1对应,目标场景d与目标界面2对应,则可以先确定目标场景c和目标场景d的优先级,之后可以将目标场景c的优先级作为语义解析结果C的优先级,将目标场景d的优先级作为语义解析结果D的优先级;进而根据匹配的语义解析结果的优先级,从匹配的语义解析结果中选择一个,作为目标解析结果。其中,如果基于语境映射关系表确定在目标界面1下的目标场景c的优先级,与在目标界面2下的目标场景d的优先级相同,则可以根据目标界面1与目标界面2之间的优先级,确定目标场景c和目标场景d的优先级。可选的,本实施例中界面与界面之间的优先级,可基于提供界面的服务(比如提供车机地图界面的服务为地图)与服务之间的优先级确定。
进一步的,如果所获取的目标场景为两个或两个目标界面下的场景,且不同目标界面下存在相同的场景,此时若一个语义解析结果匹配的目标场景对应多个目标界面,则可以基于界面与界面之间的优先级,从多个目标界面中选择一个作为该语义解析结果所匹配的目标场景对应的目标界面。
示例性的,若不存在与目标场景匹配的语义解析结果,则为至少两个语义解析结果打分;根据打分结果,从至少两个语义解析结果中选择目标解析结果。
具体的,如果任一语义解析结果均与目标场景不匹配,则可以基于预先设定的打分规则为每一语义解析结果进行打分,并可以将分值最高的语义解析结果作为目标解析结果。其中,打分规则可以是基于语义解析结果的来源可信度进行打分,还可以是基于历史交互记录中关于语音信息的语义召回情况进行打分等。
需要说明的是,本实施例引入界面与场景之间的关联关系,从多个语义解析结果中选择与场景匹配的语义解析结果进行召回,即优先召回与语境信息匹配的语义解析结果,能够使得所召回的语义解析结果更贴合用户的意图;同时,在不存在与语境信息匹配的语义解析结果的情况下,基于兜底策略为不同语义解析结果打分进行召回,增加了方案的灵活度和完整性。
本公开实施例提供的技术方案,通过以界面标识来表征语境信息,基于界面标识能够快速定位场景,并基于所定位的场景,从多个语义解析结果中精准定位目标解析结果,即用户真正意图,有效解决了现有语音交互过程中所存在的语义误召问题,同时提高了响应效率。
图4是根据本公开实施例提供的一种语音处理装置的结构示意图。本公开实施例适用于如何对语音进行处理的情况,尤其适用于在用户与车机端交互的场景下,如何对用户语音信息进行处理,以精准定位用户意图的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例所述的语音处理方法。如图4所示,该语音处理装置包括:
语境信息确定模块401,用于确定发送方输入的语音信息的语境信息;
解析结果获取模块402,用于获取语音信息的至少两个语义解析结果;
目标结果选择模块403,用于根据语境信息,从至少两个语义解析结果中选择目标解析结果。
本公开实施例提供的技术方案,对于同一语音信息存在多种表达含义的情况下,通过结合语音信息的语境信息,能够从不同语义解析结果中精准定位目标解析结果,即用户真正意图,有效解决了现有语音交互过程中所存在的语义误召问题,为人机交互的顺利进行提供了保证;此外,本方案也提升了语音处理的智能化程度。
示例性的,语境信息确定模块401包括:
语境信息确定单元,用于根据车机端界面状态,确定发送方输入的语音信息的语境信息。
示例性的,语境信息确定单元具体用于:
根据车机端界面状态,以及发送方位置信息和/或历史交互记录,确定发送方输入的语音信息的语境信息。
示例性的,语境信息包括目标界面标识;目标结果选择模块403包括:
目标场景确定单元,用于根据目标界面标识,确定与目标界面关联的目标场景;
目标结果选择单元,用于根据至少两个语义解析结果与目标场景之间的匹配结果,从至少两个语义解析结果中选择目标解析结果。
示例性的,目标结果选择单元具体用于:
若存在与目标场景匹配的语义解析结果,则根据目标场景的优先级,确定匹配的语义解析结果的优先级;
根据匹配的语义解析结果的优先级,从匹配的语义解析结果中,确定目标解析结果。
示例性的,目标结果选择单元具体用于:
若不存在与目标场景匹配的语义解析结果,则为至少两个语义解析结果打分;
根据打分结果,从至少两个语义解析结果中选择目标解析结果。
示例性的,上述装置还包括:
执行模块,用于执行目标解析结果,并向发送方输出执行结果。
本公开的技术方案中,所涉及的发送方的语音信息、以及语义解析结果等的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如语音处理方法。例如,在一些实施例中,语音处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的语音处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种语音处理方法,包括:
确定发送方输入的语音信息的语境信息;
获取所述语音信息的至少两个语义解析结果;
根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果。
2.根据权利要求1所述的方法,其中,所述确定发送方输入的语音信息的语境信息,包括:
根据车机端界面状态,确定发送方输入的语音信息的语境信息。
3.根据权利要求2所述的方法,其中,所述根据车机端界面状态,确定发送方输入的语音信息的语境信息,包括:
根据车机端界面状态,以及发送方位置信息和/或历史交互记录,确定发送方输入的语音信息的语境信息。
4.根据权利要求1所述的方法,其中,所述语境信息包括目标界面标识;所述根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果,包括:
根据所述目标界面标识,确定与目标界面关联的目标场景;
根据所述至少两个语义解析结果与所述目标场景之间的匹配结果,从所述至少两个语义解析结果中选择目标解析结果。
5.根据权利要求4所述的方法,其中,所述根据所述至少两个语义解析结果与所述目标场景之间的匹配结果,从所述至少两个语义解析结果中选择目标解析结果,包括:
若存在与目标场景匹配的语义解析结果,则根据所述目标场景的优先级,确定匹配的语义解析结果的优先级;
根据匹配的语义解析结果的优先级,从匹配的语义解析结果中,确定目标解析结果。
6.根据权利要求4所述的方法,其中,所述根据所述至少两个语义解析结果与所述目标场景之间的匹配结果,从所述至少两个语义解析结果中选择目标解析结果,包括:
若不存在与目标场景匹配的语义解析结果,则为所述至少两个语义解析结果打分;
根据打分结果,从所述至少两个语义解析结果中选择目标解析结果。
7.根据权利要求1所述的方法,所述根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果之后,还包括:
执行所述目标解析结果,并向发送方输出执行结果。
8.一种语音处理装置,包括:
语境信息确定模块,用于确定发送方输入的语音信息的语境信息;
解析结果获取模块,用于获取所述语音信息的至少两个语义解析结果;
目标结果选择模块,用于根据所述语境信息,从所述至少两个语义解析结果中选择目标解析结果。
9.根据权利要求8所述的装置,其中,所述语境信息确定模块包括:
语境信息确定单元,用于根据车机端界面状态,确定发送方输入的语音信息的语境信息。
10.根据权利要求9所述的装置,其中,所述语境信息确定单元具体用于:
根据车机端界面状态,以及发送方位置信息和/或历史交互记录,确定发送方输入的语音信息的语境信息。
11.根据权利要求8所述的装置,其中,所述语境信息包括目标界面标识;所述目标结果选择模块包括:
目标场景确定单元,用于根据所述目标界面标识,确定与目标界面关联的目标场景;
目标结果选择单元,用于根据所述至少两个语义解析结果与所述目标场景之间的匹配结果,从所述至少两个语义解析结果中选择目标解析结果。
12.根据权利要求11所述的装置,其中,所述目标结果选择单元具体用于:
若存在与目标场景匹配的语义解析结果,则根据所述目标场景的优先级,确定匹配的语义解析结果的优先级;
根据匹配的语义解析结果的优先级,从匹配的语义解析结果中,确定目标解析结果。
13.根据权利要求11所述的装置,其中,所述目标结果选择单元具体用于:
若不存在与目标场景匹配的语义解析结果,则为所述至少两个语义解析结果打分;
根据打分结果,从所述至少两个语义解析结果中选择目标解析结果。
14.根据权利要求8所述的装置,还包括:
执行模块,用于执行所述目标解析结果,并向发送方输出执行结果。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音处理方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的语音处理方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的语音处理方法。
CN202111012283.8A 2021-08-31 2021-08-31 一种语音处理方法、装置、设备及存储介质 Pending CN113744728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012283.8A CN113744728A (zh) 2021-08-31 2021-08-31 一种语音处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012283.8A CN113744728A (zh) 2021-08-31 2021-08-31 一种语音处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113744728A true CN113744728A (zh) 2021-12-03

Family

ID=78734270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012283.8A Pending CN113744728A (zh) 2021-08-31 2021-08-31 一种语音处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113744728A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199810A (zh) * 2014-08-29 2014-12-10 科大讯飞股份有限公司 一种基于自然语言交互的智能服务方法及系统
CN104966514A (zh) * 2015-04-30 2015-10-07 北京车音网科技有限公司 一种语音识别方法和车载设备
CN109979462A (zh) * 2019-03-21 2019-07-05 广东小天才科技有限公司 一种结合上下文语境获取意图的方法和系统
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111951782A (zh) * 2019-04-30 2020-11-17 京东方科技集团股份有限公司 语音问答方法及装置、计算机可读存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199810A (zh) * 2014-08-29 2014-12-10 科大讯飞股份有限公司 一种基于自然语言交互的智能服务方法及系统
CN104966514A (zh) * 2015-04-30 2015-10-07 北京车音网科技有限公司 一种语音识别方法和车载设备
CN109979462A (zh) * 2019-03-21 2019-07-05 广东小天才科技有限公司 一种结合上下文语境获取意图的方法和系统
CN111951782A (zh) * 2019-04-30 2020-11-17 京东方科技集团股份有限公司 语音问答方法及装置、计算机可读存储介质和电子设备
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质

Similar Documents

Publication Publication Date Title
EP3441891A1 (en) Data source-based service customisation apparatus, method, system, and storage medium
CN103377652B (zh) 一种用于进行语音识别的方法、装置和设备
EP3958256B1 (en) Voice processing method, apparatus, device and storage medium for vehicle-mounted device
KR101551037B1 (ko) 차량에서의 정보 제공을 위한 시스템
CN110956955B (zh) 一种语音交互的方法和装置
JP7483781B2 (ja) 情報をプッシュするための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112579031A (zh) 一种语音交互的方法、系统和电子设备
CN111611290A (zh) 地址快速定位方法、装置、计算机设备及存储介质
CN117112065B (zh) 大模型插件调用方法、装置、设备及介质
CN113449141A (zh) 语音播报方法、装置、电子设备及存储介质
EP3843090B1 (en) Method and apparatus for outputting analysis abnormality information in spoken language understanding
CN112527235A (zh) 语音播放方法、装置、设备以及存储介质
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN115497458B (zh) 智能语音助手的持续学习方法、装置、电子设备及介质
CN113744728A (zh) 一种语音处理方法、装置、设备及存储介质
CN114218288B (zh) 一种行车路线推荐方法、装置、存储介质及终端
CN111770236B (zh) 一种对话处理方法、装置、系统、服务器和存储介质
CN110189000B (zh) 一种评分统一方法、装置及存储介质
CN114153312B (zh) Vpa控制方法、装置、设备、存储介质及程序产品
CN111858864A (zh) 实现填槽的方法、装置、电子设备及可读介质
CN116521113A (zh) 多屏控制方法、装置及车辆
CN114663042B (zh) 一种智能电话呼叫招聘方法、装置、电子设备及存储介质
CN114446300B (zh) 多音区识别方法、装置、设备以及存储介质
WO2024099055A1 (zh) 语音识别方法、装置及电子设备
CN116049372B (zh) 人机对话方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination