CN115064168B - 语音交互方法、服务器和存储介质 - Google Patents

语音交互方法、服务器和存储介质 Download PDF

Info

Publication number
CN115064168B
CN115064168B CN202210985569.2A CN202210985569A CN115064168B CN 115064168 B CN115064168 B CN 115064168B CN 202210985569 A CN202210985569 A CN 202210985569A CN 115064168 B CN115064168 B CN 115064168B
Authority
CN
China
Prior art keywords
application program
program interface
keyword
voice
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210985569.2A
Other languages
English (en)
Other versions
CN115064168A (zh
Inventor
丁鹏傑
王亭玉
李尹钰阳
赵群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202210985569.2A priority Critical patent/CN115064168B/zh
Publication of CN115064168A publication Critical patent/CN115064168A/zh
Priority to EP22211049.6A priority patent/EP4325483A1/en
Application granted granted Critical
Publication of CN115064168B publication Critical patent/CN115064168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3691Retrieval, searching and output of information related to real-time traffic, weather, or environmental conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本发明公开了一种语音交互方法、服务器和存储介质。该方法包括:接收车辆转发的第一领域的用户语音请求,识别语音请求中的关键词;在语音交互的历史应用程序接口集合中,根据关键词查询获得第二领域的应用程序接口;根据查询到的应用程序接口的参数名称和参数取值,对语音请求进行关键词的替换和槽位识别并生成新的语音请求;对新的语音请求进行应用程序接口预测;根据查询到的应用程序接口的参数名称和参数取值以及槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。本发明能够实现较长时间、跨领域的实体继承,满足用户在导航期间,与车辆多次语音交互后,仍能随时查询目的地天气等需求。

Description

语音交互方法、服务器和存储介质
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音交互方法、服务器和存储介质。
背景技术
在智能汽车上,导航是非常常见的车载场景。在导航到目的地的同时,用户会非常关注目的地的天气。然而,在目前的语音交互场景下,导航与天气的功能是割裂开的。如用户在开启导航之后,导航会回复“正在导航去目的地”。当用户想查询目的地天气的时候,会自然地问“目的地的天气怎么样”此时不能得到预期的结果,用户只能将目的地的物理位置说出,询问该物理位置的天气怎么样,给用户带来不好的体验。
发明内容
本发明实施方式提供一种语音交互方法、服务器和存储介质。
本发明实施方式提供一种语音交互方法。所述语音交互方法包括:接收车辆转发的第一领域的用户语音请求,识别所述语音请求中的关键词;在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口;根据查询到的应用程序接口的参数名称和参数取值,对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求;对新的语音请求进行应用程序接口预测;根据所述查询到的应用程序接口的参数名称和参数取值以及所述槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明的语音交互方法能够实现较长时间、跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气等需求,提升了用户体验。
所述接收车辆转发的第一领域的用户语音请求,识别所述语音请求中的关键词,包括:接收车辆转发的天气领域的用户语音请求,识别所述语音请求中的关键词;所述在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口,包括:在语音交互的历史应用程序接口集合中,根据所述关键词查询获得导航领域的应用程序接口。
如此,可以实现跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气的需求,提升了用户体验。
所述识别所述语音请求中的关键词,包括:对所述语音请求进行语音识别并预处理得到待处理文本;对所述待处理文本进行关键词识别得到所述关键词。
如此,可以得到较为清晰准确地待处理文本,并可以根据待处理文本进行关键词识别得到清晰且准确的关键词。
所述在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口,包括:根据预设关键词和应用领域的对应关系确定所述关键词的领域;根据所述关键词对应的领域在所述历史应用程序接口集合中进行匹配获得所述第二领域的应用程序接口。
如此,可以通过预设关键词和应用领域的对应关系确定关键词的领域,并根据关键词对应的领域在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口,克服了以往语义继承只能继承前一轮、或者两轮,或者需要进行规则配置的问题,从而完成跨领域的实体继承。
所述根据查询到的应用程序接口的参数名称和参数取值,对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求,包括:确定所述查询到的应用程序接口中所述关键词对应的参数名称;根据所述关键词对应的参数名称的参数取值对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求。
如此,本发明可以通过确定查询到的应用程序接口中关键词对应的参数名称,然后根据关键词对应的参数名称的参数取值对语音请求进行关键词的替换和槽位识别并生成新的语音请求,进而完成语音交互。
所述对新的语音请求进行应用程序接口预测,包括:将所述新的语音请求作为文本序列进行编码得到词特征向量;利用预设模型对所述词特征向量输入进行处理以对所述新的语音请求进行应用程序接口预测。
如此,本发明的语音交互方法基于端到端的预设模型对新的语音请求进行应用程序接口预测,进而实现较长时间、跨领域的实体继承。
所述根据所述查询到的应用程序接口的参数名称和参数取值以及所述槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:根据所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本发明可以根据对第一领域的用户语音请求的槽位识别的结果和根据查询到的应用程序接口的参数名称和参数取值、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,进而实现较长时间、跨领域的实体继承。
所述根据所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,包括:将所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量;将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量;将所述预测到的应用程序接口的参数映射为第三身份标识,并将所述第三身份标识转换为第四特征向量;利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
如此,本发明聚焦于端到端架构的槽位填充模型,提出了一种融入了额外特征的槽位填充方案,相比较目前的只运用槽位取值和应用程序接口参数进行判断的方法,本发明融入了用户槽位识别结果的槽位类型、应用程序接口类型和应用程序接口的参数等额外特征,可以显著提升槽位填充任务的准确度,进而提升应用程序接口参数填充任务的精度。
所述语音交互方法包括:输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到所述历史应用程序接口集合。
如此,本发明交互方法中的应用程序接口可迭代,能够动态更新当前语音请求对应的历史应用程序接口集合,更为便捷、高效。
本发明还提供一种服务器。所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述实施方式任一项所述的交互方法。
如此,本发明的服务器应用上述语音交互方法能够实现较长时间、跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气等需求,提升了用户体验。
本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述实施方式任一项所述的交互方法。
如此,本发明的存储介质应用上述语音交互方法能够实现较长时间、跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气等需求,提升了用户体验。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的语音交互方法的流程示意图之一;
图2是本发明的语音交互方法的流程示意图之二;
图3是本发明的语音交互方法的流程示意图之三;
图4是本发明的语音交互方法的流程示意图之四;
图5是本发明的语音交互方法的流程示意图之五;
图6是本发明的语音交互方法的流程示意图之六;
图7是本发明的语音交互方法的流程示意图之七;
图8是本发明的语音交互方法的流程示意图之八;
图9是本发明的语音交互方法的槽位填充模型的结构示意图;
图10是本发明的语音交互方法的总体流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
对于上述导航过程中语音交互的技术问题,常见的解决思路是,多轮继承,将目的地的实体名称继承改写到“目的地”的位置,使句子变成“某物理位置的天气怎么样”。然而,由于导航过程中,用户可能会有听音乐,接电话,闲聊,交谈等行为,此时谈话已进行了多轮甚至超多轮。导航场景是可持续的,用户在整个导航的过程中,随时可能询问目的地的天气。相比于前一轮,前两轮的语义继承,该种情况下查询天气时,对于目的地的实体继承非常的困难。可以理解地,对于采用相邻语音请求之间的实体继承的方案,在导航途中,用户可能在中途询问目的地的天气,当前语音请求与此前目的地相关的语音请求之间,用户可能与车已经进行了多次的语音交互,此时对于很多轮之前的目的地实体继承,是十分困难的。
有鉴于此,请参阅图1,本发明提供了一种语音交互方法。该语音交互方法包括:
01:接收车辆转发的第一领域的用户语音请求,识别语音请求中的关键词;
02:在语音交互的历史应用程序接口集合中,根据关键词查询获得第二领域的应用程序接口;
03:根据查询到的应用程序接口的参数名称和参数取值,对语音请求进行关键词的替换和槽位识别并生成新的语音请求;
04:对新的语音请求进行应用程序接口预测;
05:根据查询到的应用程序接口的参数名称和参数取值以及槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明还提供一种服务器。服务器包括处理器和存储器,存储器上存储有计算机程序。处理器用于接收车辆转发的第一领域的用户语音请求,识别语音请求中的关键词;在语音交互的历史应用程序接口集合中,根据关键词查询获得第二领域的应用程序接口;根据查询到的应用程序接口的参数名称和参数取值,对语音请求进行关键词的替换和槽位识别并生成新的语音请求;对新的语音请求进行应用程序接口预测;根据查询到的应用程序接口的参数名称和参数取值以及槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
接收车辆转发的第一领域的用户语音请求,识别语音请求中的关键词。不同领域的用户语音请求可以与不同的关键词相匹配。第一领域包括导航领域、音乐领域和天气领域等领域。例如,与导航领域和音乐领域对应的用户语音请求相匹配的关键词可以如表1所示,其中,对于导航领域,用户语音请求中匹配的关键词包括“目的地,那地儿,去的地方”,对于音乐领域,用户语音请求中匹配的关键词包括“来一首,放一个,再来一个”。
表1
序号 领域 API字段 API序号 与API匹配的关键词
1 导航 destination 1 目的地,那地儿,去的地方
2 音乐 Song,singer 2 来一首,放一个,再来一个
在语音交互的历史应用程序接口集合中,根据关键词查询获得第二领域的应用程序接口。第二领域为与第一领域不同的领域。第二领域包括导航领域。
可以理解地,由于历史应用程序接口集合为用户经过多轮语音交互后,根据用户的多轮历史语音请求所对应预测生成的应用程序接口的集合,例如,在导航到目的地的过程中,用户执行了打开车窗,播放周杰伦的音乐,以及音量调高多轮历史语音请求,这些历史语音请求分别对应具体的历史应用程序接口,上述具体的历史应用程序接口可以构成一个历史应用程序接口集合,因此,车辆转发的当前轮用户语音请求的所属领域可能与历史应用程序接口集合中对应的前一轮语音请求或前n轮语音请求(n≥2)对应的应用程序接口的所属领域不同。
根据关键词查询获得第二领域的应用程序接口,即,例如,对第一领域为天气领域的用户语音请求“目的地的天气怎么样”识别并提取到关键字为“目的地”,可以根据该关键词在历史应用程序接口集合中确定第二领域的应用程序接口,第二领域例如为导航领域。
然后,根据查询到的应用程序接口的参数名称和参数取值,对语音请求进行关键词的替换和槽位识别并生成新的语音请求。详细地,查询到的第二领域的应用程序接口的参数名称包括“destination”,参数取值为对应的地点名称,根据该参数名称和参数取值对语音请求进行关键词的替换和槽位识别生成新的语音请求。查询到的应用程序接口的参数名称包括“song”,参数取值为对应的歌曲名称,根据该参数名称和参数取值对语音请求进行关键词的替换和槽位识别生成新的语音请求。例如,将获取的参数取值为“中关村”补充到当前第一领域的语音请求“目的地天气怎么样”,形成新的语音请求“中关村天气怎么样”
最后,对新的语音请求进行应用程序接口预测,根据查询到的应用程序接口的参数名称和参数取值以及槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明为利用历史应用程序接口集合确定与关键词关联的第二领域的应用程序接口,直接在关联的第二领域的应用程序接口中提取出对应的参数名称和参数取值,即本发明利用关键词查询获得第二领域的应用程序接口,直接在查询到的应用程序接口中提取出对应的参数名称和参数取值,相比NER模型提取实体名称,会更加的快捷,本发明采用端到端的直接预测应用程序接口方式,更加高效,便捷。
本发明的语音交互方法和服务器能够实现较长时间、跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气等需求,提升了用户体验。
请参阅图2,步骤01包括:
011:接收车辆转发的天气领域的用户语音请求,识别所述语音请求中的关键词;
步骤02包括:
021:在语音交互的历史应用程序接口集合中,根据所述关键词查询获得导航领域的应用程序接口。
处理器用于对接收车辆转发的天气领域的用户语音请求,识别所述语音请求中的关键词;在语音交互的历史应用程序接口集合中,根据所述关键词查询获得导航领域的应用程序接口。
例如,对第一领域为天气领域的用户语音请求“目的地的天气怎么样”识别并提取到关键字为“目的地”,可以根据该关键词在历史应用程序接口集合中确定第二领域的应用程序接口,第二领域例如为导航领域。
如此,可以实现跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气的需求,提升了用户体验。
请参阅图3,步骤01包括:
012:对语音请求进行语音识别并预处理得到待处理文本;
013:对待处理文本进行关键词识别得到关键词。
处理器用于对语音请求进行语音识别并预处理得到待处理文本;对待处理文本进行关键词识别得到关键词。
首先,对语音请求进行自动语音识别(AutomaticSpeechRecognition,ASR),并对识别后的语音文本进行预处理,得到待处理文本。其中,考虑到实际情况下由于车辆硬件限制,网络不稳定,用户口语化或者方言化等原因导致ASR识别后的语音文本不够清晰准确,因此还需要进行一些常规文本纠错,以及一些无意义词语的去除等,比如“啊”,“请”等。
然后,对待处理文本进行关键词识别得到关键词。
如此,可以得到较为清晰准确地待处理文本,并可以根据待处理文本进行关键词识别得到清晰且准确的关键词。
请参阅图4,步骤02包括:
022:根据预设关键词和应用领域的对应关系确定关键词的领域;
023:根据关键词对应的领域在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口。
处理器用于根据预设关键词和应用领域的对应关系确定关键词的领域;根据关键词对应的领域在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口。
预设关键词和应用领域的对应关系可以构成一个关键词与应用领域的对应关系表。例如,预设关键词“来一首,放一个,再来一个”对应为音乐播放的应用领域,预设关键词“目的地,那地儿,去的地方”对应为导航的应用领域。
首先,根据预设关键词和应用领域的对应关系确定关键词的领域。例如,若识别用户当前语音请求中的关键词为“来一首”,则根据预设关键词和应用领域的对应关系可以确定该关键词“来一首”应用于音乐播放的应用领域,即关键词“来一首”的领域为音乐领域。若识别用户当前语音请求中的关键词为“那地儿”,则根据预设关键词和应用场景的对应关系可以确定该关键词“那地儿”应用于导航播放的应用领域,即关键词“那地儿”的领域为导航领域。
然后,在确定关键词的领域之后,可以根据关键词对应的领域在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口。例如,关键词“那地儿”,确定领域为导航领域,则可以在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口为地点相关的应用程序接口。例如,历史应用程序接口集合中的一条地点相关的应用程序接口为“导航去中关村”,则确定第二领域的应用程序接口包括“导航去中关村”。获得的第二领域的应用程序接口的数量可以为1个或多个,其数量多少取决于历史应用程序接口集合中为地点相关的接口数量。
如此,可以通过预设关键词和应用领域的对应关系确定关键词的领域,并根据关键词对应的领域在历史应用程序接口集合中进行匹配获得第二领域的应用程序接口,克服了以往语义继承只能继承前一轮、或者两轮,或者需要进行规则配置的问题,从而完成跨领域的实体继承。
请参阅图5,步骤03包括:
031:确定查询到的应用程序接口中关键词对应的参数名称;
032:根据关键词对应的参数名称的参数取值对语音请求进行关键词的替换和槽位识别并生成新的语音请求。
处理器用于确定查询到的应用程序接口中关键词对应的参数名称;根据关键词对应的参数名称的参数取值对语音请求进行关键词的替换和槽位识别并生成新的语音请求。
可以理解地,每个第二领域的应用程序接口均包含参数名称和参数取值。如,导航领域的应用程序接口中包括多个参数名称和多个参数取值,参数名称“location”,表示当前位置,参数名称“destination”,表示目的地。
因此,对于前文所述的用户语音请求“去的地方天气怎么样”,关键词为“去的地方”,可以确定查询到的应用程序接口中与关键词“去的地方”对应的参数名称为“destination”,若参数名称“destination”对应的参数取值为“中关村”,因此可以对语音请求“去的地方天气怎么样”进行关键词的替换和槽位识别并生成新的语音请求“中关村天气怎么样”。
另外,需要说明的是,在导航场景中,由于导航到某个地方为动态的实时过程,因此会一直显示从当前位置到目的地的应用程序接口。因此,按照时间顺序来讲,与导航有关的应用程序接口的是最新的且最容易获取的。
如此,本发明可以通过确定查询到的应用程序接口中关键词对应的参数名称,然后根据关键词对应的参数名称的参数取值对语音请求进行关键词的替换和槽位识别并生成新的语音请求,进而完成语音交互。
请参阅图6,步骤04包括:
041:将新的语音请求作为文本序列进行编码得到词特征向量;
042:利用预设模型对词特征向量输入进行处理以对新的语音请求进行应用程序接口预测。
处理器用于将新的语音请求作为文本序列进行编码得到词特征向量;利用预设模型对词特征向量输入进行处理以对新的语音请求进行应用程序接口预测。
例如,将前文所述的例子中得到新的语音请求为“中关村天气怎么样”作为文本序列编码得到词特征向量为“[CLS]中关村天气怎么样[SEP]”。
然后,利用预设模型对词特征向量“[CLS]中关村天气怎么样[SEP]”输入进行处理以对新的语音请求“中关村天气怎么样”进行应用程序接口预测。其中,预设模型为端到端的应用程序接口预测模型。
如此,本发明的语音交互方法基于端到端的预设模型对新的语音请求进行应用程序接口预测,进而实现较长时间、跨领域的实体继承。
请参阅图7,步骤05包括:
051:根据查询到的应用程序接口的参数名称和参数取值、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
052:根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
处理器用于根据查询到的应用程序接口的参数名称和参数取值、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
例如,若查询到的应用程序接口的参数名称为“destination”,查询到的应用程序接口的参数取值为“中关村”,对语音请求“去的地方天气怎么样”进行槽位识别得到槽位识别的结果为“去的地方”,对新的语音请求“中关村天气怎么样”进行应用程序接口预测到的应用程序接口为接口A,该应用程序接口A的类型为导航类型,因此,可以确定对应用程序接口A执行应用程序接口参数进行槽位填充的目标参数为“destination”。
然后,根据槽位识别的结果“去的地方”和目标参数“destination”,选择预测到的应用程序接口A执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本发明可以根据对第一领域的用户语音请求的槽位识别的结果和根据查询到的应用程序接口的参数名称和参数取值、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,进而实现较长时间、跨领域的实体继承。
更具体地,请参阅图8,步骤051包括:
0511:将查询到的应用程序接口的参数名称和参数取值、槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;
0512:将槽位识别的结果的槽位类型映射为第一身份标识,并将第一身份标识转换为第二特征向量;
0513:将预测到的应用程序接口类型映射为第二身份标识,并将第二身份标识转换为第三特征向量;
0514:将预测到的应用程序接口的参数映射为第三身份标识,并将第三身份标识转换为第四特征向量;
0515:利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
处理器用于将查询到的应用程序接口的参数名称和参数取值、槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;将槽位识别的结果的槽位类型映射为第一身份标识,并将第一身份标识转换为第二特征向量;将预测到的应用程序接口类型映射为第二身份标识,并将第二身份标识转换为第三特征向量;将预测到的应用程序接口的参数映射为第三身份标识,并将第三身份标识转换为第四特征向量;利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
请结合图9,首先,将查询到的应用程序接口的参数名称和参数取值、槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量“api argument [SEP]slot value”。例如,对用户语音请求“目的地天气怎么样”进行槽位识别可以得到的槽位识别的结果为[“目的地”——地点(destination)],即,槽位识别的结果包括槽位取值和槽位类型,其中“目的地”为槽位取值,地点(destination)为槽位类型。查询到的应用程序接口的参数名称为“destination”,参数取值为“中关村”。即,本发明通过第一嵌入矩阵对查询到的应用程序接口的参数名称和参数取值和槽位取值拼接可以得到第一特征向量为“[CLS]destination中关村[SEP]目的地[SEP]”。
然后,构建一个槽位类型映射和一个应用程序接口类型映射,如图9所示,本发明对槽位类型及应用程序接口类型进行映射的嵌入矩阵为额外嵌入矩阵。本发明通过额外嵌入矩阵将槽位识别的结果的槽位类型映射为第一身份标识slot-type,并将第一身份标识slot-type转换为第二特征向量;将预测到的应用程序接口类型映射为第二身份标识api-type,并将第二身份标识api-type转换为第三特征向量;将预测到的应用程序接口的参数映射为第三身份标识agrument-type,并将第三身份标识agrument-type转换为第四特征向量。其中,第二特征向量、第三特征向量和第四特征向量作为额外特征向量(ExtraEembeddings)。
最后,利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。如图9中所示,经过槽位填充模型可以输出得到参数填充逻辑(argument filing logits),即可以根据该参数填充逻辑确定目标参数。
可以理解地,本发明的槽位填充模型是预先构建及训练好的槽位填充模型,可以确定目标应用程序接口中槽位填充的目标参数,从而提升后续槽位填充任务的精度。
具体的槽位填充模型的结构如图9所示,槽位填充模型整体架构基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型,槽位填充模型的输入为第一特征向量“api agrument [SEP] slot value”,并将上述的三个额外特征向量作为额外特征融入槽位填充模型,即,槽位填充模型的建模方式融合了额外特征的语义相似度判别任务,经过槽位填充模型输出参数填充逻辑,从而实现应用程序接口参数填充任务。
如此,本发明聚焦于端到端架构的槽位填充模型,提出了一种融入了额外特征的槽位填充方案,相比较目前的只运用槽位取值和应用程序接口参数进行判断的方法,本发明融入了用户槽位识别结果的槽位类型、应用程序接口类型和应用程序接口的参数等额外特征,可以显著提升槽位填充任务的准确度,进而提升应用程序接口参数填充任务的精度。
此外,语音交互方法还包括:
06:输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到所述历史应用程序接口集合。
处理器用于输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到所述历史应用程序接口集合。
输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到所述历史应用程序接口集合
在输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到历史应用程序接口集合,该目标应用程序接口能够作为下一轮无实体的用户语音请求的候选应用程序接口。
如此,本发明交互方法中的应用程序接口可迭代,能够动态更新当前语音请求对应的历史应用程序接口集合,更为便捷、高效。
另外,为了便于理解,本发明的交互方法的总体流程示意图如图10所示,在图10中,“query”即为当前车辆转发的第一领域的用户语音请求,“API列表”即为历史应用程序接口集合。
本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当计算机程序被一个或多个处理器执行时,实现上述任意实施例所述的交互方法。
例如,计算机程序被处理器执行时实现以下交互方法的步骤:
01:接收车辆转发的第一领域的用户语音请求,识别语音请求中的关键词;
02:在语音交互的历史应用程序接口集合中,根据关键词查询获得第二领域的应用程序接口;
03:根据查询到的应用程序接口的参数名称和参数取值,对语音请求进行关键词的替换和槽位识别并生成新的语音请求;
04:对新的语音请求进行应用程序接口预测;
05:根据查询到的应用程序接口的参数名称和参数取值以及槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
可以理解,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本发明的计算机可读存储介质应用上述语音交互方法能够实现较长时间、跨领域的实体继承,满足了用户在导航期间,与车辆端进行多次语音交互后,仍然可以随时查询目的地天气等需求,提升了用户体验。

Claims (11)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的第一领域的用户语音请求,识别所述语音请求中的关键词;
在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口;
根据查询到的应用程序接口的参数名称和参数取值,对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求;
对新的语音请求进行应用程序接口预测;
根据所述查询到的应用程序接口的参数名称和参数取值以及所述槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述接收车辆转发的第一领域的用户语音请求,识别所述语音请求中的关键词,包括:
接收车辆转发的天气领域的用户语音请求,识别所述语音请求中的关键词;
所述在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口,包括:
在语音交互的历史应用程序接口集合中,根据所述关键词查询获得导航领域的应用程序接口。
3.根据权利要求1所述的语音交互方法,其特征在于,所述识别所述语音请求中的关键词,包括:
对所述语音请求进行语音识别并预处理得到待处理文本;
对所述待处理文本进行关键词识别得到所述关键词。
4.根据权利要求1所述的语音交互方法,其特征在于,所述在语音交互的历史应用程序接口集合中,根据所述关键词查询获得第二领域的应用程序接口,包括:
根据预设关键词和应用领域的对应关系确定所述关键词的领域;
根据所述关键词对应的领域在所述历史应用程序接口集合中进行匹配获得所述第二领域的应用程序接口。
5.根据权利要求1所述的语音交互方法,其特征在于,所述根据查询到的应用程序接口的参数名称和参数取值,对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求,包括:
确定所述查询到的应用程序接口中所述关键词对应的参数名称;
根据所述关键词对应的参数名称的参数取值对所述语音请求进行所述关键词的替换和槽位识别并生成新的语音请求。
6.根据权利要求1所述的语音交互方法,其特征在于,所述对新的语音请求进行应用程序接口预测,包括:
将所述新的语音请求作为文本序列进行编码得到词特征向量;
利用预设模型对所述词特征向量输入进行处理以对所述新的语音请求进行应用程序接口预测。
7.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述查询到的应用程序接口的参数名称和参数取值以及所述槽位识别的结果,选择预测的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:
根据所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
8.根据权利要求7所述的语音交互方法,其特征在于,所述根据所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,包括:
将所述查询到的应用程序接口的参数名称和参数取值、所述槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;
将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量;
将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量;
将所述预测到的应用程序接口的参数映射为第三身份标识,并将所述第三身份标识转换为第四特征向量;
利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
9.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
输出执行结果下发至车辆完成语音交互之后,将执行参数填充后的目标应用程序接口添加到所述历史应用程序接口集合。
10.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-9任一项所述的语音交互方法。
11.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-9任一项所述的语音交互方法。
CN202210985569.2A 2022-08-17 2022-08-17 语音交互方法、服务器和存储介质 Active CN115064168B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210985569.2A CN115064168B (zh) 2022-08-17 2022-08-17 语音交互方法、服务器和存储介质
EP22211049.6A EP4325483A1 (en) 2022-08-17 2022-12-02 Speech interaction method, server, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210985569.2A CN115064168B (zh) 2022-08-17 2022-08-17 语音交互方法、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN115064168A CN115064168A (zh) 2022-09-16
CN115064168B true CN115064168B (zh) 2022-12-13

Family

ID=83207644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210985569.2A Active CN115064168B (zh) 2022-08-17 2022-08-17 语音交互方法、服务器和存储介质

Country Status (2)

Country Link
EP (1) EP4325483A1 (zh)
CN (1) CN115064168B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457960B (zh) * 2022-11-09 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN109830231A (zh) * 2018-12-17 2019-05-31 北京百度网讯科技有限公司 会话处理方法、装置和存储介质
CN112257415A (zh) * 2020-09-29 2021-01-22 当趣网络科技(杭州)有限公司 语音搜索词库的方法、系统、电子装置和存储介质
CN114255755A (zh) * 2021-12-28 2022-03-29 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器、语音系统和存储介质
WO2022164192A1 (ko) * 2021-01-28 2022-08-04 삼성전자 주식회사 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000020962A2 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational computing via conversational virtual machine
EP3200185A1 (en) * 2011-09-30 2017-08-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN109830231A (zh) * 2018-12-17 2019-05-31 北京百度网讯科技有限公司 会话处理方法、装置和存储介质
CN112257415A (zh) * 2020-09-29 2021-01-22 当趣网络科技(杭州)有限公司 语音搜索词库的方法、系统、电子装置和存储介质
WO2022164192A1 (ko) * 2021-01-28 2022-08-04 삼성전자 주식회사 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
CN114255755A (zh) * 2021-12-28 2022-03-29 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器、语音系统和存储介质

Also Published As

Publication number Publication date
EP4325483A1 (en) 2024-02-21
CN115064168A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109063221B (zh) 基于混合策略的查询意图识别方法和装置
CN109616108B (zh) 多轮对话交互处理方法、装置、电子设备及存储介质
CN106503236B (zh) 基于人工智能的问题分类方法以及装置
CN107657017B (zh) 用于提供语音服务的方法和装置
CN110111780B (zh) 数据处理方法和服务器
CN115064166B (zh) 车辆语音交互方法、服务器和存储介质
CN112632961B (zh) 基于上下文推理的自然语言理解处理方法、装置以及设备
CN115064167B (zh) 语音交互方法、服务器和存储介质
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN111368538A (zh) 语音交互方法、系统、终端及计算机可读存储介质
CN115064168B (zh) 语音交互方法、服务器和存储介质
CN115083413B (zh) 语音交互方法、服务器和存储介质
CN111341311A (zh) 一种语音对话方法及装置
CN116595150A (zh) 一种对话推荐方法、装置、设备及存储介质
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN110956955A (zh) 一种语音交互的方法和装置
CN113421561A (zh) 语音控制方法、语音控制装置、服务器和存储介质
CN110096516B (zh) 自定义的数据库交互的对话生成方法及系统
CN105632495A (zh) 语音识别方法和装置
CN112579031A (zh) 一种语音交互的方法、系统和电子设备
CN114297361A (zh) 一种基于场景化对话理解的人机交互方法及相关组件
CN112766990B (zh) 基于多轮对话改进的智能客服辅助系统和方法
CN113132214B (zh) 一种对话方法、装置、服务器及存储介质
CN116680368A (zh) 一种基于贝叶斯分类器的水利知识问答方法、设备及介质
CN113468306A (zh) 语音对话方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant