CN115273840A - 语音交互设备和语音交互方法 - Google Patents
语音交互设备和语音交互方法 Download PDFInfo
- Publication number
- CN115273840A CN115273840A CN202210743820.4A CN202210743820A CN115273840A CN 115273840 A CN115273840 A CN 115273840A CN 202210743820 A CN202210743820 A CN 202210743820A CN 115273840 A CN115273840 A CN 115273840A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- model
- sample
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 53
- 238000013145 classification model Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 26
- 238000004590 computer program Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种语音交互设备和语音交互方法,涉及语音理解技术领域。该语音交互设备包括:检测器,被配置为接收目标用户输入的语音指令;控制器,被配置为:获取第一文本和第二文本,第一文本为对语音指令进行文本转换得到的文本,第二文本包括对目标用户的至少一个历史语音指令进行文本转换得到的文本;检测第一文本是否存在语义缺失,以及第一文本和第二文本是否相关;在第一文本存在语义缺失且第一文本和第二文本相关的情况下,根据第二文本对第一文本进行语义补全,获取第三文本;根据第三文本对语音指令进行语义理解。本申请实施例用于解决语音文本中的指代和省略会造成语音交互设备无法准确理解用户的语音指令的问题。
Description
技术领域
本申请实施例涉及语音理解技术领域。更具体地讲,涉及一种语音交互设备和语音交互方法。
背景技术
指代和省略是自然语言中普遍存在的语言现象,但在自然语言理解中指代和省略会造成关键语法和语义成分的缺失。代词消解和省略恢复是语义消歧的重要技术手段和组成部分,也是自然语言理解的重点和难点之一。
代词消解是指确定给定的自然语言文本中存在的代词指代的是段落或篇章中哪个语言单位,进而将代词恢复成该语言单位的自然语言处理任务;省略恢复是指确定给定的自然语言文本中存在的省略成分,进而将省略的语法成分或语言单元补充出来的自然语言处理任务。如存在指代和省略的句子为“今天看起来不太好,还是不去那了吧”,完整的句子为“今天天气看起来不太好,还是不去游乐园了吧”,存在指代和省略的句子中“今天”之后省略了主语“天气”,会导致句子出现很大的歧义,第二句先行词“那”地点指代不明,替换成“游乐园”可以使语义表达更完整。语音交互的场景中转换用户输入的语音指令得到的语音文本也常常会存在指代和省略,而语音文本中的指代和省略会造成语音交互设备无法准确理解用户的语音指令。
发明内容
本申请示例性的实施方式提供一种语音交互设备和语音交互方法,用于解决语音文本中的指代和省略会造成语音交互设备无法准确理解用户的语音指令的问题。
本申请实施例提供技术方案如下:
第一方面,本申请实施例提供了一种语音交互设备,包括:
检测器,被配置为接收目标用户输入的语音指令;
控制器,被配置为:
获取第一文本和第二文本,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本;
检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关;
在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本;
根据所述第三文本对所述语音指令进行语义理解。
第二方面,本申请实施例提供了一种语音交互方法,应用于语音交互设备,所述方法包括:
接收目标用户输入的语音指令;
获取第一文本和第二文本,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本;
检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关;
在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本;
根据所述第三文本对所述语音指令进行语义理解。
第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现第二方面或第二方面任一实施例所述的语音交互方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现第二方面或第二方面任一实施例所述的语音交互方法。
第五方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机实现第二方面或第二方面任一实施例所述的语音交互方法。
由以上技术方案可知,本申请实施例提供的语音交互设备和语音交互方法,在语音交互设备接收到目标用户输入的语音指令时,对所述语音指令进行文本转换获取第一文本,并获取包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本的第二文本,再检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关,并在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本,以及根据所述第三文本对所述语音指令进行语义理解。由于本申请实施例提供的语音交互设备和语音交互方法可以在检测到转换语音指令得到的第一文本是否存在语义缺失且所述第一文本与转换同一用户的历史语音指令得到的第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本,并根据所述第三文本对所述语音指令进行语义理解,因此本申请实施例可以在第一文本中存在指代和/或省略时,先对第一文本进行语义补全,然后再基于补全后的文本进行语义理解,因此本申请实施例可以解决语音指令中的指代和省略会造成语音交互设备无法准确理解用户的语音指令的问题,从而提升语音交互设备的语音指令理解的准确率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了一些实施例中的语音交互方法的场景架构图;
图2示出了一些实施例中的控制设备的硬件配置框图;
图3示出了一些实施例中的语音交互设备的硬件配置框图;
图4示出了一些实施例中的语音交互设备中软件配置图;
图5示出了一些实施例中的语音交互方法的步骤流程图;
图6示出了另一些实施例中的语音交互方法的步骤流程图;
图7示出了一些实施例中的二分类模型的示意图;
图8示出了一些实施例中的第一语义补全模型的示意图;
图9示出了一些实施例中的语音交互方法的信息流示意图;
图10示出了另一些实施例中的语音交互方法的步骤流程图;
图11示出了一些实施例中的第二语义补全模型的示意图;
图12示出了另一些实施例中的语音交互方法的信息流示意图;
图13示出了另一些实施例中的语音交互方法的步骤流程图;
图14示出了一些实施例中的评分模型的示意图;
图15示出了另一些实施例中的语音交互方法的信息流示意图;
图16示出了另一些实施例中的第二语义补全模型的结构示意图;
图17示出了另一些实施例中的第二语义补全模型的原理示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
图1为本申请实施例提供的语音交互方法的场景架构示意图。如图1所示,本申请实施例提供的场景架构,包括:服务器100和语音交互设备200。
本申请实施例提供的语音交互设备200可以具有多种实施形式,例如,可以是智能音箱、电视、冰箱、洗衣机、空调、智能窗帘、路由器、机顶盒、手机、个人计算机(PersonalComputer,PC)智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletin board)、可穿戴设备、车载设备、电子桌面(electronic table)等。
在一些实施例中,语音交互设备200接收到用户的语音指令时,可以与服务器100进行数据通信。可允许语音交互设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。
服务器100可以是提供各种服务的服务器,例如对终端设备200采集的音频数据提供支持的服务器。服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。服务器100可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
语音交互设备200可以是硬件,也可以是软件。当语音交互设备200为硬件时,可以是具有声音采集功能的各种电子设备,包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当语音交互设备200为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的语音交互方法可以通过服务器100执行,也可以通过语音交互设备200执行,还可以通过服务器100和语音交互设备200共同执行,本申请对此不做限定。
图2示出了根据示例性实施例中语音交互设备200的硬件配置框图。如图2所示语音交互设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,音频处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。语音交互设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。
用户接口280,可用于接收外部的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将声音信号转换为电信号。语音交互设备200可以设置至少一个麦克风。在另一些实施例中,语音交互设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,语音交互设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
此外,麦克风可以是内置在语音交互设备200上,或者麦克风通过有线或者无线的方式与语音交互设备200相连接。当然,本申请实施例对麦克风在语音交互设备200上的位置不作限定。或者,语音交互设备200可以不包括麦克风,即上述麦克风并未设置于语音交互设备200中。语音交互设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在语音交互设备200上。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制语音交互设备200的整体操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,RAM Random Access Memory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
在一些示例中,智能设备的操作系统为Android系统为例,如图3所示,语音交互设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于语音交互设备200与服务器100的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,语音交互设备200中的语音识别应用启动,语音交互设备200与服务器100建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将语音交互设备200发送的语音数据输入至意图识别模型。
为清楚说明本申请的实施例,下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。
参见图4,图4为本申请实施例提供的一种语音交互网络架构示意图。图4中,语音交互设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务,用于将音频识别为文本;语义理解模块部署有语义理解服务,用于对文本进行语义解析;业务管理模块部署有业务指令管理服务,用于提供业务指令;语言生成模块部署有语言生成服务(NLG),用于将指示语音交互设备执行的指令转化为文本语言;语音合成模块部署有语音合成(TTS)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中,图4所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
一些实施例中,下面对基于图4所示架构处理输入语音交互设备的信息的过程进行举例描述,以输入语音交互设备的信息为通过语音输入的语音指令为例:
[语音识别]
语音交互设备可在接收到通过语音输入的语音指令后,对语音指令的音频进行降噪处理和特征提取,这里的降噪处理可包括去除回声和环境噪声等步骤。
[语义理解]
利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图,
[业务管理]
语义理解模块根据对语音指令的文本的语义解析结果,向相应的业务管理模块下发执行指令以执行语音指令对应的操作,以及完成用户请求此操作,并对语音指令对应的操作的执行结果进行反馈。
在一些实施例中,当语音交互设备200通过检测器230接收到目标用户的语音指令时,语音交互设备200通过控制器250对所述语音指令进行文本转换获取第一文本,以及获取包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本的第二文本,并检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关,以及在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本,最终根据第三文本对所述语音指令进行语义理解。
在一些实施例中,控制器250检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关的方式可以为:将所述第一文本和所述第二文本输入二分类模型,以及在所述二分类模型输入第一分类时,确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关;在所述二分类模型输入第二分类时,确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关。其中,所述二分类模型为基于第一样本数据集对知识增强的语义表示(Enhanced Representation from knowledgeIntegration)模型进行训练获取的模型,所述第一样本数据集包括多组第一样本数据,任一组第一样本数据包括:样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签。
在一些实施例中,控制器250根据所述第二文本对所述第一文本进行语义补全获取第三文本的方式可以为:获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并根据所述第一语义补全模型的输出获取所述第三文本;其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略。
在一些实施例中,控制器250根据所述第二文本对所述第一文本进行语义补全获取第三文本的方式还可以为:获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并根据所述第二语义补全模型的输出获取所述第三文本;其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本。
在一些实施例中,控制器250根据所述第二文本对所述第一文本进行语义补全获取第三文本的方式还可以为:获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并获取所述第一语义补全模型的输出;其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略;将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并获取所述第二语义补全模型的输出;其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本;根据所述第一语义补全模型的输出和所述第二语义补全模型的输出获取所述第三文本。
在一些实施例中,所述第一语义补全模型的输出包括至少一个召回结果,所述第二语义补全模型的输出包括至少一个召回结果;控制器250根据所述第一语义补全模型的输出和所述第二语义补全模型的输出获取所述第三文本的实现方式可以为:获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分;将所述第一语义补全模型和第二语义补全模型的输出的召回结果中所述评分最高的召回结果确定为所述第三文本。
在一些实施例中,控制器250获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分的方式可以为:将所述第一文本、所述第二文本以及所述第一语义补全模型和第二语义补全模型的输出的各个召回结果输入评分模型,并获取所述评分模型的输出;根据所述评分模型的输出获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分;其中,所述评分模型为基于第三样本数据集对预设机器学习模型进行训练获取的模型,所述第三样本数据集包括多组第三样本数据,任一组第三样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本对应的至少一个召回结果以及所述至少一个召回结果的评分。
在一些实施例中,控制器250还可以将所述第三文本存储至预设存储空间,以便在后续语音交互过程中将第三文本作为对所述目标用户的至少一个历史语音指令进行文本转换得到的文本进行语义理解,进而进一步提升语音理解的准确率。
在一些实施例中,控制器250通过所述第二语义补全模型获取所述第三文本的实现方式包括:将所述第一文本、所述第一文本的关键词以及所述第一文本的关键词的标签输入所述第二语义补全模型的词嵌入层,并根据所述词嵌入层获取所述第一文本的嵌入特征;将所述第二文本、所述第二文本的关键词以及所述第二文本的关键词的标签输入所述词嵌入层,并根据所述词嵌入层获取所述第二文本的嵌入特征;通过所述第二语义补全模型的双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)层,获取所述第一文本的编码特征和所述第二文本的编码特征;通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图;通过所述第二语义补全模型的语义分割网络将所述至少一个特征图卷积处理为编辑矩阵;根据所述编辑矩阵对所述第一文本进行重写,以获取所述第三文本。
在一些实施例中,所述控制器250通过Bi-LSTM层获取所述第一文本的编码特征和所述第二文本的编码特征的实现方式可以为:串联所述第一文本的嵌入特征和所述第二文本的嵌入特征生成第一特征向量;将所述第一特征向量输入所述Bi-LSTM层,并获取所述Bi-LSTM层输出的第二特征向量;将所述第二特征向量分割为所述第一文本的编码特征和所述第二文本的编码特征。
在一些实施例中,通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图包括如下三种计算方式的三种特征图:1、通过所述相似性计算模块的余弦相似度计算单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第一特征图;2、通过所述相似性计算模块的双线性注意力单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第二特征图;3、通过所述相似性计算模块的元素积单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第三特征图。
图5中示例性的示出了本申请实施例提供的语音交互方法的流程示意图,如图5所示,本申请实施例提供的语音交互方法包括如下步骤:
S501、接收目标用户输入的语音指令。
示例性的,语音交互设备可以通过内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过语音交互设备外部设置的语音控制设备来接收用户的语音指令,还可以通过控制器、智能设备等接收用户的语音指令。
在一些实施例中,语音交互设备可以为每一个用户分配一个唯一的标识,从而支持同一个时间内与多个用户进行语音交互。
S502、获取第一文本和第二文本。
其中,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本。
即,对所述语音指令进行文本转换获取所述第一文本,以及获取至少一个转换所述目标用户的历史语音指令得到的文本,以生成所述第二文本。
在一些实施例中,第二文本可以为对所述目标用户上一次输入的语音指令进行文本转换得到的文本。
在一些实施例中,可以通过语音识别技术实现语音到文本的转换。
S503、检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关。
在一些实施例中,检测所述第一文本是否存在语义缺失包括:将所述第一文本中是否存在指代和省略,若所述第一文本中存在指代和/或省略,则确定所述第一文本存在语义缺失,而若所述第一文本中不存在指代且不存在省略,则确定所述第一文本不存在语义缺失。
在一些实施例中,可以通过检测第一文本是否存在“他”、“她”、“它”、“他们”、“她们”、“它们”、“那”、“那时”、“那天”、“那年”、“其”等代词确定所述第一文本中是否存在指代。
在一些实施例中,可以通过对第一文本进行语法分析确定第一文本中是否存在省略。
在上述步骤S503中,若所述第一文本存在语义缺失且所述第一文本和所述第二文本相关,则执行如下步骤S504和S505。
S504、根据所述第二文本对所述第一文本进行语义补全,获取第三文本。
示例性的,第一文本为“播放一个喜剧的”,第二文本为“刘xx的电影”,则根据所述第二文本对所述第一文本进行语义补获取的第三文本可以为“播放一个刘xx喜剧的电影”。
S505、根据所述第三文本对所述语音指令进行语义理解。
在上述步骤S503中,若所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关,则执行如下步骤S506。
S506、根据所述第一文本对所述语音指令进行语义理解。
在一些实施例中,在上步骤S505(根据所述第三文本对所述语音指令进行语义理解)或S506(根据所述第一文本对所述语音指令进行语义理解)之后,语音交互设备还可以进一步通过服务器对语音指令的语义理解结果进行响应。例如:语音指令的语义理解结果为“播放一个刘xx喜剧的电影”,则可以从服务器获取相应的媒资并播放。
由以上技术方案可知,本申请实施例提供的语音交互方法,在语音交互设备接收到目标用户输入的语音指令时,对所述语音指令进行文本转换获取第一文本,并获取包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本的第二文本,再检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关,并在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本,以及根据所述第三文本对所述语音指令进行语义理解。由于本申请实施例提供的语音交互设备和语音交互方法可以在检测到转换语音指令得到的第一文本是否存在语义缺失且所述第一文本与转换同一用户的历史语音指令得到的第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本,并根据所述第三文本对所述语音指令进行语义理解,因此本申请实施例可以在第一文本中存在指代和/或省略时,先对第一文本进行语义补全,然后再基于补全后的文本进行语义理解,因此本申请实施例可以解决语音指令中的指代和省略会造成语音交互设备无法准确理解用户的语音指令的问题,从而提升语音交互设备的语音指令理解的准确率。
作为对上述实施例的扩展和细化,本申请实施例提供另一种语音交互方法,参照图6所示,该语音交互方法包括:
S601、接收目标用户输入的语音指令。
S602、获取第一文本和第二文本。
其中,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本。
S603、将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出。
其中,所述二分类模型为基于第一样本数据集对ERNIE模型进行训练获取的模型,所述第一样本数据集包括多组第一样本数据,任一组第一样本数据包括:样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签,所述二分类模型的输出为第一分类或第二分类,第一分类表示所述第一文本存在语义缺失且所述第一文本和所述第二文本相关,第二分类表示所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关。
示例性的,一组第一样本数据可以包括:样本第一文本“今天看起来不太好”、样本第二文本“今天天气怎么样”、分类标签“1”;另一组第一样本数据可以包括:样本第一文本“今天看起来不太好”、样本第二文本“现在几点了”、分类标签“0”;又一组第一样本数据可以包括:样本第一文本“今天天气看起来不太好”、样本第二文本“今天天气怎么样”、分类标签“0”。
在一些实施例中,所述二分类模型的输出可以为“0”或“1”。其中,“0”表示所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关,“1”表示所述第一文本存在语义缺失且所述第一文本和所述第二文本相关。
参照图7所示,图7为用于实现检测所述第一文本是否存在语义缺失以及所述第一文本和所述第二文本是否相关的二分类模型70的结构示意图,二分类模型70的输入包括两个,一个输入为第一文本,另一个输入为第二文本;二分类模型70的输出包括为第一分类或第二分类。
在上述步骤S603中,若所述二分类模型输入第一分类,则执行如下步骤S604至S607。
S604、确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关。
S605、获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签。
在一些实施例中,可以通过分别对所述第一文本和所述第二文本进行分词、打标、词性标注、否定词识别、代词识别、人名识别、时间识别等操作实现对所述第一文本和所述第二文本的语义理解,并输出所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签。
在一些实施例中,可以基于预构建的领域意图体系和标签数据库对所述第一文本和所述第二文本进行分词、打标、词性标注、否定词识别、代词识别、人名识别以及时间识别等操作。其中,领域意图体系可以包括:将整个语音交互服务划分为多个领域,例如:广播电台、动漫、表演艺术、电视台、音乐、体育、影视等,在各个领域下又细分为多个意图,例如:音乐领域下意图可以包括:儿歌搜索、音乐演唱会MV、音乐控制、音乐直达、歌曲搜索等。标签数据库包括各个意图下相应的标签,如在歌曲搜索的意图下,包含的标签可以包括:听动词、播放动词、唱动词、省份、国家、民族、语言、主题、专辑、歌手以及相应的标签下具体的名词。
在一些实施例中对所述第一文本和所述第二文本进行分词、打标、词性标注、否定词识别、代词识别、人名识别以及时间识别的实现方式和示例可以如下表1所示:
表1
S606、将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并根据所述第一语义补全模型的输出获取所述第三文本。
其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略。
即,根据的用户请求日志按照领域和意图总结一般规则,并根据标签搭配关系建立关键槽位的解析规则制定相应的补全策略,以及根据补全策略构建所述第一语义补全模型。
参照图8所示,图8为所述第一语义补全模型80的结构示意图,所述第一语义补全模型80的输入包括:所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签,所述第一语义补全模型80的输出为所述第一文本的文本补全结果(召回结果)。需要说明的是,所述第一语义补全模型80的输出可以仅包括一个所述第一文本对应的文本补全结果,也可以包括:多个所述第一文本对应的文本补全结果。
在一些实施例中,所述第一语义补全模型80的输出包括多个召回结果,所述根据所述第一语义补全模型的输出获取所述第三文本的实现方式可以包括如下步骤a和步骤b:
步骤a、获取所述第一语义补全模型输出的各个召回结果的评分。
步骤b、将所述第一语义补全模型输出的多个召回结果中所述评分最高的召回结果确定为所述第三文本。
S607、根据所述第三文本对所述语音指令进行语义理解。
在上述步骤S603中,若所述二分类模型输入第二分类,则执行如下步骤S608。
S608、根据所述第一文本对所述语音指令进行语义理解。
图6所示的语音交互方法为对图1所示语音交互方法的细化,其实现原理与技术效果类似,此处不再赘述。
参照图9所示,图9为用于实现图6所示的语音交互方法的语音交互设备的结构示意图。用于实现图6所示的语音交互方法的语音交互设备可以包括:输入模块91、判定模块92、预处理模块93、第一语义补全模型94以及打分模块95以及输出模块96。其中,输入模块91用于接收用户输入的语音指令,并获取第一文本和第二文本;判定模块92用于将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出,预处理模块93用于在判定模块92确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;第一语义补全模型94用于根据所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签获取召回结果;打分模块95用于对各个召回结果进行打分,并输出评分最高的召回结果作为第三文本,输出模块96用于根据所述第三文本对所述语音指令进行语义理解,以及在判定模块92确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关的情况下,根据所述第一文本对所述语音指令进行语义理解。
作为对上述实施例的扩展和细化,本申请实施例提供另一种语音交互方法,参照图10所示,该语音交互方法包括:
S101、接收目标用户输入的语音指令。
S102、获取第一文本和第二文本。
其中,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本。
S103、将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出。
其中,所述二分类模型为基于第一样本数据集对ERNIE模型进行训练获取的模型,所述第一样本数据集包括多组第一样本数据,任一组第一样本数据包括:样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签,所述二分类模型的输出为第一分类或第二分类,第一分类表示所述第一文本存在语义缺失且所述第一文本和所述第二文本相关,第二分类表示所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关。
在上述步骤S103中,若所述二分类模型输入第一分类,则执行如下步骤S104至S107。
S104、确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关。
S105、获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签。
S106、将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并根据所述第二语义补全模型的输出获取所述第三文本。
其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本。
参照图11所示,图11为所述第二语义补全模型110的结构示意图,所述第一语义补全模型110的输入包括:所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签,所述第二语义补全模型110的输出为所述第一文本的文本补全结果(召回结果)。需要说明的是,所述第二语义补全模型110的输出可以仅包括一个所述第一文本对应的文本补全结果,也可以包括:多个所述第一文本对应的文本补全结果。
在一些实施例中,所述第二语义补全模型110的输出包括多个召回结果,所述根据所述第二语义补全模型的输出获取所述第三文本的实现方式可以包括如下步骤a和步骤b:
步骤a、获取所述第二语义补全模型输出的各个召回结果的评分。
步骤b、将所述第二语义补全模型输出的多个召回结果中所述评分最高的召回结果确定为所述第三文本。
S107、根据所述第三文本对所述语音指令进行语义理解。
在上述步骤S103中,若所述二分类模型输入第二分类,则执行如下步骤S108。
S108、根据所述第一文本对所述语音指令进行语义理解。
图10所示的语音交互方法为对图1所示语音交互方法的细化,其实现原理与技术效果类似,此处不再赘述。
参照图12所示,图12为用于实现图10所示的语音交互方法的语音交互设备的结构示意图。用于实现图10所示的语音交互方法的语音交互设备可以包括:输入模块121、判定模块122、预处理模块123、第二语义补全模型124以及打分模块125以及输出模块126。其中,输入模块121用于接收用户输入的语音指令,并获取第一文本和第二文本;判定模块122用于将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出,预处理模块123用于在判定模块122确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;第二语义补全模型94分别用于根据所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签获取召回结果;打分模块125用于对各个召回结果进行打分,并输出评分最高的召回结果作为第三文本,输出模块126用于根据所述第三文本对所述语音指令进行语义理解,以及在判定模块122确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关的情况下,根据所述第一文本对所述语音指令进行语义理解。
作为对上述实施例的扩展和细化,本申请实施例提供另一种语音交互方法,参照图13所示,该语音交互方法包括:
S131、接收目标用户输入的语音指令。
S132、获取第一文本和第二文本。
其中,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本。
S133、将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出。
其中,所述二分类模型为基于第一样本数据集对ERNIE模型进行训练获取的模型,所述第一样本数据集包括多组第一样本数据,任一组第一样本数据包括:样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签,所述二分类模型的输出为第一分类或第二分类,第一分类表示所述第一文本存在语义缺失且所述第一文本和所述第二文本相关,第二分类表示所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关。
在上述步骤S133中,若所述二分类模型输入第一分类,则执行如下步骤S104至S139。
S134、确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关。
S135、获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签。
S136、将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并获取所述第一语义补全模型的输出。
其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略。
S137、将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并获取所述第二语义补全模型的输出。
其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本。
S138、获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分。
在一些实施例中,上步骤S138(获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分)包括如下步骤1和步骤2:
步骤1、将所述第一文本、所述第二文本以及所述第一语义补全模型和第二语义补全模型的输出的各个召回结果输入评分模型,并获取所述评分模型的输出。
步骤2、根据所述评分模型的输出获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分。
其中,所述评分模型为基于第三样本数据集对预设机器学习模型进行训练获取的模型,所述第三样本数据集包括多组第三样本数据,任一组第三样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本对应的至少一个召回结果以及所述至少一个召回结果的评分。
参照图14所示,图14为所述评分模型140的结构示意图,所述第一语义补全模型80的输入包括:所述第一文本、所述第二文本、所述第一语义补全模型和第二语义补全模型的输出的各个召回结果,所述第一语义补全模型80的输出为所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分。
S139、将所述第一语义补全模型和第二语义补全模型的输出的召回结果中所述评分最高的召回结果确定为所述第三文本。
S1310、根据所述第三文本对所述语音指令进行语义理解。
S1311、将所述第三文本存储至预设存储空间。
在上述步骤S1311中,若所述二分类模型输入第二分类,则执行如下步骤S1312。
S1312、根据所述第一文本对所述语音指令进行语义理解。
图13所示的语音交互方法为对图1所示语音交互方法的细化,其实现原理与技术效果类似,此处不再赘述。
参照图15所示,图15为用于实现图13所示的语音交互方法的语音交互设备的结构示意图。用于实现图13所示的语音交互方法的语音交互设备可以包括:输入模块151、判定模块152、预处理模块153、第一语义补全模型154、第二语义补全模型155以及打分模块156以及输出模块157。其中,输入模块151用于接收用户输入的语音指令,并获取第一文本和第二文本;判定模块152用于将所述第一文本和所述第二文本输入二分类模型,并获取所述二分类模型的输出,预处理模块153用于在判定模块152确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;第一语义补全模型154和第二语义补全模型155分别用于根据所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签获取召回结果;打分模块156用于对各个召回结果进行打分,并输出评分最高的召回结果作为第三文本,输出模块157用于根据所述第三文本对所述语音指令进行语义理解,以及在判定模块152确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关的情况下,根据所述第一文本对所述语音指令进行语义理解。
参照图16所示的所述第二语义补全模型的模型结构示意图,在一些实施例中,图10或图13所示中将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并根据所述第二语义补全模型的输出获取所述第三文本的实现方式可以包括如下步骤:
步骤Ⅰ、将所述第一文本、所述第一文本的关键词以及所述第一文本的关键词的标签输入所述第二语义补全模型的词嵌入层(Embedding层)161,并根据所述词嵌入层161获取所述第一文本的嵌入特征。
步骤Ⅱ、将所述第二文本、所述第二文本的关键词以及所述第二文本的关键词的标签输入所述词嵌入层161,并根据所述词嵌入层161获取所述第二文本的嵌入特征。
步骤Ⅲ、通过所述第二语义补全模型的Bi-LSTM层162,获取所述第一文本的编码特征和所述第二文本的编码特征。
在一些实施例中,上述步骤Ⅲ(通过所述第二语义补全模型的双向长短期记忆网络Bi-LSTM层,获取所述第一文本的编码特征和所述第二文本的编码特征)包括如下步骤1至步骤3:
步骤1、串联所述第一文本的嵌入特征和所述第二文本的嵌入特征生成第一特征向量。
步骤2、将所述第一特征向量输入所述Bi-LSTM层,并获取所述Bi-LSTM层输出的第二特征向量。
步骤3、将所述第二特征向量分割为所述第一文本的编码特征和所述第二文本的编码特征。
步骤Ⅳ、通过所述第二语义补全模型的相似性计算模块163计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图。
通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图。
设:所述第一文与所述第二文本中的词语数量分别为M和K,则计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度得到的特征图为M×K的二维特征图。
在一些实施例中,上述步骤Ⅳ(通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图)如下步骤①至步骤③:
步骤①、通过所述相似性计算模块163的余弦(cosine)相似度计算单元1631计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第一特征图。
在一些实施例中,余弦相似度计算公式可以如下所示:
其中,cos(xi,yj)为第二文本的编码特征中的第i词语对应的特征向量与第一文本的编码特征中的第j词语对应的特征向量的余弦相似度,xik为第二文本的编码特征中第i词语对应的特征向量中的第k个元素,yjk第一文本的编码特征中第j词语对应的特征向量中的第k个元素,n为词语对应的特征向量的元素数量。
步骤②、通过所述相似性计算模块163的双线性(bilinear)注意力单元1632计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第二特征图。
在一些实施例中,bilinear注意力单元的计算公式可以如下所示:
O2(X,Y)=X*w×YT+b
其中,O2(X,Y)为所述第二特征图,X=x1,x2,x3,……xM,X为第二文本的编码特征,xi为第二文本的编码特征中第i个词语对应的特征向量,Y=y1,y2,y3,……yK,Y为第一文本的编码特征,yi为第一文本的编码特征中第i个词语对应的特征向量,w和b为常数。
步骤③、通过所述相似性计算模块163的元素积(element-wise product)单元1633计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第三特征图。
在一些实施例中,元素积的计算公式可以如下所示:
其中,O3(X,Y)为所述第三特征图,X=x1,x2,x3,……xM,X为第二文本的编码特征,xi为第二文本的编码特征中第i个词语对应的特征向量,Y=y1,y2,y3,……yK,Y为第一文本的编码特征,yi为第一文本的编码特征中第i个词语对应的特征向量。
步骤Ⅴ、通过所述第二语义补全模型的语义分割网络164将所述至少一个特征图卷积处理为编辑矩阵。
在一些实施例中,编辑矩阵的尺寸与特征图的尺寸相同,均为M×K;当所述至少一个特征图包括多个特征图时,可以通过卷积和反卷积的结构对多个特征图进行卷积处理,以获取所述编辑矩阵。
步骤Ⅵ、通过所述第二语义补全模型的重写模块165和所述编辑矩阵对所述第一文本进行重写,以获取所述第三文本。
在一些实施例中,编辑矩阵中每一个元素(元素取值范围为{0,1,2})的值代表了一种分类结果,并进一步根据映射表[0-None-无操作,1-insert-插入,2-replace-替换]确定相应的编辑操作,以及根据编辑操作对所述编辑矩阵进行编辑以获取所述第三文本。
示例性的,参照图17所示,由于编辑矩阵170可以得编辑操作包括:替换:[0,1],[0,3],则表示将第一文本的[0,1]位置的词词语替换为第二文本的[0,3]位置的词语,即,将“这”替换为“不开心”“的”“时候”;插入:[2,2],[7,7]表示在第一文本的[2,2]位置后面插入历史会话的[7,7]位置的词,即,在“转移”后插入“注意力”,最终将第一文本“这怎么转移”改写为第三文本“不开心的时候怎么转移注意力”。
在一些实施例中,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现上述任一实施例所述的语音交互方法。
在一些实施例中,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现上述任一实施例所述的语音交互方法。
在一些实施例中,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机实现第二方面或第二方面任一实施例所述的语音交互方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (12)
1.一种语音交互设备,其特征在于,包括:
检测器,被配置为接收目标用户输入的语音指令;
控制器,被配置为:
获取第一文本和第二文本,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本;
检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关;
在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本;
根据所述第三文本对所述语音指令进行语义理解。
2.根据权利要求1所述的语音交互设备,其特征在于,所述控制器还被配置为:
将所述第一文本和所述第二文本输入二分类模型,以及在所述二分类模型输入第一分类时,确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关;在所述二分类模型输入第二分类时,确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关;
其中,所述二分类模型为基于第一样本数据集对知识增强的语义表示ERNIE模型进行训练获取的模型,所述第一样本数据集包括多组第一样本数据,任一组第一样本数据包括:样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签。
3.根据权利要求1所述的语音交互设备,其特征在于,所述控制器还被配置为:
获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;
将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并根据所述第一语义补全模型的输出获取所述第三文本;
其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略。
4.根据权利要求1所述的语音交互设备,其特征在于,所述控制器还被配置为:
获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;
将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并根据所述第二语义补全模型的输出获取所述第三文本;
其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本。
5.根据权利要求1所述的语音交互设备,其特征在于,所述控制器还被配置为:
获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签;
将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型,并获取所述第一语义补全模型的输出;其中,第一语义补全模型为根据补全策略建立的模型,所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略;
将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型,并获取所述第二语义补全模型的输出;其中,所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型,所述第二样本数据集包括多组第二样本数据,任一组第二样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本;
根据所述第一语义补全模型的输出和所述第二语义补全模型的输出获取所述第三文本。
6.根据权利要求5所述的语音交互设备,其特征在于,所述第一语义补全模型的输出包括至少一个召回结果,所述第二语义补全模型的输出包括至少一个召回结果;所述控制器还被配置为:
获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分;
将所述第一语义补全模型和第二语义补全模型的输出的召回结果中所述评分最高的召回结果确定为所述第三文本。
7.根据权利要求6所述的语音交互设备,其特征在于,所述控制器还被配置为:
将所述第一文本、所述第二文本以及所述第一语义补全模型和第二语义补全模型的输出的各个召回结果输入评分模型,并获取所述评分模型的输出;
根据所述评分模型的输出获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分;
其中,所述评分模型为基于第三样本数据集对预设机器学习模型进行训练获取的模型,所述第三样本数据集包括多组第三样本数据,任一组第三样本数据包括:样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本对应的至少一个召回结果以及所述至少一个召回结果的评分。
8.根据权利要求1-7任一项所述的语音交互设备,其特征在于,所述控制器还被配置为:
将所述第三文本存储至预设存储空间。
9.根据权利要求4或5所述的语音交互设备,其特征在于,所述控制器还被配置为:
将所述第一文本、所述第一文本的关键词以及所述第一文本的关键词的标签输入所述第二语义补全模型的词嵌入层,并根据所述词嵌入层获取所述第一文本的嵌入特征;
将所述第二文本、所述第二文本的关键词以及所述第二文本的关键词的标签输入所述词嵌入层,并根据所述词嵌入层获取所述第二文本的嵌入特征;
通过所述第二语义补全模型的双向长短期记忆网络Bi-LSTM层,获取所述第一文本的编码特征和所述第二文本的编码特征;
通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,并输出所述第一文本和所述第二文本对应的至少一个特征图;
通过所述第二语义补全模型的语义分割网络将所述至少一个特征图卷积处理为编辑矩阵;
通过所述第二语义补全模型的重写模块和所述编辑矩阵对所述第一文本进行重写,以获取所述第三文本。
10.根据权利要求9所述的语音交互设备,其特征在于,所述控制器还被配置为:
串联所述第一文本的嵌入特征和所述第二文本的嵌入特征生成第一特征向量;
将所述第一特征向量输入所述Bi-LSTM层,并获取所述Bi-LSTM层输出的第二特征向量;
将所述第二特征向量分割为所述第一文本的编码特征和所述第二文本的编码特征。
11.根据权利要求9所述的语音交互设备,其特征在于,所述控制器还被配置为:
通过所述相似性计算模块的余弦相似度计算单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第一特征图;
通过所述相似性计算模块的双线性注意力单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第二特征图;
通过所述相似性计算模块的元素积单元计算所述第一文本的编码特征中的各个词语对应的特征向量与所述第二文本的编码特征中的各个词语对应的特征向量的相似度,获取第三特征图。
12.一种语音交互方法,其特征在于,应用于语音交互设备,所述方法包括:
接收目标用户输入的语音指令;
获取第一文本和第二文本,所述第一文本为对所述语音指令进行文本转换得到的文本,所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本;
检测所述第一文本是否存在语义缺失,以及所述第一文本和所述第二文本是否相关;
在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下,根据所述第二文本对所述第一文本进行语义补全,获取第三文本;
根据所述第三文本对所述语音指令进行语义理解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743820.4A CN115273840A (zh) | 2022-06-27 | 2022-06-27 | 语音交互设备和语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743820.4A CN115273840A (zh) | 2022-06-27 | 2022-06-27 | 语音交互设备和语音交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273840A true CN115273840A (zh) | 2022-11-01 |
Family
ID=83763206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210743820.4A Pending CN115273840A (zh) | 2022-06-27 | 2022-06-27 | 语音交互设备和语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273840A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117234341A (zh) * | 2023-11-15 | 2023-12-15 | 中影年年(北京)文化传媒有限公司 | 基于人工智能的虚拟现实人机交互方法及系统 |
TWI832792B (zh) * | 2023-08-16 | 2024-02-11 | 中華電信股份有限公司 | 基於上下文情境與使用歷程的意圖評選系統及其方法 |
-
2022
- 2022-06-27 CN CN202210743820.4A patent/CN115273840A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI832792B (zh) * | 2023-08-16 | 2024-02-11 | 中華電信股份有限公司 | 基於上下文情境與使用歷程的意圖評選系統及其方法 |
CN117234341A (zh) * | 2023-11-15 | 2023-12-15 | 中影年年(北京)文化传媒有限公司 | 基于人工智能的虚拟现实人机交互方法及系统 |
CN117234341B (zh) * | 2023-11-15 | 2024-03-05 | 中影年年(北京)科技有限公司 | 基于人工智能的虚拟现实人机交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621988B2 (en) | System and method for speech to text translation using cores of a natural liquid architecture system | |
US20190102381A1 (en) | Exemplar-based natural language processing | |
CN108460396B (zh) | 负采样方法和装置 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
US20150032453A1 (en) | Systems and methods for providing information discovery and retrieval | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
US20110106805A1 (en) | Method and system for searching multilingual documents | |
CN115273840A (zh) | 语音交互设备和语音交互方法 | |
CN102549653A (zh) | 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN114528588A (zh) | 跨模态隐私语义表征方法、装置、设备及存储介质 | |
CN117093687A (zh) | 问题应答方法和装置、电子设备、存储介质 | |
US9477658B2 (en) | Systems and method for speech to speech translation using cores of a natural liquid architecture system | |
WO2024179519A1 (zh) | 语义识别方法及其装置 | |
CN111354350B (zh) | 语音处理方法及装置、语音处理设备、电子设备 | |
CN117809651A (zh) | 语音交互设备和语音交互方法 | |
CN111538811A (zh) | 一种用于自然语言内容标题消歧的方法、设备和系统 | |
CN114443904A (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
US11984113B2 (en) | Method and server for training a neural network to generate a textual output sequence | |
WO2022213864A1 (zh) | 一种语料标注方法、装置及相关设备 | |
CN117807195A (zh) | 显示设备及实体召回方法 | |
Seltzer et al. | The data deluge: Challenges and opportunities of unlimited data in statistical signal processing | |
CN115438625A (zh) | 文本纠错服务器、终端设备及文本纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |