CN110069608B - 一种语音交互的方法、装置、设备和计算机存储介质 - Google Patents

一种语音交互的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN110069608B
CN110069608B CN201810816608.XA CN201810816608A CN110069608B CN 110069608 B CN110069608 B CN 110069608B CN 201810816608 A CN201810816608 A CN 201810816608A CN 110069608 B CN110069608 B CN 110069608B
Authority
CN
China
Prior art keywords
voice
recognition result
text
voiceprint recognition
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810816608.XA
Other languages
English (en)
Other versions
CN110069608A (zh
Inventor
常先堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201810816608.XA priority Critical patent/CN110069608B/zh
Priority to US16/425,513 priority patent/US20200035241A1/en
Priority to JP2019114544A priority patent/JP6862632B2/ja
Publication of CN110069608A publication Critical patent/CN110069608A/zh
Application granted granted Critical
Publication of CN110069608B publication Critical patent/CN110069608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种语音交互的方法、装置、设备和计算机存储介质,所述方法包括:接收第一终端设备发送的语音数据;获取所述语音数据的语音识别结果以及声纹识别结果;获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换;将转换得到的音频数据发送至所述第一终端设备。本发明实现了人机交互的语音自适应,增强了人机语音交互的真实感,提升了人机语音交互的趣味性。

Description

一种语音交互的方法、装置、设备和计算机存储介质
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种语音交互的方法、装置、设备和计算机存储介质。
【背景技术】
现有的智能终端设备在进行语音交互时,一般都是采用固定的应答声音与用户进行交互,导致用户与终端设备之间的语音交互过程较为乏味。
【发明内容】
有鉴于此,本发明提供了一种语音交互的方法、装置、设备和计算机存储介质,用于提升人机语音交互的真实感、趣味性。
本发明为解决技术问题所采用的技术方案为提供一种语音交互的方法,所述方法包括:接收第一终端设备发送的语音数据;获取所述语音数据的语音识别结果以及声纹识别结果;获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换;将转换得到的音频数据发送至所述第一终端设备。
根据本发明一优选实施例,所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。
根据本发明一优选实施例,获取针对所述语音识别结果的响应文本包括:利用所述语音识别结果进行搜索匹配,获得与所述语音识别结果对应的文本搜索结果和/或提示文本。
根据本发明一优选实施例,该方法还包括:若利用所述语音识别结果进行搜索匹配,获得音频搜索结果,则将所述音频搜索结果发送至所述第一终端设备。
根据本发明一优选实施例,获取针对所述语音识别结果的响应文本包括:利用所述语音识别结果以及声纹识别结果进行搜索匹配,获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和/或提示文本。
根据本发明一优选实施例,利用所述声纹识别结果对所述响应文本进行语音转换包括:根据预设的身份信息与声音合成参数之间的对应关系,确定与所述声纹识别结果对应的声音合成参数;利用所确定的声音合成参数对所述响应文本进行语音转换。
根据本发明一优选实施例,所述方法还包括:接收并保存第二终端设备对所述对应关系的设置。
根据本发明一优选实施例,在利用所述声纹识别结果对所述响应文本进行语音转换之前,还包括:判断所述第一终端设备是否被设置为自适应语音响应,如果是,则继续执行利用所述声纹识别结果对所述响应文本进行语音转换;否则,利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。
本发明为解决技术问题所采用的技术方案为提供一种语音交互的装置,所述装置包括:接收单元,用于接收第一终端设备发送的语音数据;处理单元,用于获取所述语音数据的语音识别结果以及声纹识别结果;转换单元,用于获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换;发送单元,用于将转换得到的音频数据发送至所述第一终端设备。
根据本发明一优选实施例,所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。
根据本发明一优选实施例,所述转换单元在获取针对所述语音识别结果的响应文本时,具体执行:利用所述语音识别结果进行搜索匹配,获得与所述语音识别结果对应的文本搜索结果和/或提示文本。
根据本发明一优选实施例,所述转换单元还用于执行:若利用所述语音识别结果进行搜索匹配,获得音频搜索结果,则将所述音频搜索结果发送至所述第一终端设备。
根据本发明一优选实施例,所述转换单元在获取针对所述语音识别结果的响应文本时,具体执行:利用所述语音识别结果以及声纹识别结果进行搜索匹配,获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和/或提示文本。
根据本发明一优选实施例,所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换时,具体执行:根据预设的身份信息与声音合成参数之间的对应关系,确定与所述声纹识别结果对应的声音合成参数;利用所确定的声音合成参数对所述响应文本进行语音转换。
根据本发明一优选实施例,所述转换单元还用于执行:接收并保存第二终端设备对所述对应关系的设置。
根据本发明一优选实施例,所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换之前,还具体执行:判断所述第一终端设备是否被设置为自适应语音响应,如果是,则继续执行利用所述声纹识别结果对所述响应文本进行语音转换;否则,利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。
由以上技术方案可以看出,本发明通过用户输入的语音数据,动态地获取声音合成参数对语音识别结果对应的响应文本进行语音转换,使得转换得到的音频数据符合用户的身份信息,实现了人机交互的语音自适应,增强了人机语音交互的真实感,提升了人机语音交互的趣味性。
【附图说明】
图1为本发明一实施例提供的语音交互的方法流程图;
图2为本发明一实施例提供的语音交互的装置结构图;
图3为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明一实施例提供的一种语音交互的方法流程图,如图1中所示,所述方法在服务器端执行,包括:
在101中,接收第一终端设备发送的语音数据。
在本步骤中,服务器端接收第一终端设备发送的由用户所输入的语音数据。在本发明中,第一终端设备为智能终端设备,例如智能手机、平板电脑、智能穿戴设备、智能音箱、智能家电等,该智能设备具有获取用户语音数据以及播放音频数据的能力。
其中,第一终端设备通过麦克风来采集用户输入的语音数据,并在第一终端设备处于唤醒状态时,将所采集的语音数据发送至服务器端。
在102中,获取所述语音数据的语音识别结果以及声纹识别结果。
在本步骤中,对步骤101中所接收到的语音数据进行语音识别以及声纹识别,从而分别获取语音数据对应的语音识别结果以及声纹识别结果。
可以理解的是,在获取语音数据的语音识别结果以及声纹识别结果时,可以在服务器端对语音数据进行语音识别和声纹识别;也可以在第一终端设备对语音数据进行语音识别和声纹识别,由第一终端设备将语音数据、语音数据对应的语音识别结果以及声纹识别结果发送至服务器端;还可以由服务器端将所接收的将语音数据分别发送至语音识别服务器和声纹识别服务器,再从这两个服务器中获取语音数据的语音识别结果以及声纹识别结果。
其中,语音数据的声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息,用户的性别可以为用户是男性或女性,用户的年龄可以为用户是儿童、青年、中年或是老年。
具体地,对语音数据进行语音识别,获取语音数据对应的语音识别结果,一般为文本数据;对语音数据进行声纹识别,获取语音数据对应的声纹识别结果。可以理解的是,本发明所涉及的语音识别以及声纹识别属于现有技术,在此不进行赘述,且本发明对语音识别以及声纹识别的的顺序不进行限定。
另外,在对语音数据进行语音识别以及声纹识别之前,还可以包括以下内容:对语音数据进行去噪处理,利用去噪处理后的语音数据进行语音识别以及声纹识别,从而提升语音识别以及声纹识别的准确度。
在103中,获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换。
在本步骤中,根据步骤102中所获取的语音数据对应的语音识别结果进行搜索匹配,获取与语音识别结果对应的响应文本,再利用声纹识别结果对响应文本进行语音转换,从而得到与响应文本对应的音频数据。
语音数据的语音识别结果为文本数据,通常在仅根据文本数据进行搜索时,会得到对应文本数据的全部搜索结果,并不会获得适应不同性别、不同年龄、不同地域、不同职业的搜索结果。因此,本步骤在利用语音识别结果进行搜索匹配时,还可以采用以下方式:利用语音识别结果以及声纹识别结果进行搜索匹配,得到对应语音识别结果以及声纹识别结果的搜索结果。本发明通过结合所获取的声纹识别结果进行搜索,能够使得所获取的搜索结果符合声纹识别结果中用户的身份信息,从而实现获取更为准确、更加符合用户期望的搜索结果的目的。
其中,在利用语音识别结果以及声纹识别结果进行搜索匹配时,可以采用以下方式:首先利用语音识别结果进行搜索匹配,得到对应语音识别结果的搜索结果;然后计算声纹识别结果与所得到的搜索结果之间的匹配度,将匹配度超过预设阈值的搜索结果作为对应语音识别结果以及声纹识别结果的搜索结果。本发明对利用语音识别结果以及声纹识别结果进行搜索匹配获取搜索结果的方式不进行限定。
举例来说,若声纹识别结果中用户的身份信息为儿童,本步骤在获取搜索结果时,会得到更加适应儿童的搜索结果。若声纹识别结果中用户的身份信息为男性,本步骤在获取搜索结果时,会得到更加适应男性的搜索结果。
在根据语音识别结果进行搜索匹配时,可以直接利用搜索引擎进行搜索,得到与语音识别结果对应的搜索结果。
也可以采用以下方式:确定与语音识别结果对应的垂类服务器;根据语音识别结果在所确定的垂类服务器中进行搜索,从而获取相应的搜索结果。例如,若语音识别结果为“推荐几首励志的歌曲”,则根据该语音识别结果确定对应的垂类服务器为音乐垂类服务器,若声纹识别结果中用户的身份信息为男性,则在音乐垂类服务器中搜索得到“适合男性的励志歌曲”的搜索结果。
在本步骤中,利用语音识别结果进行搜索匹配,得到语音识别结果对应的响应文本。其中,语音识别结果对应的响应文本包括语音识别结果对应的文本搜索结果和/或提示文本,该提示文本用于在第一终端设备播放之前提示用户接下来将要进行播放。
举例来说,若语音识别结果为“播放几首励志的歌曲”,则对应的提示文本可以为“将为您播放歌曲”;若语音识别结果为“查询几首励志歌曲的名称”,则对应的提示文本可以为“为您查询到以下内容”。
另外,本步骤在获取语音识别结果对应的响应文本后,进一步利用声纹识别结果对所获取的响应文本进行语音转换。
可以理解的是,在利用声纹识别结果对所获取的响应文本进行语音转换之前,还进一步包括以下内容:判断第一终端设备是否被设置为自适应语音响应,如果是,则执行利用声纹识别结果对所获取的响应文本进行语音转换;否则,利用预先设置的或者默认的声音合成参数对响应文本进行语音转换。
具体地,在利用声纹识别结果对响应文本进行语音转换时,可以采用以下方式:根据预设的身份信息与声音合成参数之间的对应关系,确定与声纹识别结果对应的声音合成参数;利用所确定的声音合成参数对响应文本进行语音转换,从而得到与响应文本对应的音频数据。
例如,若用户的身份信息为儿童,则确定与儿童对应的声音合成参数为“儿童”声音合成参数,进而利用所确定的“儿童”声音合成参数对响应文本进行语音转换,使得转换得到的音频数据中的声音为儿童的声音。
可以理解的是,服务器端中的身份信息与声音合成参数之间的对应关系由第二终端设备进行设置,该第二终端设备可以和第一终端设备相同,也可以不同。第二终端设备将所设置的对应关系发送至服务器端,服务器端对该对应关系进行保存,从而使得服务器端能够根据该对应关系确定与用户的身份信息对应的声音合成参数。其中声音合成参数可以包括诸如:声音的音高、音长和音强等参数。
通常情况下,在对搜索结果进行语音转换时所使用的声音合成参数一般是固定的,即不同的用户所得到的语音转换后的音频数据中的声音是固定的。而本申请根据声纹识别结果动态地获取与用户的身份信息对应的声音合成参数,使得不同的用户所得到的语音转换后的音频数据中的声音能够与用户的身份信息相对应,从而提升用户的交互体验。
在104中,将转换得到的音频数据发送至所述第一终端设备。
在本步骤中,将步骤103转换得到的音频数据发送至第一终端设备,以用于第一终端设备播放对应用户的语音数据的反馈内容。
可以理解的是,若利用语音识别结果进行匹配搜索时,所获得的搜索结果为音频搜索结果,则无需对该音频搜索结果进行语音转换,直接将该音频搜索结果发送至第一终端设备。
另外,若根据语音识别结果获取了与其对应的提示文本,则可以将该提示文本对应的的音频数据添加至音频搜索结果或者文本搜索结果对应的音频数据之前,使得第一终端设备在播放音频搜索结果或者文本搜索结果对应的音频数据之前,先播放提示文本对应的音频数据,从而确保第一终端设备在播放用户所输入的语音数据对应的反馈内容时更加流畅。
图2为本发明一实施例提供的一种语音交互的装置流程图,如图2中所示,所述装置位于服务器端,包括:
接收单元21,用于接收第一终端设备发送的语音数据。
接收单元21接收第一终端设备发送的由用户所输入的语音数据。在本发明中,第一终端设备为智能终端设备,例如智能手机、平板电脑、智能穿戴设备、智能音箱、智能家电等,该智能设备具有获取用户语音数据以及播放音频数据的能力。
其中,第一终端设备通过麦克风来采集用户输入的语音数据,并在第一终端设备处于唤醒状态时,将所采集的语音数据发送至接收单元21。
处理单元22,用于获取所述语音数据的语音识别结果以及声纹识别结果。
处理单元22对接收单元21所接收到的语音数据进行语音识别以及声纹识别,从而分别获取语音数据对应的语音识别结果以及声纹识别结果。
可以理解的是,在获取语音数据的语音识别结果以及声纹识别结果时,可以由处理单元22对语音数据进行语音识别和声纹识别;也可以在第一终端设备对语音数据进行语音识别和声纹识别后,将语音数据、语音识别结果以及声纹识别结果一同发送至服务器端;还可以由处理单元22将所接收的将语音数据分别发送至语音识别服务器和声纹识别服务器,从这两个服务器中获取语音数据的语音识别结果以及声纹识别结果。
其中,语音数据的声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息,用户的性别可以为用户是男性或女性,用户的年龄可以为用户是儿童、青年、中年或是老年。
具体地,处理单元22对语音数据进行语音识别,获取语音数据对应的语音识别结果,一般为文本数据;处理单元22对语音数据进行声纹识别,获取语音数据对应的声纹识别结果。可以理解的是,本发明所涉及的语音识别以及声纹识别属于现有技术,在此不进行赘述,且本发明对语音识别以及声纹识别的的顺序不进行限定。
另外,处理单元22在对语音数据进行语音识别以及声纹识别之前,还可以包括以下内容:对语音数据进行去噪处理,利用去噪处理后的语音数据进行语音识别以及声纹识别,从而提升语音识别以及声纹识别的准确度。
转换单元23,用于获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换。
转换单元23根据处理单元22所获取的语音数据对应的语音识别结果进行搜索匹配,获取与语音识别结果对应的响应文本,再利用声纹识别结果对响应文本进行语音转换,从而得到与响应文本对应的音频数据。
语音数据的语音识别结果为文本数据,通常在仅根据文本数据进行搜索时,会得到对应文本数据的全部搜索结果,并不会获得适应不同性别、不同年龄、不同地域、不同职业的搜索结果。
因此,转换单元23在利用语音识别结果进行搜索匹配时,还可以采用以下方式:利用语音识别结果以及声纹识别结果进行搜索匹配,得到对应语音识别结果以及声纹识别结果的搜索结果。转换单元23通过结合所获取的声纹识别结果进行搜索,能够使得所获取的搜索结果符合声纹识别结果中用户的身份信息,从而实现获取更为准确、更加符合用户期望的搜索结果的目的。
其中,转换单元23在利用语音识别结果以及声纹识别结果进行搜索匹配时,可以采用以下方式:首先利用语音识别结果进行搜索匹配,得到对应语音识别结果的搜索结果;然后计算声纹识别结果与所得到的搜索结果之间的匹配度,将匹配度超过预设阈值的搜索结果作为对应语音识别结果以及声纹识别结果的搜索结果。本发明对转换单元23利用语音识别结果以及声纹识别结果获取搜索结果的方式不进行限定。
转换单元23在根据语音识别结果进行搜索匹配时,可以直接利用搜索引擎进行搜索,得到与语音识别结果对应的搜索结果。
转换单元23也可以采用以下方式:确定与语音识别结果对应的垂类服务器;根据语音识别结果在所确定的垂类服务器中进行搜索,从而获取相应的搜索结果。
转换单元23利用语音识别结果进行搜索匹配,得到语音识别结果对应的响应文本。其中,语音识别结果对应的响应文本包括语音识别结果对应的文本搜索结果和/或提示文本,该提示文本用于在第一终端设备播放之前提示用户接下来将要进行播放。
另外,转换单元23在获取语音识别结果对应的响应文本后,进一步利用声纹识别结果对所获取的响应文本进行语音转换。
可以理解的是,转换单元23在利用声纹识别结果对所获取的响应文本进行语音转换之前,还进一步执行以下内容:判断第一终端设备是否被设置为自适应语音响应,如果是,则执行利用声纹识别结果对所获取的响应文本进行语音转换;否则,利用预先设置的或者默认的声音合成参数对响应文本进行语音转换。
具体地,转换单元23在利用声纹识别结果对响应文本进行语音转换时,可以采用以下方式:根据预设的身份信息与声音合成参数之间的对应关系,确定与声纹识别结果对应的声音合成参数;利用所确定的声音合成参数对响应文本进行语音转换,从而得到与响应文本对应的音频数据。
可以理解的是,转换单元23中的身份信息与声音合成参数之间的对应关系由第二终端设备进行设置,该第二终端设备可以和第一终端设备相同,也可以不同。第二终端设备将所设置的对应关系发送至转换单元23,转换单元23对该对应关系进行保存,从而使得转换单元23能够根据该对应关系确定与用户的身份信息对应的声音合成参数。其中声音合成参数可以包括诸如:声音的音高、音长和音强等参数。
发送单元24,用于将转换得到的音频数据发送至所述第一终端设备。
发送单元24将转换单元23转换得到的音频数据发送至第一终端设备,以用于第一终端设备播放对应用户的语音数据的反馈内容。
可以理解的是,若转换单元23利用语音识别结果进行匹配搜索时,所获得的搜索结果为音频搜索结果,则无需对该音频搜索结果进行语音转换,由发送单元24直接将该音频搜索结果发送至第一终端设备。
另外,若转换单元23根据语音识别结果获取了与其对应的提示文本,则发送单元24可以将该提示文本对应的的音频数据添加至音频搜索结果或者文本搜索结果对应的音频数据之前,使得第一终端设备在播放音频搜索结果或者文本搜索结果对应的音频数据之前,先播放提示文本对应的音频数据,从而确保第一终端设备在播放用户所输入的语音数据对应的反馈内容时更加流畅。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,通过用户输入的语音数据,动态地获取声音合成参数对语音识别结果对应的响应文本进行语音转换,使得转换得到的音频数据符合用户的身份信息,实现了人机交互的语音自适应,增强了人机语音交互的真实感,提升了人机语音交互的趣味性。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种语音交互的方法,其特征在,所述方法包括:
接收第一终端设备发送的语音数据;
获取所述语音数据的语音识别结果以及声纹识别结果;
获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换;
将转换得到的音频数据发送至所述第一终端设备;
所述获取针对所述语音识别结果的响应文本包括:
利用所述语音识别结果进行搜索匹配,获得与所述语音识别结果对应的文本搜索结果和提示文本,所述提示文本为用于所述第一终端设备在播放所述文本搜索结果转换得到的音频数据之前提示用户接下来将要进行播放的文本。
2.根据权利要求1所述的方法,其特征在于,所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
若利用所述语音识别结果进行搜索匹配,获得音频搜索结果,则将所述音频搜索结果发送至所述第一终端设备。
4.根据权利要求1所述的方法,其特征在于,获取针对所述语音识别结果的响应文本包括:
利用所述语音识别结果以及声纹识别结果进行搜索匹配,获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和提示文本。
5.根据权利要求1所述的方法,其特征在于,利用所述声纹识别结果对所述响应文本进行语音转换包括:
根据预设的身份信息与声音合成参数之间的对应关系,确定与所述声纹识别结果对应的声音合成参数;
利用所确定的声音合成参数对所述响应文本进行语音转换。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
接收并保存第二终端设备对所述对应关系的设置。
7.根据权利要求1所述的方法,其特征在于,在利用所述声纹识别结果对所述响应文本进行语音转换之前,还包括:
判断所述第一终端设备是否被设置为自适应语音响应,如果是,则继续执行利用所述声纹识别结果对所述响应文本进行语音转换;
否则,利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。
8.一种语音交互的装置,其特征在,所述装置包括:
接收单元,用于接收第一终端设备发送的语音数据;
处理单元,用于获取所述语音数据的语音识别结果以及声纹识别结果;
转换单元,用于获取针对所述语音识别结果的响应文本,利用所述声纹识别结果对所述响应文本进行语音转换;
发送单元,用于将转换得到的音频数据发送至所述第一终端设备;
所述转换单元在获取针对所述语音识别结果的响应文本时,具体执行:
利用所述语音识别结果进行搜索匹配,获得与所述语音识别结果对应的文本搜索结果和提示文本,所述提示文本为用于所述第一终端设备在播放所述文本搜索结果转换得到的音频数据之前提示用户接下来将要进行播放的文本。
9.根据权利要求8所述的装置,其特征在于,所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。
10.根据权利要求8所述的装置,其特征在于,所述转换单元还用于执行:
若利用所述语音识别结果进行搜索匹配,获得音频搜索结果,则将所述音频搜索结果发送至所述第一终端设备。
11.根据权利要求8所述的装置,其特征在于,所述转换单元在获取针对所述语音识别结果的响应文本时,具体执行:
利用所述语音识别结果以及声纹识别结果进行搜索匹配,获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和提示文本。
12.根据权利要求8所述的装置,其特征在于,所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换时,具体执行:
根据预设的身份信息与声音合成参数之间的对应关系,确定与所述声纹识别结果对应的声音合成参数;
利用所确定的声音合成参数对所述响应文本进行语音转换。
13.根据权利要求12所述的装置,其特征在于,所述转换单元还用于执行:
接收并保存第二终端设备对所述对应关系的设置。
14.根据权利要求8所述的装置,其特征在于,所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换之前,还具体执行:
判断所述第一终端设备是否被设置为自适应语音响应,如果是,则继续执行利用所述声纹识别结果对所述响应文本进行语音转换;
否则,利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。
15.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的方法。
CN201810816608.XA 2018-07-24 2018-07-24 一种语音交互的方法、装置、设备和计算机存储介质 Active CN110069608B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810816608.XA CN110069608B (zh) 2018-07-24 2018-07-24 一种语音交互的方法、装置、设备和计算机存储介质
US16/425,513 US20200035241A1 (en) 2018-07-24 2019-05-29 Method, device and computer storage medium for speech interaction
JP2019114544A JP6862632B2 (ja) 2018-07-24 2019-06-20 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810816608.XA CN110069608B (zh) 2018-07-24 2018-07-24 一种语音交互的方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110069608A CN110069608A (zh) 2019-07-30
CN110069608B true CN110069608B (zh) 2022-05-27

Family

ID=67365758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810816608.XA Active CN110069608B (zh) 2018-07-24 2018-07-24 一种语音交互的方法、装置、设备和计算机存储介质

Country Status (3)

Country Link
US (1) US20200035241A1 (zh)
JP (1) JP6862632B2 (zh)
CN (1) CN110069608B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147800A (zh) 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
TWI684874B (zh) * 2018-10-18 2020-02-11 瑞軒科技股份有限公司 智慧型音箱及其操作方法
CN110534117B (zh) * 2019-09-10 2022-11-25 阿波罗智联(北京)科技有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110807093A (zh) * 2019-10-30 2020-02-18 中国联合网络通信集团有限公司 语音处理方法、装置及终端设备
CN110989900B (zh) 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111048064B (zh) * 2020-03-13 2020-07-07 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
US11418424B2 (en) 2020-05-29 2022-08-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Test system
CN112002327A (zh) * 2020-07-16 2020-11-27 张洋 一种自主学习智能分析决策的生活与工作助理设备
CN111933149A (zh) * 2020-08-11 2020-11-13 北京声智科技有限公司 语音交互方法、穿戴式设备、终端及语音交互系统
CN114281182A (zh) * 2020-09-17 2022-04-05 华为技术有限公司 人机交互方法、装置和系统
CN112259076B (zh) * 2020-10-12 2024-03-01 北京声智科技有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
US11310563B1 (en) * 2021-01-07 2022-04-19 Dish Network L.L.C. Searching for and prioritizing audiovisual content using the viewer's age
KR20220141137A (ko) * 2021-04-12 2022-10-19 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN113112236A (zh) * 2021-04-19 2021-07-13 云南电网有限责任公司迪庆供电局 一种基于语音和声纹识别的配网智能调度系统及方法
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN113643684B (zh) * 2021-07-21 2024-02-27 广东电力信息科技有限公司 语音合成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及系统
CN103956163A (zh) * 2014-04-23 2014-07-30 成都零光量子科技有限公司 普通语音与加密语音的相互转换系统及方法
WO2016018763A1 (en) * 2014-07-31 2016-02-04 Google Inc. Conversational agents
CN107357875A (zh) * 2017-07-04 2017-11-17 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002162994A (ja) * 2000-11-28 2002-06-07 Eastem:Kk メッセージ交換システム
JP2011217018A (ja) * 2010-03-31 2011-10-27 Oki Networks Co Ltd 音声応答装置及びプログラム
WO2013187610A1 (en) * 2012-06-15 2013-12-19 Samsung Electronics Co., Ltd. Terminal apparatus and control method thereof
CN103236259B (zh) * 2013-03-22 2016-06-29 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
CN105206269A (zh) * 2015-08-14 2015-12-30 百度在线网络技术(北京)有限公司 一种语音处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及系统
CN103956163A (zh) * 2014-04-23 2014-07-30 成都零光量子科技有限公司 普通语音与加密语音的相互转换系统及方法
WO2016018763A1 (en) * 2014-07-31 2016-02-04 Google Inc. Conversational agents
CN107357875A (zh) * 2017-07-04 2017-11-17 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备

Also Published As

Publication number Publication date
US20200035241A1 (en) 2020-01-30
CN110069608A (zh) 2019-07-30
JP2020016875A (ja) 2020-01-30
JP6862632B2 (ja) 2021-04-21

Similar Documents

Publication Publication Date Title
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN108877791B (zh) 基于视图的语音交互方法、装置、服务器、终端和介质
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
CN107481720B (zh) 一种显式声纹识别方法及装置
US10529340B2 (en) Voiceprint registration method, server and storage medium
CN108831477B (zh) 一种语音识别方法、装置、设备及存储介质
CN108564944B (zh) 智能控制方法、系统、设备及存储介质
US20120053937A1 (en) Generalizing text content summary from speech content
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN111179904A (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN110705308B (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN111090769A (zh) 一种歌曲推荐的方法、装置、设备和计算机存储介质
US20240096347A1 (en) Method and apparatus for determining speech similarity, and program product
CN112802454B (zh) 一种唤醒词的推荐方法、装置、终端设备及存储介质
CN109036379B (zh) 语音识别方法、设备及存储介质
CN111160044A (zh) 文语转换方法及装置、终端和计算机可读存储介质
CN110990528A (zh) 一种问答方法、装置及电子设备
CN107967308A (zh) 一种智能交互的处理方法、装置、设备和计算机存储介质
CN110647627B (zh) 答案生成方法及装置、计算机设备与可读介质
CN112802458B (zh) 唤醒方法和装置、存储介质、电子设备
CN109815325B (zh) 答案抽取方法、装置、服务器及存储介质
CN110958172B (zh) 一种用于推荐好友的方法、设备和计算机存储介质
CN114218251A (zh) 问答数据的匹配方法、装置、电子设备及存储介质
CN112417310A (zh) 建立智能服务索引以及推荐智能服务的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210511

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant