CN111724774B - 语音交互及车载语音交互方法、装置、设备及存储介质 - Google Patents
语音交互及车载语音交互方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111724774B CN111724774B CN201910223485.3A CN201910223485A CN111724774B CN 111724774 B CN111724774 B CN 111724774B CN 201910223485 A CN201910223485 A CN 201910223485A CN 111724774 B CN111724774 B CN 111724774B
- Authority
- CN
- China
- Prior art keywords
- semantic
- voice information
- density
- semantic density
- pronunciation speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000002085 persistent effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开提出了一种语音交互方法、装置、设备及存储介质。接收用户的第一语音信息;根据第一语音信息的第一特征,调整输出的第二语音信息的第二特征。例如,可以根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。由此,可以为良好的语音交互体验提供技术支持。
Description
技术领域
本公开涉及语音交互领域,特别是涉及一种语音交互及车载语音交互方法、装置、设备及存储介质。
背景技术
在语音交互过程中,对用户的反馈大多数都使用TTS(Text to Speech,语音合成)播报,播报时只是把按照反馈的文本内容所录制的语音文件播放出来,不能个性化地适应使用者的对话习惯,交互体验并不好。
因此,需要一种改进的语音交互方案,以为提升用户的交互体验提供技术支持。
发明内容
本公开的一个目的在于提供一种能够为良好的交互体验提供技术支持的语音交互方案。
根据本公开的第一个方面,提出了一种语音交互方法,包括:接收第一语音信息;根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。
可选地,调整与输出的第二语音信息相关的参数的步骤包括:调整输出的第二语音信息的语义密度和/或发音速度。
可选地,第二语音信息的语义密度与第一语音信息的语义密度相同或相近。
可选地,调整输出的第二语音信息的发音速度的步骤包括:根据语义密度和第一语音信息的第一发音速度,调整输出的第二语音信息的第二发音速度。
可选地,在语义密度低于第一预定阈值的情况下,将第二发音速度调整为低于第一发音速度,并且/或者在语义密度高于第二预定阈值的情况下,将第二发音速度调整为与第一发音速度相同,或者高于第一发音速度。
可选地,调整与输出的第二语音信息相关的参数的步骤包括:根据第一语音信息的语义密度,调整输出的第二语音信息的文本内容。
根据本公开的第二个方面,还提出了一种语音交互方法,包括:接收第一语音信息;根据第一语音信息的第一特征,调整输出的第二语音信息的第二特征。
可选地,第一特征包括发音速度,第二特征包括发音速度和/或语义密度,并且/或者第一特征包括语义密度,第二特征包括发音速度和/或语义密度。
根据本公开的第三个方面,还提出了一种语音交互方法,包括:接收第一语音信息;根据第一语音信息的第一特征,调整第二特征,第二特征根据多个对话语料的特征确定;根据调整后的第二特征,输出第二语音信息,第二语音信息为针对第一语音信息的响应信息。
可选地,调整第二特征的步骤包括:将第一特征与多个对话语料的特征进行比对;根据比对结果,调整第二特征。
可选地,多个对话语料的特征包括发音速度,第二特征包括发音速度和/或语义密度,第一特征包括发音速度和/或语义密度,并且/或者多个对话语料的特征包括语义密度,第二特征包括发音速度和/或语义密度,第一特征包括发音速度和/或语义密度。
根据本公开的第四个方面,还提出了一种车载语音交互方法,包括:接收用户输入的第一语音信息;根据第一语音信息的语义密度,调整向用户反馈的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。
根据本公开的第五个方面,还提出了一种语音交互装置,包括:接收模块,用于接收第一语音信息;调整模块,用于根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。
根据本公开的第六个方面,还提出了一种语音交互装置,包括:接收模块,用于接收第一语音信息;调整模块,用于根据第一语音信息的第一特征,调整输出的第二语音信息的第二特征。
根据本公开的第七个方面,还提出了一种语音交互装置,包括:接收模块,用于接收第一语音信息;调整模块,用于根据第一语音信息的第一特征,调整第二特征,第二特征根据多个对话语料的特征确定;输出模块,用于根据调整后的第二特征,输出第二语音信息,第二语音信息为针对第一语音信息的响应信息。
根据本公开的第八个方面,还提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如本公开第一个方面至第四个方面中任一个方面述及的方法。
根据本公开的第九个方面,还提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如本公开第一个方面至第四个方面中任一个方面述及的方法。
本公开根据用户的语音输入(即第一语音信息)的特征,调整向用户反馈的语音输出(即第二语音信息)的特征,可以实现个性化的语音交互。例如,可以根据语音输入的语义密度,调整与语音输出相关的参数,以使得语音输出可以与语音输入的语义密度相匹配,从而可以提升用户的语音交互体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。
图2A、图2B示出了根据用户语音输入的语义密度调整语音输出的文本内容的简洁程度的示意图。
图3A、图3B示出了根据用户语音输入的语义密度调整语音输出的语速的示意图。
图4示出了根据本公开另一个实施例的语音交互方法的示意性流程图。
图5示出了根据本公开一个实施例的语音交互装置的结构示意图。
图6示出了根据本公开另一个实施例的语音交互装置的结构示意图。
图7示出了根据本公开一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
为了能够为用户提供更为舒适的交互体验,本公开提出,在语音交互过程中,可以根据用户的语音输入(即本公开述及的第一语音信息)的特征(为了便于区分,可以称为“第一特征”),调整向用户反馈的语音输出(即本公开述及的第二语音信息)的特征(为了便于区分,可以称为“第二特征”),以实现个性化的语音交互。
第一特征可以包括但不限于语义密度、发音速度等能够表征用户在语音交互过程中的流畅性的特征。相应地,第二特征可以包括但不限于语义密度、发音速度等特征。
发音速度可以是指单位时间内的音节个数。另外,发音速度也可以指代语速。语速是指单位时间内的字数。在发音速度用于表征单位时间内的音节个数的情况下,发音速度一般与语速成正比,即发音速度越快,语速也就越快。例如,汉字都是单音节的,因此在对话语言是诸如汉语这种单字对应单音节的情况下,发音速度等同于语速。
本公开述及的语义密度与语言学上的语义密度类似。不同之处在于,本公开述及的语义密度表征的是语音信息(第一语音信息或第二语音信息)在单位时间所传达的语义信息量,而语言学上的语义密度主要用于表征单词、单句或一段文本所传达的语义信息量。
根据语言学知识可知,语义密度与挥发性(volatility)成反比,与稳定性成正比,越不容易挥发的成分,就越有稳定性,语义密度也就越高。以汉语为例,一般来说,名词的语义密度最高,动词的语义密度最低,而形容词的语义密度处于名词、动词之间。典型名词的语义密度又高于非典型名词。其中,典型名词是指在三维空间中占据明确边界的有形事物,非典型名词是指一些边界模糊的非固化事物或抽象概念。除了词类与词类之间在语义密度上表现不同,同一词类内部也可以根据语义密度进行划分。例如,状态动词的语义密度一般要高于情态动词。关于语义密度的相关知识可以参见语言学相关文献,本公开不再赘述。
在语音交互过程中,用户的语音输入的语义密度在一定程度上可以反映用户对话过程中的理解或思考的因素。一般情况下,在对话过程中如果用户的思维不集中,或者对当前话题不太理解或不太确定,用户做出的语音输入的语义密度就较低。反之,在对话过程中如果用户的思维集中,或者对当前话题不存在理解上的问题,则用户做出的语音输入的语义密度就较高。
如果不考虑用户的语音输入的语义密度,向用户反馈相同的语音输出,用户的体验并不友好。例如,在用户的语速较快,但语义密度较低的情况下,如果向用户反馈与其语速相同的语音输出,很可能会干扰用户对TTS反馈的理解。
有鉴于此,在本公开的示例性实施例中,可以根据语音输入的语义密度,调整与语音输出相关的参数,以使得语音输出可以与语音输入的语义密度相匹配,从而可以提升用户的语音交互体验。
如下将结合附图及实施例详细说明本公开的技术方案。
图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。其中,图1所示的方法可以由支持语音交互功能的电子设备执行,例如可以由但不限于手机、平板电脑、智能手表、智能音箱等支持语音交互功能的电子设备执行图1所示的方法。另外,图1所示的方法也可以应用于支持语音交互功能的车辆(如车辆中的车载系统),以为车载用户提供个性化的语音交互服务。
参见图1,在步骤S110,接收第一语音信息。
此处述及的第一语音信息可以是指语音交互过程中接收到的用户输入的语音信息。在接收到第一语音信息后,可以对第一语音信息进行分析,以确定第一语音信息的语义密度。关于语义密度可以参见上文相关描述,此处不再赘述。
在步骤S120,根据第一语音信息的语义密度,调整与输出的第二语音信息相关的参数。
第二语音信息可以是指向用户反馈的系统语音输出,即TTS输出。第二语音信息可以视为针对第一语音信息的响应信息。与第二语音信息相关的参数,也即能够影响用户的交互体验的参数,可以包括但不限于语义密度和/或发音速度。调整参数的目的是为了使得基于调整后的参数进行语音交互时,能够提升用户的交互体验。
在本公开的一个实施例中,可以根据第一语音信息的语义密度,调整输出的第二语音信息的语义密度。其中,第二语音信息的语义密度可以与第一语音信息的语义密度相同或类似。例如,在对话过程中如果用户的思维不集中,或者对当前话题不太理解或不太确定,用户做出的语音输入的语义密度就较低,因此在接收到的第一语音信息的语义密度较低(如低于第一预定阈值)的情况下,可以向用户反馈语义密度同样较低的第二语音信息,以使得用户能够充分理解向其反馈的语音信息。再例如,在对话过程中如果用户的思维集中,或者对当前话题不存在理解上的问题,则用户做出的语音输入的语义密度就较高,因此在接收到的第一语音信息的语义密度较大(如高于第二阈值)的情况下,可以向用户反馈语义密度较高的第二语音信息,以适应用户的对话习惯,使得用户的交互体验更流畅自然。
根据上文对语义密度的定义可知,语义密度的大小与文本内容所包括的语义信息量以及语速有关,因此可以针对这两方面进行调节,以达到调整第二语音信息的语义密度的目的。
作为示例,可以根据第一语音信息的语义密度,调整输出的第二语音信息的文本内容。此处述及的“调整输出的第二语音信息的文本内容”,是指在“简洁程度和/或易理解程度”这一方面对第二语音信息的文本内容进行“形式调整”,而非在“语义”方面对反馈的第二语音信息的文本内容进行调整。也就是说,向用户反馈的第二语音信息的文本内容是由预先设定的对话逻辑确定的,本公开只是根据第一语音信息的语义密度,对第二语音信息的文本内容的简洁程度和/或易理解程度进行调整,以使得调整后的第二语音信息的简洁程度和/或易理解程度能够更好地适应用户。其中,第二语音信息的文本内容的简洁程度和/或易理解程度,与第一语音信息的语义密度成反比例关系。也就是说,第一语音信息的语义密度越小,输出的第二语音信息的文本内容也就越简洁,易理解程度越高。例如,可以设定一个阈值,在第一语音信息的语义密度低于该阈值的情况下,可以对向用户反馈的第二语音信息的文本内容进行简化处理,将简化后的文本内容以TTS的方式进行输出。再例如,也可以录制不同简洁程度或易理解程度的TTS语句,根据第一语音信息的语义密度,向用户反馈与第一语音信息的语义密度相匹配的简洁程度或易理解程度的TTS语句。
一般情况下,文本所包括的信息量(如字数)越多,文本内容越不简洁,其易理解程度也就越低。因此,作为可选实施例,可以根据第一语音信息的语义密度,调整输出的第二语音信息的文本内容的信息量(如字数)。其中,第二语音信息的文本内容的信息量(如字数)与语义密度之间为正比例关系,即第一语音信息的语义密度越低,第二语音信息的文本内容的信息量(如字数)越小。
如图2A所示,假设用户的第一语音信息为:“我想换首…嗯…曲风…轻快一点的歌曲”,其中“…”表示空白的时间间隔,显然该第一语音信息的语义密度较低,用户当前处于思考状态,因此可以向用户输出诸如“粉红色的回忆怎么样”这一文本内容简洁的TTS语句,以与用户当前的对话状态相匹配。
如图2B所示,假设用户的第一语音信息为:“换首轻快的歌”,该第一语音信息的语义密度较高,因此TTS可以向用户输出诸如“你觉得粉红色的回忆怎么样”这一文本内容较为完整(也即相对来说简洁程度较低)的TTS语句,以与用户当前的对话状态相匹配。
在本公开的另一个实施例中,也可以根据第一语音信息的语义密度,调整输出的第二语音信息的发音速度。例如,第二语音信息的发音速度可以与第一语音信息的语义密度成正比例关系,即第一语音信息的语义密度越大,第二语音信息的发音速度越大。
如图3A所示,假设用户的第一语音信息为:“我想换首…嗯…曲风…轻快一点的歌曲”,其中“…”表示空白的时间间隔,显然该第一语音信息的语义密度较低,因此TTS可以向用户输出发音速度较慢的TSS语句,例如可以向用户输出“粉~红~色~的~回~忆~怎~么~样”这一发音速度较慢的TTS语句。其中,“~”表示相邻语音输出的文字间具有一定的时间间隔,即发音速度较慢。
如图3B所示,假设用户的第一语音信息为:“换首轻快的歌”,该第一语音信息的语义密度较高,因此可以向用户输出发音速度较快的TSS语句,例如,在输出文本为“粉红色的回忆怎么样”的情况下,可以按照与用户的第一语音信息相同的语速播放该语句。
在本公开的另一个实施例中,还可以根据第一语音信息的语义密度和第一语音信息的发音速度(为了便于区分,可以称为“第一发音速度”),调整第二语音信息的发音速度(为了便于区分,可以称为“第二发音速度”)。例如,可以在语义密度低于第一预定阈值的情况下,将第二发音速度调整为低于第一发音速度,并且/或者在语义密度高于第二预定阈值的情况下,将第二发音速度调整为与第一发音速度相同,或者高于第一发音速度。其中,第一预定阈值和第二预定阈值可以根据实际情况设定,此处不再赘述。
在本公开的示例性实施例中,通过根据第一语音信息的语义密度,调整与语音输出相关的参数,使得语音输出可以与第一语音信息的语义密度相匹配,从而可以提升用户的语音交互体验。
图4示出了根据本公开另一个实施例的语音交互方法的示意性流程图。其中,图4所示的方法可以由支持语音交互功能的电子设备执行,例如可以由但不限于手机、平板电脑、智能手表、智能音箱等电子设备执行图4所示的方法。另外,图4所示的方法也可以应用于支持语音交互功能的车载系统,以为车载用户提供个性化的语音交互服务。
参见图4,在步骤S410,接收第一语音信息。
在步骤S420,根据第一语音信息的第一特征,调整第二特征。
关于第一语音信息、第一特征,可以参见上文相关描述,此处不再赘述。第二特征可以是根据多个对话语料预先确定的特征,第二特征可以包括但不限于语义密度、发音速度(也即语音输出的发音速度)等特征。此处述及的第二特征可以是根据多个对话语料的特征而设定的TTS参数信息,也即第二特征可以视为TTS默认参数。
第二特征的一种示例性设定过程如下:
可以对多个对话语料进行分析,以确定多个对话语料的特征。多个对话语料可以是指大量用户的日常对话录音语料。多个对话语料的特征可以包括但不限于语义密度、发音速度等能够表征群体用户在语音交互过程中的流畅性的特征。作为示例,可以从每个对话语料中提取发音速度、语义密度等特征,并进行均值处理,得到能够表征整体用户的发音速度、语义密度的语义速度特征常模。语义速度特征常模所包括的发音速度和语义密度即为多个对话语料的特征。
根据多个对话语料的特征,可以设定第二特征。作为示例,可以将第二特征设定为与多个对话语料的特征相同或相近。例如,可以根据多个对话语料的平均发音速度,设定向用户反馈的语音输出的发音速度。也可以根据多个对话的平均语义密度,设定向用户反馈的语音输出的语义密度,或者是设定向用户反馈的语音输出的内容的简洁程度(或易理解程度,也可以用信息量表征)。
对于在与用户进行语音交互的过程中接收到的第一语音信息,可以根据第一语音信息的第一特征,调整第二特征,以使得向用户反馈的语音输出(即第二语音信息)的第二特征能与用户的个性化对话特征相匹配。其中,关于第一特征、第二特征以及调整过程可以参见上文结合图1的相关描述,此处不再赘述。
作为示例,可以将第一特征与多个对话语料的特征进行比对,根据比对结果,调整第二特征。例如,可以根据第一特征与多个对话语料的特征之间的差异度(也即差异指数),相应地调整第二特征,以使得第二特征与个体用户的对话特征相匹配。
以第一特征包括语义密度为例,可以根据用户的第一语音信息的语义密度与多个对话语料的语义密度的差值,调整向用户反馈的第二语音信息的内容的简洁程度。也可以根据用户的第一语音信息的语义密度与多个对话语料的语义密度的差值,调整第二语音信息的语义密度或发音速度。还可以根据第一语音信息的语义密度与多个对话语料的语义密度的差值,以及第一语音信息的发音速度与多个对话语料的发音速度的差值,调整第二语音信息的语义密度和/或发音速度。
在步骤S430,根据调整后的第二特征,输出第二语音信息。
第二语音信息可以视为针对第一语音信息的响应信息。第二语音信息是按照调整后的第二特征输出的,而第二特征又是根据用户的第一语音信息的第一特征调整的,因此向用户反馈的第二语音信息与用户当前的对话状态相匹配,从而可以增强用户的个性化语音交互体验。
至此,结合图1至图5就本公开的语音交互方法的实现过程做了详细说明。本公开的语音交互方法可以应用于多种语音交互场景,如可以由但不限于手机、平板电脑、智能手表、智能音箱等支持语音交互功能的电子设备执行本公开的语音交互方法,以为用户提供个性化的语音交互服务。
以应用于车载场景为例,用户(即驾驶员)在驾驶车辆过程中,根据路况复杂度不同,或者用户对路线的熟悉程度不同,用户需要将不同程度的精力放在观察路况方面。在利用本公开的语音交互方案为用户提供语音交互服务时,可以根据接收到的用户的第一语音信息的特征,调整向用户反馈的第二语音信息的特征,如此可以使得向用户反馈的语音输出与用户当前的对话状态相匹配,用户更易于理解当前反馈的语音输出,从而不至于因理解障碍导致用户将更多的注意力放在语音交互上,而造成危险驾驶。
图5示出了根据本公开一个实施例的语音交互装置的结构示意图。其中,语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图5所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就语音交互装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图5,语音交互装置500包括接收模块510和调整模块520。
接收模块510用于接收用户的第一语音信息,调整模块520用于根据第一语音信息的第一特征,调整向用户反馈的第二语音信息的第二特征。关于第一特征、第二特征可以参见上文相关描述,此处不再赘述。
在本公开一个实施例中,调整模块520可以根据第一语音信息的语义密度,调整与语音输出相关的参数,其中,语义密度用于表征第一语音信息在单位时间内传达的语义信息量。例如,调整模块520可以根据第一语音信息的语义密度,调整语音输出的语义密度和/或发音速度。
可选地,调整模块520可以根据第一语音信息的语义密度,调整输出的第二语音信息的文本内容。具体调整过程可以参见上文相关描述。
可选地,调整模块520还可以根据语义密度和第一语音信息的第一发音速度,调整第二语音信息的第二发音速度。例如,调整模块520可以在语义密度低于第一预定阈值的情况下,将第二发音速度调整为低于第一发音速度,并且/或者调整模块520也可以在语义密度高于第二预定阈值的情况下,将第二发音速度调整为与第一发音速度相同,或者高于第一发音速度。
根据本公开示例性实施例的语音交互装置500的具体实现方式可以参照结合图1描述的相关具体实现方式来实现,在此不再赘述。
图6示出了根据本公开另一个实施例的语音交互装置的结构示意图。其中,语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图6所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就语音交互装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图6,语音交互装置600包括接收模块610、调整模块620以及输出模块630。
接收模块630用于接收用户的第一语音信息,调整模块640用于根据第一语音信息的第一特征,调整第二特征,第二特征根据多个对话语料的特征确定。例如,调整模块640可以将第一特征与多个对话语料的特征进行比对,根据比对结果,调整第二特征。输出模块630用于根据调整后的第二特征,输出第二语音信息,第二语音信息为针对第一语音信息的响应信息。
根据本公开示例性实施例的语音交互装置600的具体实现方式可以参照结合图4描述的相关具体实现方式来实现,在此不再赘述。
本公开的语音交互装置可以应用于多种交互场景,以应用于车载语音交互场景为例,语音交互装置还可以实现为一种车载语音交互装置。关于车载语音交互装置所具有的功能模块及各功能模块可以执行的操作,可以参见上文对语音交互装置的相关描述,此处不再赘述。
图7示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器710可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器710上存储有可执行代码,当可执行代码被处理器720处理时,可以使处理器720执行上文述及的语音交互方法。
上文中已经参考附图详细描述了根据本公开的语音交互方法、装置及设备。
此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本公开的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (13)
1.一种语音交互方法,其特征在于,包括:
接收第一语音信息;
根据所述第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量;
所述调整与输出的第二语音信息相关的参数的步骤包括:
调整输出的第二语音信息的语义密度和/或发音速度。
2.根据权利要求1所述的语音交互方法,其特征在于,
所述第二语音信息的语义密度与所述第一语音信息的语义密度相同或相近。
3.根据权利要求1所述的语音交互方法,其特征在于,调整输出的第二语音信息的发音速度的步骤包括:
根据所述语义密度和所述第一语音信息的第一发音速度,调整输出的第二语音信息的第二发音速度。
4.根据权利要求3所述的语音交互方法,其特征在于,
在所述语义密度低于第一预定阈值的情况下,将所述第二发音速度调整为低于所述第一发音速度,并且/或者
在所述语义密度高于第二预定阈值的情况下,将所述第二发音速度调整为与所述第一发音速度相同,或者高于所述第一发音速度。
5.根据权利要求1所述的语音交互方法,其特征在于,所述调整与输出的第二语音信息相关的参数的步骤包括:
根据所述第一语音信息的语义密度,调整输出的第二语音信息的文本内容。
6.一种语音交互方法,其特征在于,包括:
接收第一语音信息;
根据所述第一语音信息的第一特征,调整输出的第二语音信息的第二特征;
所述第一特征包括发音速度,所述第二特征包括发音速度和语义密度,或者
所述第一特征包括发音速度,所述第二特征包括语义密度,或者
所述第一特征包括语义密度,所述第二特征包括发音速度和/或语义密度,或者
所述第一特征包括发音速度和语义密度,所述第二特征包括发音速度和/或语义密度;
所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量。
7.一种语音交互方法,其特征在于,包括:
接收第一语音信息;
根据所述第一语音信息的第一特征,调整第二特征,所述第二特征根据多个对话语料的特征确定;
根据调整后的第二特征,输出第二语音信息,所述第二语音信息为针对所述第一语音信息的响应信息;
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括语义密度,或者
所述多个对话语料的特征包括语义密度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度和语义密度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和/或语义密度;
所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量。
8.根据权利要求7所述的语音交互方法,其特征在于,所述调整第二特征的步骤包括:
将所述第一特征与所述多个对话语料的特征进行比对;
根据比对结果,调整所述第二特征。
9.一种车载语音交互方法,其特征在于,包括:
接收用户的第一语音信息;
根据所述第一语音信息的语义密度,调整向用户反馈的第二语音信息相关的参数,其中,所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量;
所述调整与输出的第二语音信息相关的参数的步骤包括:
调整输出的第二语音信息的语义密度和/或发音速度。
10.一种语音交互装置,其特征在于,包括:
接收模块,用于接收第一语音信息;
调整模块,用于根据所述第一语音信息的语义密度,调整与输出的第二语音信息相关的参数,其中,所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量;
所述调整与输出的第二语音信息相关的参数的步骤包括:
调整输出的第二语音信息的语义密度和/或发音速度。
11.一种语音交互装置,其特征在于,包括:
接收模块,用于接收第一语音信息;
调整模块,用于根据所述第一语音信息的第一特征,调整第二特征,所述第二特征根据多个对话语料的特征确定;
输出模块,用于根据调整后的第二特征,输出第二语音信息,所述第二语音信息为针对所述第一语音信息的响应信息;
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和语义密度,或者
所述多个对话语料的特征包括发音速度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括语义密度,或者
所述多个对话语料的特征包括语义密度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和/或语义密度,或者
所述多个对话语料的特征包括发音速度和语义密度,所述第二特征包括发音速度和/或语义密度,所述第一特征包括发音速度和/或语义密度;
所述语义密度用于表征所述第一语音信息或所述第二语音信息在单位时间内传达的语义信息量。
12.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至9中任何一项所述的方法。
13.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223485.3A CN111724774B (zh) | 2019-03-22 | 2019-03-22 | 语音交互及车载语音交互方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910223485.3A CN111724774B (zh) | 2019-03-22 | 2019-03-22 | 语音交互及车载语音交互方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111724774A CN111724774A (zh) | 2020-09-29 |
CN111724774B true CN111724774B (zh) | 2024-05-17 |
Family
ID=72562762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910223485.3A Active CN111724774B (zh) | 2019-03-22 | 2019-03-22 | 语音交互及车载语音交互方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724774B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142484A (ja) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | 音声対話方法及びそのシステム |
WO2015149359A1 (zh) * | 2014-04-04 | 2015-10-08 | 华为终端有限公司 | 一种自动调节音量的方法、音量调节装置及电子设备 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN205388850U (zh) * | 2015-12-30 | 2016-07-20 | 上海仪电鑫森科技发展有限公司 | 心理辅导生态系统 |
CN107545029A (zh) * | 2017-07-17 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 智能设备的语音反馈方法、设备及可读介质 |
CN108027952A (zh) * | 2015-09-18 | 2018-05-11 | 三星电子株式会社 | 用于提供内容的方法和电子设备 |
WO2018102980A1 (zh) * | 2016-12-06 | 2018-06-14 | 吉蒂机器人私人有限公司 | 语音交互方法、装置及系统 |
CN109074237A (zh) * | 2016-04-05 | 2018-12-21 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
-
2019
- 2019-03-22 CN CN201910223485.3A patent/CN111724774B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142484A (ja) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | 音声対話方法及びそのシステム |
WO2015149359A1 (zh) * | 2014-04-04 | 2015-10-08 | 华为终端有限公司 | 一种自动调节音量的方法、音量调节装置及电子设备 |
CN108027952A (zh) * | 2015-09-18 | 2018-05-11 | 三星电子株式会社 | 用于提供内容的方法和电子设备 |
CN205388850U (zh) * | 2015-12-30 | 2016-07-20 | 上海仪电鑫森科技发展有限公司 | 心理辅导生态系统 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN109074237A (zh) * | 2016-04-05 | 2018-12-21 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
WO2018102980A1 (zh) * | 2016-12-06 | 2018-06-14 | 吉蒂机器人私人有限公司 | 语音交互方法、装置及系统 |
CN107545029A (zh) * | 2017-07-17 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 智能设备的语音反馈方法、设备及可读介质 |
Non-Patent Citations (1)
Title |
---|
人机语音对话技术;马雄鸣;科学中国人;19971231(第07期);第9-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111724774A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610695B (zh) | 驾驶人语音唤醒指令词权重的动态调整方法 | |
US10629223B2 (en) | Fast playback in media files with reduced impact to speech quality | |
CN110534088A (zh) | 语音合成方法、电子装置及存储介质 | |
US10747497B2 (en) | Audio stream mixing system and method | |
CN110399315B (zh) | 一种语音播报的处理方法、装置、终端设备及存储介质 | |
CN113724686B (zh) | 编辑音频的方法、装置、电子设备及存储介质 | |
CN109545194A (zh) | 唤醒词预训练方法、装置、设备及存储介质 | |
US9286287B1 (en) | Reference content determination from audio content | |
CN111464876A (zh) | 翻译文本字幕流式展示方法、装置以及设备 | |
CN111292737A (zh) | 语音交互及语音唤醒检测方法、装置、设备及存储介质 | |
CN101465146B (zh) | 播放媒体文件的方法和设备 | |
KR20150088564A (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
CN109213468B (zh) | 一种语音播放方法和装置 | |
CN111724774B (zh) | 语音交互及车载语音交互方法、装置、设备及存储介质 | |
CN111259135A (zh) | 文本的显示方法、提词器及提词系统 | |
WO2022132419A1 (en) | Augmented training data for end-to-end models | |
Warner | Reduced speech: All is variability | |
KR101257306B1 (ko) | 전자책 서비스 방법 및 장치 | |
JP7229296B2 (ja) | 関連情報提供方法及びシステム | |
JP2016012315A (ja) | テキストデータの分かち書き単位分割プログラム及び電子図書再生装置 | |
CN114842828A (zh) | 一种合成语音的音量控制方法及装置 | |
CN112562430B (zh) | 辅助阅读方法、视频播放方法、装置、设备及存储介质 | |
US20200349190A1 (en) | Interactive music on-demand method, device and terminal | |
CN110516043A (zh) | 用于问答系统的答案生成方法和装置 | |
JP6752046B2 (ja) | 電子機器、その制御方法および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201111 Address after: Room 603, 6 / F, Roche Plaza, 788 Cheung Sha Wan Road, Kowloon, China Applicant after: Zebra smart travel network (Hong Kong) Ltd. Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Applicant before: Alibaba Group Holding Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |