CN111128121A - 语音信息生成方法和装置、电子设备和存储介质 - Google Patents

语音信息生成方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111128121A
CN111128121A CN201911328649.5A CN201911328649A CN111128121A CN 111128121 A CN111128121 A CN 111128121A CN 201911328649 A CN201911328649 A CN 201911328649A CN 111128121 A CN111128121 A CN 111128121A
Authority
CN
China
Prior art keywords
slot
current object
slot position
text template
introduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911328649.5A
Other languages
English (en)
Other versions
CN111128121B (zh
Inventor
王江月
郝梦圆
尚尔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN201911328649.5A priority Critical patent/CN111128121B/zh
Publication of CN111128121A publication Critical patent/CN111128121A/zh
Application granted granted Critical
Publication of CN111128121B publication Critical patent/CN111128121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本公开实施例公开了一种语音信息生成方法和装置、电子设备和存储介质,其中,方法包括:获取当前对象对应于预设文本模板中各槽位的槽位值;所述预设文本模板中包括至少一个槽位;将所述预设文本模板拆分为句子;将获取到的槽位值分别填充在对应的槽位中;分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。本公开实施例可以自动生成项目的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户,有效满足用户的信息获取需求;另外,可以提高用户体验,从而提高项目的介绍效果和推荐效果。

Description

语音信息生成方法和装置、电子设备和存储介质
技术领域
本公开涉及数据处理技术,尤其是一种语音信息生成方法和装置、电子设备和存储介质。
背景技术
移动互联网时代极大地丰富了用户获取信息的方式,用户可以通过互联线上浏览各种商品、产品、服务等项目,并在其详情页上浏览其介绍信息。由于项目详细介绍信息的信息量较大,而受限于移动互联网交互页面的尺寸,用户通过移动互联网线上浏览项目时通常只能获取其基础信息,而难以获取到完整、清晰的项目信息,从而无法满足用户的需求。
如果用户对移动互联网线上浏览的项目等感兴趣,会线下进一步查看感兴趣的项目,以便进一步了解感兴趣的项目。而由于项目介绍人员的个人能力差异,并且同一介绍人员可能会负责多项规格、性能不同的项目,可能会记错项目的介绍信息甚至出现忘记项目的介绍信息的情况,从而无法准确的提供项目的介绍信息,无法实现对项目的推荐效果,也无法满足用户的需求,降低了用户体验。
例如,对于房产交易领域,用户可以足不出户,在各类中介应用(如贝壳找房、安居客等)上浏览房源。在房源详情页可以看到房源价格、建筑面积、建成年代等基本信息。如果用户对浏览房源较为满意,会通过经纪人发起线下带看,进一步了解房源及周边的实际情况。由于每个经纪人会负责多套房源,由于经纪人个人能力,会出现房源信息记错甚至忘记的情况,从而无法向用户提供各房源的准确、完整的介绍信息。
发明内容
本公开实施例提供一种语音信息生成方法和装置、电子设备和存储介质,用于生成准确的项目介绍信息。
本公开实施例的一个方面,提供一种语音信息生成方法,包括:
获取当前对象对应于预设文本模板中各槽位的槽位值;所述预设文本模板中包括至少一个槽位;
将所述预设文本模板拆分为句子;
将获取到的槽位值分别填充在对应的槽位中;
分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成方法实施例中,所述获取当前对象对应于所述预设文本模板中各槽位的槽位值,包括:
基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,其中,所述第一数据库包括至少一个对象对应于各槽位的槽位值,每个对象ID唯一标识一个对象;或者,
接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值。
可选地,在本公开任一语音信息生成方法实施例中,所述预设文本模板中的每个槽位上分别设置有唯一标识该槽位的槽位ID;
所述基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,包括:基于当前对象的对象标识ID和所述预设文本模板中每个槽位上的槽位ID,从所述第一数据库中获取当前对象对应于所述预设文本模板中各槽位的槽位值;
所述接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值,包括:接收用户针对当前对象设置的对象ID、和针对各槽位和/或槽位ID设置的槽位值。
可选地,在本公开任一语音信息生成方法实施例中,所述预设文本模板包括多个介绍板块的文本模板,每个介绍板块包括至少一个介绍点。
可选地,在本公开任一语音信息生成方法实施例中,所述获取当前对象对应于所述预设文本模板中各槽位的槽位值之后,还包括:
从所述多个介绍板块中确定所述当前对象的至少一个待介绍点;
确定所述至少一个待介绍点之间的顺序;
基于所述至少一个待介绍点之间的顺序和所述至少一个待介绍点的文本模板,得到所述当前对象的文本模板;所述当前对象的文本模板包括具有一定顺序的所述至少一个待介绍点的文本模板;
所述将所述预设文本模板拆分为句子,包括:将所述当前对象的文本模板拆分为句子。
可选地,在本公开任一语音信息生成方法实施例中,所述确定所述至少一个待介绍点之间的顺序,包括:
通过隐马尔可夫模型HMM、最大熵模型MaxEnt、条件随机场算法CRF或者神经网络模型确定所述至少一个待介绍点之间的顺序。
可选地,在本公开任一语音信息生成方法实施例中,所述从所述多个介绍板块中确定所述当前对象的至少一个待介绍点,包括:
基于预先设置的名单,对所述当前对象对应于所述预设文本模板中各槽位的槽位值进行筛选;
从所述多个介绍板块包括的介绍点中去除被筛选掉的槽位值和所述被筛选掉的槽位值对应的槽位所属的介绍点,得到所述至少一个待介绍点。
可选地,在本公开任一语音信息生成方法实施例中,所述将所述预设文本模板拆分为句子之前,还包括:
分别将所述各槽位的槽位值对应的预设常识信息加入相应待介绍点的文本模板中,并基于预设语法调整所述当前对象的文本模板的表述方式;和/或,
基于相邻的两个所述待介绍点的文本模板中槽位的槽位值,对所述相邻的两个所述介绍点的文本模板进行衔接处理。
可选地,在本公开任一语音信息生成方法实施例中,还包括:
对衔接处理后的所述当前对象的文本模板中的重复性内容进行简化处理。
可选地,在本公开任一语音信息生成方法实施例中,所述将获取到的槽位值分别填充在对应的槽位中之后,还包括:
对于同一槽位中包括的多个槽位值,按照预设表述方式表述同一槽位中包括的多个槽位值。
可选地,在本公开任一语音信息生成方法实施例中,所述分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,包括:
分别以填充槽位值后的各句子作为当前句子,基于所述当前句子的文本内容、所述当前句子的语音特征和所述当前句子的前一个相邻句子的文本内容,生成所述当前句子的特征信息编码;
将所述当前句子的前一个相邻句子和所述当前句子转换为语音,并从所述语音中裁剪出所述当前句子的语音片段。
可选地,在本公开任一语音信息生成方法实施例中,所述基于所述各句子的语音片段得到所述当前对象的语音介绍信息,包括:
按照所述各句子在所述当前对象的文本模板中的顺序对所述各句子对应的语音片段进行拼接,并基于预设规则在任意相邻的两个句子的语音片段之间插入相应的间隔时长,得到所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成方法实施例中,所述预设文本模板中包括至少一个动作ID,每个动作ID唯一标识一个视频动作;
所述将填充槽位值后的各句子转换为语音之前,还包括:
去除所述预设文本模板中的动作ID。
可选地,在本公开任一语音信息生成方法实施例中,所述得到各句子的语音片段之后,还包括:
根据所述句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开任一语音信息生成方法实施例中,包括所述动作ID的句子对应的语音片段以及与相邻语音片段之间的间隔时长,与根据所述动作ID生成相应的视频动作控制信息所控制的视频动作匹配。
可选地,在本公开任一语音信息生成方法实施例中,所述从所述语音中裁剪出所述当前句子的语音片段之后,还包括:
在第二数据库中存储所述当前句子的特征信息编码和语音片段之间的对应关系。
可选地,在本公开任一语音信息生成方法实施例中,基于所述各句子的语音片段得到所述当前对象的语音介绍信息,包括:
获取所述当前对象的文本介绍信息,所述当前对象的文本介绍信息包括多个文本句子;
分别以所述文本介绍信息中各文本句子作为当前文本句子,基于所述当前文本句子的文本内容和语音特征、以及所述当前文本句子的前一个相邻文本句子的文本内容,生成所述当前文本句子的特征信息编码;从所述第二数据库中获取所述当前文本句子的特征信息编码对应的语音片段作为所述当前文本句子的语音片段;
基于所述各文本句子对应的语音片段生成所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成方法实施例中,所述至少一个所述文本句子中包括动作ID;
所述从所述第二数据库中获取所述当前文本句子的特征信息编码对应的语音片段作为所述当前文本句子的语音片段之后,还包括:
根据所述文本句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的文本句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开任一语音信息生成方法实施例中,所述视频动作控制信息包括控制播放所述当前对象的视频素材的视频动作的信息,所述视频动作包括以下任意一项或多项:播放指定视频素材,切换视频素材,旋转或移动播放视角,放大或缩小视频素材,在视频素材中指示特定对象、位置和/或距离。
可选地,在本公开任一语音信息生成方法实施例中,所述当前对象为房源;
所述视频素材包括以下任意一项或多项:VR视频,户型图,所述房源所在小区的视频或图像,所述房源在地图上的地理位置,所述房源周边的各兴趣点在地图上的地理位置和/或与所述房源之间的距离。
本公开实施例的另一个方面,提供一种语音信息生成装置,包括:
第一获取模块,用于获取介绍信息的文本模板;所述预设文本模板中包括至少一个槽位;
第二获取模块,用于获取当前对象对应于所述预设文本模板中各槽位的槽位值;
拆分模块,用于将所述预设文本模板拆分为句子;
填充模块,用于将所述第二获取模块获取到的槽位值分别填充在对应的槽位中;
转换模块,用于分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成装置实施例中,所述第二获取模块,具体用于:
基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,其中,所述第一数据库包括至少一个对象对应于各槽位的槽位值,每个对象ID唯一标识一个对象;或者,
接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值。
可选地,在本公开任一语音信息生成装置实施例中,所述预设文本模板中的每个槽位上分别设置有唯一标识该槽位的槽位ID;
所述第二获取模块,具体用于:
基于当前对象的对象标识ID和所述预设文本模板中每个槽位上的槽位ID,从所述第一数据库中获取当前对象对应于所述预设文本模板中各槽位的槽位值;或者,
接收用户针对当前对象设置的对象ID、和针对各槽位和/或槽位ID设置的槽位值。
可选地,在本公开任一语音信息生成装置实施例中,所述预设文本模板包括多个介绍板块的文本模板,每个介绍板块包括至少一个介绍点。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
第一确定模块,用于从所述多个介绍板块中确定所述当前对象的至少一个待介绍点;
第二确定模块,用于确定所述至少一个待介绍点之间的顺序;
第三获取模块,用于基于所述至少一个待介绍点之间的顺序和所述至少一个待介绍点的文本模板,得到所述当前对象的文本模板;所述当前对象的文本模板包括具有一定顺序的所述至少一个待介绍点的文本模板;
所述拆分模块,具体用于:将所述当前对象的文本模板拆分为句子。
可选地,在本公开任一语音信息生成装置实施例中,所述第二确定模块,具体用于:
通过隐马尔可夫模型HMM、最大熵模型MaxEnt、条件随机场算法CRF或者神经网络模型确定所述至少一个待介绍点之间的顺序。
可选地,在本公开任一语音信息生成装置实施例中,所述第一确定模块,具体用于:
基于预先设置的名单,对所述当前对象对应于所述预设文本模板中各槽位的槽位值进行筛选;
从所述多个介绍板块包括的介绍点中去除被筛选掉的槽位值和所述被筛选掉的槽位值对应的槽位所属的介绍点,得到所述至少一个待介绍点。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
第一处理模块,用于分别将所述各槽位的槽位值对应的预设常识信息加入相应待介绍点的文本模板中,并基于预设语法调整所述当前对象的文本模板的表述方式;和/或,
第二处理模块,用于基于相邻的两个所述待介绍点的文本模板中槽位的槽位值,对所述相邻的两个所述介绍点的文本模板进行衔接处理。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
第三处理模块,用于对衔接处理后的所述当前对象的文本模板中的重复性内容进行简化处理。
可选地,在本公开任一语音信息生成装置实施例中,所述填充模块,还用于:
对于同一槽位中包括的多个槽位值,按照预设表述方式表述同一槽位中包括的多个槽位值。
可选地,在本公开任一语音信息生成装置实施例中,所述转换模块包括:
生成单元,用于分别以填充槽位值后的各句子作为当前句子,基于所述当前句子的文本内容、所述当前句子的语音特征和所述当前句子的前一个相邻句子的文本内容,生成所述当前句子的特征信息编码;
转换单元,用于将所述当前句子的前一个相邻句子和所述当前句子转换为语音,并从所述语音中裁剪出所述当前句子的语音片段。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
拼接模块,用于按照所述各句子在所述当前对象的文本模板中的顺序对所述各句子对应的语音片段进行拼接,并基于预设规则在任意相邻的两个句子的语音片段之间插入相应的间隔时长,得到所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成装置实施例中,所述预设文本模板中包括至少一个动作ID,每个动作ID唯一标识一个视频动作;
所述装置还包括:
去除模块,用于去除所述预设文本模板中的动作ID。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
第一生成模块,用于根据所述句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开任一语音信息生成装置实施例中,包括所述动作ID的句子对应的语音片段以及与相邻语音片段之间的间隔时长,与根据所述动作ID生成相应的视频动作控制信息所控制的视频动作匹配。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
存储处理模块,用于在第二数据库中存储所述当前句子的特征信息编码和语音片段之间的对应关系;
所述第二数据库,用于存储至少一个句子的特征信息编码和语音片段之间的对应关系。
可选地,在本公开任一语音信息生成装置实施例中,还包括:
第四获取模块,用于获取所述当前对象的文本介绍信息,所述当前对象的文本介绍信息包括多个文本句子;
第二生成模块,用于分别以所述文本介绍信息中各文本句子作为当前文本句子,基于所述当前文本句子的文本内容和语音特征、以及所述当前文本句子的前一个相邻文本句子的文本内容,生成所述当前文本句子的特征信息编码;
第五获取模块,用于从所述第二数据库中获取所述当前文本句子的特征信息编码对应的语音片段作为所述当前文本句子的语音片段;
第三生成模块,用于基于所述各文本句子对应的语音片段生成所述当前对象的语音介绍信息。
可选地,在本公开任一语音信息生成装置实施例中,所述至少一个所述文本句子中包括动作ID;
所述装置还包括:
第四生成模块,用于根据所述文本句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的文本句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开任一语音信息生成装置实施例中,所述视频动作控制信息包括控制播放所述当前对象的视频素材的视频动作的信息,所述视频动作包括以下任意一项或多项:播放指定视频素材,切换视频素材,旋转或移动播放视角,放大或缩小视频素材,在视频素材中指示特定对象、位置和/或距离。
可选地,在本公开任一语音信息生成装置实施例中,所述当前对象为房源;
所述视频素材包括以下任意一项或多项:VR视频,户型图,所述房源所在小区的视频或图像,所述房源在地图上的地理位置,所述房源周边的各兴趣点在地图上的地理位置和/或与所述房源之间的距离。
本公开实施例的又一个方面,提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的方法。
本公开实施例的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的方法。
基于本公开上述实施例提供的语音信息生成方法和装置、电子设备和存储介质,可以获取当前对象对应于文本模板中各槽位的槽位值,并将该文本模板拆分为句子,然后,将获取到的槽位值分别填充在对应的槽位中,进而,分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于各句子的语音片段得到当前对象的语音介绍信息,本公开实施例可以自动生成项目的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户,不再受限于移动互联网交互页面的尺寸,使得用户可以完整、清晰的项目信息,有效满足用户的信息获取需求;另外,由于同样时间内语音传递的信息量相对较大,使用户可以在同样时间内得到较丰富的信息,提高用户体验,提高项目的介绍效果和推荐效果。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开语音信息生成方法一个实施例的流程图。
图2为本公开语音信息生成方法另一个实施例的流程图。
图3为本公开语音信息生成方法又一个实施例的流程图。
图4为本公开语音信息生成装置一个实施例的结构示意图。
图5为本公开语音信息生成装置另一个实施例的结构示意图。
图6为本公开语音信息生成装置再一个实施例的结构示意图。
图7为本公开电子设备一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本公开语音信息生成方法一个实施例的流程图。如图1所示,该实施例的语音信息生成方法包括:
102,获取当前对象对应于预设文本模板中各槽位的槽位值。
其中,可以预先获取该预设文本模板,该预设文本模板中包括至少一个槽位。
可选地,在本公开实施例中的当前对象可以是任意的商品、产品、服务等项目。
本公开实施例中,可以针对同一类项目设置一个统一的、可形成项目的完整介绍信息的文本模板(即文本形式的介绍模板),文本模板包括两类句子,一类是包括槽位的句子,另一种是不包括槽位的句子。其中,槽位是指句子为要填写的具体信息(即槽位值)预留的位置。例如,句子“距离最近的小区是”中“”是槽位。槽位的类型可以根据项目的类型确定,例如在当前对象为房源时,文本模板中的槽位主要有以下三类种:名称类(name),距离类(dist),离小区最近的目标名称类(nearest)。可以在信息数据库中预先采集并设置同一项目中的各对象分别对应于文本模板中各槽位的槽位值,可以通过在文本模板中各槽位设置槽位ID,在信息数据库中设置各槽位的槽位ID对应的槽位值,通过槽位ID将文本模板中的各槽位与信息数据库中的槽位值相对应,针对当前对象,分别从信息数据库中获取文本模板中各槽位ID对应的槽位值填入相应的槽位中。
例如在当前对象为房源时,文本模板中的槽位主要包括小区周边、小区内部和房屋信息三类。其中小区周边的槽位信息例如可以包括:医院、公园、商超、地铁站的名称和与小区之间的最近距离;学校(幼儿园、小学、中学)的个数、名称和与小区之间的最近距离等等。小区内部的槽位信息例如可以包括:小区名称、物业名称、开发商名称、小区建成年份、绿化率、容积率等等。房屋信息的槽位信息例如可以包括:单价、总价、居室数、分间面积等等。
104,将所述预设文本模板拆分为句子。
其中,句子是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思,例如告诉别人一件事情,提出一个问题,表示要求或者制止,表示某种感慨,表示对一段话的延续或省略,等等。句子和句子中间有比较大停顿,句子的结尾应该使用句号、问号、省略号或感叹号。
106,将获取到的槽位值分别填充在对应的槽位中。
将所述预设文本模板拆分为句子可以基于单个句子生成语音片段,本公开实施例中,将所述预设文本模板拆分为句子,再填充槽位值,可以避免因槽位值中标点符号对单句拆分的影响,以便实现语音转换的准确性和合理性。
108,分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于各句子的语音片段得到当前对象的语音介绍信息。
基于本公开上述实施例提供的语音信息生成方法,可以获取当前对象对应于文本模板中各槽位的槽位值,并将该文本模板拆分为句子,然后,将获取到的槽位值分别填充在对应的槽位中,进而,分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于各句子的语音片段得到当前对象的语音介绍信息,本公开实施例可以自动生成项目的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户,不再受限于移动互联网交互页面的尺寸,使得用户可以完整、清晰的项目信息,有效满足用户的信息获取需求;另外,由于同样时间内语音传递的信息量相对较大,使用户可以在同样时间内得到较丰富的信息,提高用户体验,提高项目的介绍效果和推荐效果。
可选地,在本公开一些可能的实现方式中,操作102中,可以基于当前对象的对象标识(ID),从第一数据库获取当前对象对应于预设文本模板中各槽位的槽位值,其中,每个对象ID唯一标识一个对象,第一数据库包括至少一个对象对应于各槽位的槽位值,即,包括各对象ID、槽位ID以及槽位值之前的对应关系。
或者,在本公开另一些可能的实现方式中,操作102中,也可以直接接收用户针对当前对象设置的对象ID和当前对象对应于各槽位的槽位值,即,用户直接针对当前对象设置其各项槽位值。
在其中一些可选示例中,上述预设文本模板中的每个槽位上分别设置有唯一标识该槽位的槽位ID。相应地,可以基于当前对象的对象ID和预设文本模板中每个槽位上的槽位ID,从第一数据库中获取当前对象对应于预设文本模板中各槽位的槽位值。或者,接收用户针对当前对象设置的对象ID和当前对象对应于各槽位的槽位值,包括:接收用户针对当前对象设置的对象ID、和针对各槽位和/或槽位ID设置的槽位值。
可选地,在本公开一些可能的实现方式中,上述预设文本模板可以包括多个介绍板块的文本模板,每个介绍板块包括至少一个介绍点。
在其中一些可能的实现方式中,本公开实施例中的对象为房源时,相应的介绍板块例如可以包括但不限于以下任意一项或多项:小区周边、小区内部、房屋内部、交易,等等。
其中,小区周边的介绍点例如可以包括但不限于以下任意一项或多项:学校、地铁站、商场、医院、公园,等等。
小区内部的介绍点例如可以包括但不限于以下任意一项或多项:内部设施、安保情况、绿化率、容积率、是否集中供暖,等等。
房屋内部的介绍点例如可以包括但不限于以下任意一项或多项:建筑年龄、是否南北通透、是否动静分离、楼层,等等。
交易的介绍点例如可以包括但不限于以下任意一项或多项:交易年限、税费、有无抵押、首付比例,等等。
为了保证项目的信息量详细、丰富,在本公开实施例的流程之前,可以预先对项目的相关信息进行挖掘,并将项目的相关信息按照项目的不同方面划分为不同介绍板块、以及各介绍板块下的不同介绍点,并设置各介绍点设计的槽位。另外,还可以进一步设置各介绍点的权重值,其中,权重值用于表示该介绍点的重要程度,各介绍点的权重值可以采用直接设置的权重数值,也可以采用对设置的权重数值归一化后的归一化值。对各介绍点设置的权重数值进行归一化时,可以针对一个项目下所有介绍点的权重数值进行归一化,使得一个项目下所有介绍点的权重值的总和为1;或者,也可以分别针对各介绍板块下的所有介绍点的权重数值进行归一化,使得各介绍板块下的所有介绍点的权重值的总和为1。本公开实施例对此不做限制。
如下表1所示,为本公开实施例中一个项目的介绍板块、介绍点及其设计槽位的一个具体示例。
表1
Figure BDA0002329023920000101
Figure BDA0002329023920000111
在一个应用示例中,项目为房源时,可以预先通过挖掘用户和经纪人的聊天信息、业主房评和经纪人房评、论坛等,对房源的介绍点进行充分的挖掘,确保房源信息的丰富性,总结出若干点,并将这些点划分为三个介绍板块:小区周边、小区内部、房屋内部,每个介绍板块下面又细分为若干介绍点,一共有五十余种介绍点,并设置各介绍点设计的槽位,另外还可以分别对每个介绍板块下的介绍点设置权重值。例如,针对房源设置的介绍板块、介绍点及涉及的槽位值的一个具体示例如下表2所示。每个介绍板块只枚举若干介绍点。
表2
Figure BDA0002329023920000112
可选地,在本公开任一实施例的语音信息生成方法中,操作102之后,还可以包括:从多个介绍板块中确定当前对象的至少一个待介绍点;确定所述至少一个待介绍点之间的顺序;基于所述至少一个待介绍点之间的顺序和至少一个待介绍点的文本模板,得到当前对象的文本模板,其中,当前对象的文本模板包括具有一定顺序的所述至少一个待介绍点的文本模板。相应地,该实施例中,操作104中,可以将当前对象的文本模板拆分为句子。
在其中一些可选示例中,可以选取所有介绍板块中的所有介绍点作为当前对象的至少一个待介绍点,或者,也可以按照其他预设规则,例如随机选取或者按照预设顺序选取N个介绍板块、从该N个介绍板块中随机选取或者按照权重值由大到小的顺序选取M个介绍点。其中,M、N分别为大于0的整数。
在其中一些可选示例中,可以通过隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MaxEnt)、条件随机场算法(conditional randomfield algorithm,CRF)、神经网络等任意的序列模型来确定所述至少一个待介绍点之间的顺序。其中的神经网络例如可以是卷积神经网络(CNN)、循环神经网络(RNN)等,本公开实施例对序列模型的实现方式不做限制。
在本公开上述实施例之前,还可以包括:利用样本数据集对序列模型进行训练,利用训练好的序列模型确定所述至少一个待介绍点之间的顺序。其中,样本数据集包括多组介绍点信息,每组介绍点信息包括多个介绍点,其中的任意两组介绍点信息之间至少有一个介绍点不同,每组介绍点信息标注有一定的顺序信息。
本实施例中,预先利用样本数据集对序列模型进行训练,通过训练好的序列模型确定所述至少一个待介绍点之间的顺序,提高了待介绍点之间的顺序的准确性和效率,从而提高了当前对象的文本模板的获取效率。
在其中一些可选示例中,从多个介绍板块中确定当前对象的至少一个待介绍点时,可以基于预先设置的名单,对当前对象对应于预设文本模板中各槽位的槽位值进行筛选;从多个介绍板块包括的介绍点中去除被筛选掉的槽位值和被筛选掉的槽位值对应的槽位所属的介绍点,得到所述至少一个待介绍点。
可以预先设置一些槽位的槽位值白名单,对一些槽位值进行筛选,对槽位值不在白名单中的槽位值对应的槽位所属的介绍点进行去除。例如,在当前对象为房源时,可以设置一些物业白名单和开发商白名单,若当前对象的物业名称或开发商名称不在相应的白名单中时,去除掉不在白名单中的物业或开发商的介绍点。
基于上述实施例,可以对当前对象的介绍信息进行筛选,去除一些不具有竞争力的信息,从而在有限的时间内突出当前对象具有竞争力的信息,以便提高用户关注度,提高介绍效果和推荐效果。
可选地,在本公开任一实施例的语音信息生成方法中,在操作104之前,还可以分别将各槽位的槽位值对应的预设常识信息加入相应待介绍点的文本模板中,并基于预设语法调整当前对象的文本模板的表述方式,例如对待介绍点的文本模板加主语(例如对房屋内部的分间面积、分间面积等级、朝向、窗户的描述信息加主语),等等;和/或,基于相邻的两个待介绍点的文本模板中槽位的槽位值,对所述相邻的两个介绍点的文本模板进行衔接处理,例如,可以通过连词、序数词等对相邻的两个待介绍点的介绍信息进行衔接处理。
其中,预设常识就是预先设置的常识性表述,例如楼层越高采光越好、楼层高老人爬楼不方便等。预设常识可以包括各槽位的槽位值对应的直接影响性常识和间接影响性常识。其中,直接影响性常识和间接影响性常识的区别是,基于槽位的槽位值能否直接得到相应结论。直接影响性常识和间接影响性常识的文本模板可以有多个,可以单独使用,也可以搭配使用。例如,楼层级别可以分为高楼层、中楼层、低楼层,这三个级别就对应了楼层级别这一槽位的三个槽位值。以高楼层为例继续说明,楼层越高,过往的人会比较少,这就是直接影响性常识;而楼层越高,因为过往的人越少,所以楼层越安静,这就是间接影响性常识。
其中,连词用于连接相邻的两个介绍点的介绍信息,例如可以包括但不限于:并且、而且、也、还、但是、然而等等。以楼层和电梯配置两个介绍点为例,楼层越高采光越好、楼层高老人爬楼不方便等是常识,如果上一介绍点是楼层,其中楼层级别这一槽位的槽位值是“高层”,当前介绍点是电梯配置,其中是否有电梯配置这一槽位的槽位值为“是”,则上一介绍点与当前介绍点之间的连词可以是“但是”表示转折关系,即,表示出虽然楼层是高层但是有电梯这一含义,例如“房子虽然是高楼层的,但是有电梯,出门会非常方便”;如果上一介绍点是楼层,其中楼层级别这一槽位的槽位值是“低层”,当前介绍点是电梯配置,其中是否有电梯配置这一槽位的槽位值为“是”,则上一介绍点与当前介绍点之间的连词可以是“而且”,表示顺承关系,以对具有相同特征的介绍信息进行优化,即,表示出即使楼层是低层也有电梯这一含义,例如“房子是低楼层的,而且有电梯,出门会非常方便”。
其中的序数词,例如可以包括但不限于:首先、其次、然后、最后,第一、第二、第三、…等等,基于序数词,可以将不同介绍点的介绍信息串联起来,使得文案表述更有条理。
基于该实施例,对待介绍点的文本模板进行完善,可以实现文本模板的完整,提高介绍效果;基于相邻的两个待介绍点的各槽位的槽位值,对完善后的相邻的两个待介绍点的文本模板进行衔接处理,可以实现整个文本模板的表述通顺自然、更加流畅,提高用户感受。
进一步可选地,还可以对衔接处理后的当前对象的文本模板中的重复性内容进行简化处理。
通过对当前对象的文本模板中的重复性内容进行简化处理,可以去除文本模板中的重复性内容,避免重新信息的表述浪费用户时间,提高介绍效果。例如,房源文本模板中的卧室带窗为例,带窗的直接影响就是便于空气流通,但是对于有多个带窗的房间而言,反复表述同一个带窗的好处会使文本模板冗余,通过对重复性内容进行简化处理,可以将这类重复的表述只保留一处,其他的删掉。
可选地,在本公开任一实施例的语音信息生成方法中,操作106之后,还可以对于同一槽位中包括的多个槽位值,按照预设表述方式表述同一槽位中包括的多个槽位值。例如,句子“该小区的附近有__个超市,分别是__”,其中当前对象对应于该句子中槽位的槽位值是:3,A超市、B超市、C超市,则该句子可以表述为:该小区的附近有3个超市,分别是A超 市、B超市和C超市。如果句子“该小区的附近有__个超市,分别是__”,其中当前对象对应于该句子中槽位的槽位值是:2,A超市、B超市,则该句子可以表述为:该小区的附近有2个超市,分别是A超市和B超市。如果句子“该小区的附近有__个超市,分别是__”,其中当前对象对应于该句子中槽位的槽位值是:6,A超市、B超市、C超市、D超市、E超市、F超市,则该句子可以表述为:该小区的附近有6个超市,分别是A超市、B超市、C超市等
可选地,在本公开一些可能的实现方式中,操作108中,可以分别以填充槽位值后的各句子作为当前句子,基于当前句子的文本内容、当前句子的语音特征和当前句子的前一个相邻句子的文本内容,生成当前句子的特征信息编码(key);将当前句子的前一个相邻句子和当前句子转换为语音,并从该语音中裁剪出当前句子的语音片段(value)。
图2为本公开语音信息生成方法另一个实施例的流程图。如图2所示,该实施例的语音信息生成方法包括:
202,获取当前对象对应于预设文本模板中各槽位的槽位值。
其中,可以预先获取该预设文本模板,该预设文本模板中包括至少一个槽位。
204,将所述预设文本模板拆分为句子。
206,将获取到的槽位值分别填充在对应的槽位中。
208,分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段。
210,按照各句子在当前对象的文本模板中的顺序对各句子对应的语音片段进行拼接,并基于预设规则在任意相邻的两个句子的语音片段之间插入相应的间隔时长,得到当前对象的语音介绍信息。
基于上述实施例,可以实时的在线生成当前对应的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户。
可选地,在本公开任一实施例的语音信息生成方法中,所述预设文本模板中还可以包括至少一个动作ID,每个动作ID唯一标识一个视频动作。相应地,在操作108或者208之前,可以先去除预设文本模板中的动作ID,以避免该动作ID对语音转换产生影响。
相应可选地,再参见图2,在操作108或者208之后,还可以包括:
212,根据句子中的动作ID生成相应的视频动作控制信息,并在所述包括动作ID的句子对应的语音片段上添加相应的视频动作控制信息。
基于该实施例,即可以在生成当前对象的语音介绍信息的同时,生成和该语音介绍信息的内容对应的视频动作控制信息,可以控制在当前对象的各方面介绍场景下的前端动作渲染。
可选地,在本公开一些可能的实现方式中,包括动作ID的句子对应的语音片段以及与相邻语音片段之间的间隔时长,与根据所述动作ID生成相应的视频动作控制信息所控制的视频动作匹配。
这样,可以在生成当前对象的语音介绍信息的同时,生成和该语音介绍信息的内容对应的视频动作控制信息,且语音介绍的节奏与视频动作的时间轴相互匹配。
另外,在本公开又一实施例的语音信息生成方法中,可以针对至少一个对象执行图1所示实施例的流程,生成至少一个对象的文本模板中各句子的特征信息编码和语音片段之间的对应关系,其中,每个对象的文本模板为在预设文本模板中填充该对象的槽位值得到的、或进一步通过上述各示例性实施例进行处理得到的文本形式的介绍信息。
可选地,在本公开一些可能的实现方式中,从语音中裁剪出当前句子的语音片段之后,还可以在第二数据库中存储当前句子的特征信息编码和语音片段之间的对应关系,从而实现预先在第二数据库存储各对象的文本模板中各句子的特征信息编码和语音片段之间的对应关系。
图3为本公开语音信息生成方法又一个实施例的流程图。如图3所示,该实施例中,分别以一个对象作为第一当前对象,执行如下所示操作302-312:
302,获取第一当前对象对应于预设文本模板中各槽位的槽位值。
其中,可以预先获取该预设文本模板,该预设文本模板中包括至少一个槽位。
304,将所述预设文本模板拆分为句子。
306,将获取到的槽位值分别填充在对应的槽位中,得到第一当前对象的文本模板。
分别以填充槽位值后得到的文本模板中各句子作为当前句子,执行操作308-312,直至执行完第一当前对象的文本模板中的所有句子。
308,基于当前句子的文本内容、当前句子的语音特征和当前句子的前一个相邻句子的文本内容,生成当前句子的特征信息编码。
310,将当前句子的前一个相邻句子和当前句子转换为语音,并从该语音中裁剪出当前句子的语音片段。
312,在第二数据库中存储当前句子的特征信息编码和语音片段之间的对应关系。
基于该实施例,可以以离线方式,逐一针对每个对象生成并在第二数据库中存储其文本模板中各句子的特征信息编码和语音片段之间的对应关系。分别针对每个对象执行该图3所示实施例,从而可以以离线方式预先生成大量对象的文本模板中各句子的特征信息编码和语音片段之间的对应关系,即第二数据库中存储有多个key–value对。
另外,在一些可能的实现方式中,针对不同对象的预设文本模板中各句子,通过操作308生成当前句子的特征信息编码后,可以先查询第二数据库中是否存在该当前句子的特征信息编码,若存在,说明第二数据库中存在对应的语音片段,就不需要再执行操作310-312;否则,若不存在,即执行操作310-312。通常,如果各对象填充槽位值时使用的预设文本模板相同,则预设文本模板中不包括槽位的句子只需针对第一个对象执行操作310-312即可,从而避免重复节省计算资源;而不同对象对应于同一槽位的槽位值可能相同、也可能不同,则针对预设文本模板中包括槽位的句子,通过操作308生成当前句子的特征信息编码后,可以先查询第二数据库中是否存在该当前句子的特征信息编码,若存在,说明第二数据库中存在对应的语音片段,就不需要再执行操作310-312;否则,若不存在,即执行操作310-312。
进一步地,再参见图3,后续针对一个对象作为第二当前对象,需要生成该第二当前对象的语音介绍信息时,可以执行如下所示操作:
314,获取第二当前对象的文本介绍信息,当前对象的文本介绍信息包括多个文本句子。
其中的第二当前对象为当前需要进行语音介绍的对象。
其中的文本介绍信息包括需要对第二当前对象进行语音介绍的文本内容,其中的槽位已经填充好相应的槽位值。该文本介绍信息可以与该第二当前对象通过操作306得到的该第二当前对象的文本模板的内容相同,也可以少于通过操作306得到的该第二当前对象的文本模板的内容。
在其中一些可能的实现方式中,操作314中,可以根据用户画像、预设文本模板和该第二当前对象对应于预设文本模板中各槽位的槽位值得到第二当前对象的文本介绍信息。
其中,用户画像包括个性化的用户信息,可用于确定用户的自身现状(诸如是否已婚、家中是否有老人、是否有小孩等)和项目偏好信息(如喜欢的项目特点、关心的项目点等),可以根据用户的会话、搜索记录、项目点击日志,文章浏览历史、问答浏览历史等,确定用户的自身状态、行为偏好、项目偏好等信息,来确定用户画像,从而基于用户画像选取预设文本模板中的部分内容或者全部内容和第二当前对象对应于选取的内容中各槽位的槽位值,得到第二当前对象的文本介绍信息。
本实施例中,可以基于用户画像,根据用户对当前对象(例如房源及所在小区)的熟悉情况预设文本模板中的部分内容或者全部内容,有针对性的向用户介绍其关注的信息,避免向用户介绍其已经了解的信息或者其不关注的信息从而减低介绍效率,进一步提高用户关注度、从而提高推荐效果。
分别以文本介绍信息中各文本句子作为当前文本句子,执行操作316-318,直至执行完第二当前对象的文本介绍信息中的所有文本句子,执行操作320。
316,基于当前文本句子的文本内容和语音特征、以及当前文本句子的前一个相邻文本句子的文本内容,生成当前文本句子的特征信息编码。
318,从第二数据库中获取当前文本句子的特征信息编码对应的语音片段作为当前文本句子的语音片段。
320,基于各文本句子对应的语音片段生成当前对象的语音介绍信息。
基于上述操作314-320,可以直接从第二数据库中获取当前介绍对象的各文本句子对应的语音片段来生成语音介绍信息,从而实时的在线生成当前介绍对象的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户。
可选地,在本公开一些可能的实现方式中,上述图3所示实施例中,第二当前对象的文本介绍信息中的至少一个文本句子中包括动作ID。相应地,操作318之后,还可以根据各文本句子中的动作ID生成相应的视频动作控制信息,并在包括动作ID的文本句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开一些可能的实现方式中,上述各实施例中的视频动作控制信息包括控制播放当前对象的视频素材的视频动作的信息,其中的视频动作例如可以包括但不限于以下任意一项或多项:播放指定视频素材,切换视频素材,旋转或移动播放视角,放大或缩小视频素材,在视频素材中指示特定对象、位置和/或距离,等等。
基于该实施例,即可以在生成第二当前对象的语音介绍信息的同时,生成和该语音介绍信息的内容对应的视频动作控制信息,可以控制在第二当前对象的各方面介绍场景下的前端动作渲染。
可选地,在本公开一些可能的实现方式中,上述各实施例中当前对象可以是房源,此时,上述实施例中的视频素材例如可以包括但不限于以下任意一项或多项:虚拟现实(virtual reality,VR)视频,户型图,房源所在小区的视频或图像,房源在地图上的地理位置,房源周边的各兴趣点在地图上的地理位置和/或与房源之间的距离,等等。
基于上述各实施例,在包括动作ID的文本句子对应的语音片段上添加相应的视频动作控制信息后,即可以得到当前对象的多媒体介绍信息,之后,用户可以通过客户端播放该多媒体介绍信息,在播放该多媒体介绍信息的过程中,可以通过多媒体介绍信息中的视频动作控制信息控制播放相应的视频素材。例如,在当前对象为一个房源时,可以在播放该房源的语音介绍信息的过程中,按照多媒体介绍信息中的视频动作控制信息控制播放相应的视频素材,例如,在介绍该房源的户型时展示该房源的户型图,在展示该房源的内部实际情况时播放该房源的VR视频,在介绍该房源周边的小学时在地图上展示该小学,等等。
本公开实施例提供的任一种语音信息生成方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种语音信息生成方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音信息生成方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本公开语音信息生成装置一个实施例的结构示意图。该实施例的语音信息生成装置可用于实现本公开上述各语音信息生成方法实施例。如图4所示,该实施例的语音信息生成装置包括:第一获取模块,第二获取模块,拆分模块,填充模块和转换模块。其中:
第一获取模块,用于获取介绍信息的文本模板;所述预设文本模板中包括至少一个槽位。
第二获取模块,用于获取当前对象对应于所述预设文本模板中各槽位的槽位值。
拆分模块,用于将所述预设文本模板拆分为句子。
填充模块,用于将所述第二获取模块获取到的槽位值分别填充在对应的槽位中。
转换模块,用于分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。
基于本公开上述实施例提供的语音信息生成装置,可以获取当前对象对应于文本模板中各槽位的槽位值,并将该文本模板拆分为句子,然后,将获取到的槽位值分别填充在对应的槽位中,进而,分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于各句子的语音片段得到当前对象的语音介绍信息,本公开实施例可以自动生成项目的语音介绍信息,通过语音讲解的方式将项目的详细情况介绍给用户,不再受限于移动互联网交互页面的尺寸,使得用户可以完整、清晰的项目信息,有效满足用户的信息获取需求;另外,由于同样时间内语音传递的信息量相对较大,使用户可以在同样时间内得到较丰富的信息,提高用户体验,提高项目的介绍效果和推荐效果。
可选地,在本公开一些可能的实现方式中,所述第二获取模块,具体用于:基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,其中,所述第一数据库包括至少一个对象对应于各槽位的槽位值,每个对象ID唯一标识一个对象;或者,接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值。
可选地,在本公开一些可能的实现方式中,所述预设文本模板中的每个槽位上分别设置有唯一标识该槽位的槽位ID。相应地,该实施例中,所述第二获取模块,具体用于:基于当前对象的对象标识ID和所述预设文本模板中每个槽位上的槽位ID,从所述第一数据库中获取当前对象对应于所述预设文本模板中各槽位的槽位值;或者,接收用户针对当前对象设置的对象ID、和针对各槽位和/或槽位ID设置的槽位值。
可选地,在本公开一些可能的实现方式中,所述预设文本模板包括多个介绍板块的文本模板,每个介绍板块包括至少一个介绍点。
图5为本公开语音信息生成装置另一个实施例的结构示意图。如图5所示,与图4所示的实施例相比,该实施例的语音信息生成装置还包括:第一确定模块,第二确定模块和第三获取模块。其中:第一确定模块,用于从所述多个介绍板块中确定所述当前对象的至少一个待介绍点。第二确定模块,用于确定所述至少一个待介绍点之间的顺序。第三获取模块,用于基于所述至少一个待介绍点之间的顺序和所述至少一个待介绍点的文本模板,得到所述当前对象的文本模板;所述当前对象的文本模板包括具有一定顺序的所述至少一个待介绍点的文本模板。相应地,该实施例中,所述拆分模块,具体用于:将所述当前对象的文本模板拆分为句子。
可选地,在本公开一些可能的实现方式中,所述第二确定模块,具体用于:通过HMM、MaxEnt、CRF或者神经网络模型等任意的序列模型确定所述至少一个待介绍点之间的顺序。
可选地,在本公开一些可能的实现方式中,所述第一确定模块,具体用于:基于预先设置的名单,对所述当前对象对应于所述预设文本模板中各槽位的槽位值进行筛选;从所述多个介绍板块包括的介绍点中去除被筛选掉的槽位值和所述被筛选掉的槽位值对应的槽位所属的介绍点,得到所述至少一个待介绍点。
另外,再参见图5,在本公开又一实施例的语音信息生成装置中,还可以包括:第一处理模块,用于分别将所述各槽位的槽位值对应的预设常识信息加入相应待介绍点的文本模板中,并基于预设语法调整所述当前对象的文本模板的表述方式;和/或,第二处理模块,用于基于相邻的两个所述待介绍点的文本模板中槽位的槽位值,对所述相邻的两个所述介绍点的文本模板进行衔接处理。
另外,再参见图5,在本公开又一实施例的语音信息生成装置中,还可以包括:还包括:第三处理模块,用于对衔接处理后的所述当前对象的文本模板中的重复性内容进行简化处理。
可选地,在本公开一些可能的实现方式中,所述填充模块,还用于:对于同一槽位中包括的多个槽位值,按照预设表述方式表述同一槽位中包括的多个槽位值。
可选地,在本公开一些可能的实现方式中,所述转换模块包括:生成单元,用于分别以填充槽位值后的各句子作为当前句子,基于所述当前句子的文本内容、所述当前句子的语音特征和所述当前句子的前一个相邻句子的文本内容,生成所述当前句子的特征信息编码;转换单元,用于将所述当前句子的前一个相邻句子和所述当前句子转换为语音,并从所述语音中裁剪出所述当前句子的语音片段。
另外,再参见图5,在本公开又一实施例的语音信息生成装置中,还可以包括:拼接模块,用于按照所述各句子在所述当前对象的文本模板中的顺序对所述各句子对应的语音片段进行拼接,并基于预设规则在任意相邻的两个句子的语音片段之间插入相应的间隔时长,得到所述当前对象的语音介绍信息。
另外,再参见图5,在本公开又一实施例的语音信息生成装置中,所述预设文本模板中包括至少一个动作ID,每个动作ID唯一标识一个视频动作。相应地,该实施例的语音信息生成装置还可以包括:去除模块,用于去除所述预设文本模板中的动作ID。
另外,再参见图5,在本公开又一实施例的语音信息生成装置中,还可以包括:第一生成模块,用于根据所述句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开一些可能的实现方式中,包括所述动作ID的句子对应的语音片段以及与相邻语音片段之间的间隔时长,与根据所述动作ID生成相应的视频动作控制信息所控制的视频动作匹配。
图6为本公开语音信息生成装置再一个实施例的结构示意图。如图6所示,与图4所示的实施例相比,在本公开又一实施例的语音信息生成装置中,还可以包括:存储处理模块,用于在第二数据库中存储所述当前句子的特征信息编码和语音片段之间的对应关系;所述第二数据库,用于存储至少一个句子的特征信息编码和语音片段之间的对应关系。
另外,再参见图6,在本公开再一实施例的语音信息生成装置中,还可以包括:第四获取模块,第二生成模块,第五获取模块和第三生成模块。其中:
第四获取模块,用于获取所述当前对象的文本介绍信息,所述当前对象的文本介绍信息包括多个文本句子。
第二生成模块,用于分别以所述文本介绍信息中各文本句子作为当前文本句子,基于所述当前文本句子的文本内容和语音特征、以及所述当前文本句子的前一个相邻文本句子的文本内容,生成所述当前文本句子的特征信息编码。
第五获取模块,用于从所述数据库中获取所述当前文本句子的特征信息编码对应的语音片段作为所述当前文本句子的语音片段。
第三生成模块,用于基于所述各文本句子对应的语音片段生成所述当前对象的语音介绍信息。
另外,再参见图6,在本公开再一实施例的语音信息生成装置中,所述至少一个所述文本句子中包括动作ID。相应地,该实施例的语音信息生成装置还可以包括:第四生成模块,用于根据所述文本句子中的动作ID生成相应的视频动作控制信息,并在包括所述动作ID的文本句子对应的语音片段上添加相应的视频动作控制信息。
可选地,在本公开一些可能的实现方式中,上述各实施例的语音信息生成装置中,所述视频动作控制信息包括控制播放所述当前对象的视频素材的视频动作的信息,所述视频动作可以包括但不限于以下任意一项或多项:播放指定视频素材,切换视频素材,旋转或移动播放视角,放大或缩小视频素材,在视频素材中指示特定对象、位置和/或距离,等等。
可选地,在本公开一些可能的实现方式中,上述各实施例的语音信息生成装置中,所述当前对象为房源;所述视频素材可以包括但不限于以下任意一项或多项:VR视频,户型图,所述房源所在小区的视频或图像,所述房源在地图上的地理位置,所述房源周边的各兴趣点在地图上的地理位置和/或与所述房源之间的距离,等等。
另外,本公开实施例还提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的语音介绍信息的生成方法。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的语音介绍信息的生成方法。
图7为本公开电子设备一个实施例的结构示意图。下面,参考图7来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。如图7所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音介绍信息的生成方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的语音介绍信息的生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的语音介绍信息的生成方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种语音信息生成方法,其特征在于,包括:
获取当前对象对应于预设文本模板中各槽位的槽位值;所述预设文本模板中包括至少一个槽位;
将所述预设文本模板拆分为句子;
将获取到的槽位值分别填充在对应的槽位中;
分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。
2.根据权利要求1所述的方法,其特征在于,所述获取当前对象对应于所述预设文本模板中各槽位的槽位值,包括:
基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,其中,所述第一数据库包括至少一个对象对应于各槽位的槽位值,每个对象ID唯一标识一个对象;或者,
接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值。
3.根据权利要求2所述的方法,其特征在于,所述预设文本模板中的每个槽位上分别设置有唯一标识该槽位的槽位ID;
所述基于当前对象的对象标识ID,从第一数据库获取所述当前对象对应于所述预设文本模板中各槽位的槽位值,包括:基于当前对象的对象ID和所述预设文本模板中每个槽位上的槽位ID,从所述第一数据库中获取当前对象对应于所述预设文本模板中各槽位的槽位值;
所述接收用户针对当前对象设置的对象ID和所述当前对象对应于各槽位的槽位值,包括:接收用户针对当前对象设置的对象ID、和针对各槽位和/或槽位ID设置的槽位值。
4.根据权利要求1-3任一所述的方法,其特征在于,所述预设文本模板包括多个介绍板块的文本模板,每个介绍板块包括至少一个介绍点。
5.根据权利要求4所述的方法,其特征在于,所述获取当前对象对应于所述预设文本模板中各槽位的槽位值之后,还包括:
从所述多个介绍板块中确定所述当前对象的至少一个待介绍点;
确定所述至少一个待介绍点之间的顺序;
基于所述至少一个待介绍点之间的顺序和所述至少一个待介绍点的文本模板,得到所述当前对象的文本模板;所述当前对象的文本模板包括具有一定顺序的所述至少一个待介绍点的文本模板;
所述将所述预设文本模板拆分为句子,包括:将所述当前对象的文本模板拆分为句子。
6.根据权利要求5所述的方法,其特征在于,所述确定所述至少一个待介绍点之间的顺序,包括:
通过隐马尔可夫模型HMM、最大熵模型MaxEnt、条件随机场算法CRF或者神经网络模型确定所述至少一个待介绍点之间的顺序。
7.根据权利要求5或6所述的方法,其特征在于,所述从所述多个介绍板块中确定所述当前对象的至少一个待介绍点,包括:
基于预先设置的名单,对所述当前对象对应于所述预设文本模板中各槽位的槽位值进行筛选;
从所述多个介绍板块包括的介绍点中去除被筛选掉的槽位值和所述被筛选掉的槽位值对应的槽位所属的介绍点,得到所述至少一个待介绍点。
8.一种语音信息生成装置,其特征在于,包括:
第一获取模块,用于获取介绍信息的文本模板;所述预设文本模板中包括至少一个槽位;
第二获取模块,用于获取当前对象对应于所述预设文本模板中各槽位的槽位值;
拆分模块,用于将所述预设文本模板拆分为句子;
填充模块,用于将所述第二获取模块获取到的槽位值分别填充在对应的槽位中;
转换模块,用于分别将填充槽位值后的各句子转换为语音,得到各句子的语音片段,以便基于所述各句子的语音片段得到所述当前对象的语音介绍信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-7任一所述的方法。
CN201911328649.5A 2019-12-20 2019-12-20 语音信息生成方法和装置、电子设备和存储介质 Active CN111128121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911328649.5A CN111128121B (zh) 2019-12-20 2019-12-20 语音信息生成方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911328649.5A CN111128121B (zh) 2019-12-20 2019-12-20 语音信息生成方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111128121A true CN111128121A (zh) 2020-05-08
CN111128121B CN111128121B (zh) 2021-04-30

Family

ID=70500776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911328649.5A Active CN111128121B (zh) 2019-12-20 2019-12-20 语音信息生成方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111128121B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489620A (zh) * 2020-11-20 2021-03-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112667086A (zh) * 2021-01-04 2021-04-16 瑞庭网络技术(上海)有限公司 一种vr看房的交互方法和装置

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
JP2003058187A (ja) * 2001-08-10 2003-02-28 Fujitsu Ten Ltd 対話システム
US20030156689A1 (en) * 2002-02-18 2003-08-21 Haru Ando Method and system for acquiring information with voice input
US20090055163A1 (en) * 2007-08-20 2009-02-26 Sandeep Jindal Dynamic Mixed-Initiative Dialog Generation in Speech Recognition
CN103514209A (zh) * 2012-06-27 2014-01-15 百度在线网络技术(北京)有限公司 基于对象信息库生成待推广对象的推广信息的方法与设备
US20150340033A1 (en) * 2014-05-20 2015-11-26 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20160293162A1 (en) * 2015-04-02 2016-10-06 Panasonic Intellectual Property Management Co., Ltd. Computer-implemented method for generating a response sentence by using a weight value of node
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
US20170213545A1 (en) * 2016-01-22 2017-07-27 Electronics And Telecommunications Research Institute Self-learning based dialogue apparatus and method for incremental dialogue knowledge
US20170287478A1 (en) * 2016-03-29 2017-10-05 Maluuba Inc. Hierarchical attention for spoken dialogue state tracking
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107423363A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的话术生成方法、装置、设备及存储介质
US20180090146A1 (en) * 2016-09-14 2018-03-29 Kabushiki Kaisha Toshiba Input support apparatus and computer program product
CN107886948A (zh) * 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及系统
CN109727085A (zh) * 2018-06-01 2019-05-07 平安普惠企业管理有限公司 保险展业方法、装置、设备及可读存储介质
CN109979457A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种应用于智能对话机器人的千人千面的方法
CN110010120A (zh) * 2019-05-05 2019-07-12 标贝(深圳)科技有限公司 模型管理和语音合成方法、装置和系统及存储介质
CN110060656A (zh) * 2019-05-05 2019-07-26 标贝(深圳)科技有限公司 模型管理和语音合成方法、装置和系统及存储介质
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统
CN110059166A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
JP2003058187A (ja) * 2001-08-10 2003-02-28 Fujitsu Ten Ltd 対話システム
US20030156689A1 (en) * 2002-02-18 2003-08-21 Haru Ando Method and system for acquiring information with voice input
US20090055163A1 (en) * 2007-08-20 2009-02-26 Sandeep Jindal Dynamic Mixed-Initiative Dialog Generation in Speech Recognition
CN103514209A (zh) * 2012-06-27 2014-01-15 百度在线网络技术(北京)有限公司 基于对象信息库生成待推广对象的推广信息的方法与设备
US20150340033A1 (en) * 2014-05-20 2015-11-26 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20160293162A1 (en) * 2015-04-02 2016-10-06 Panasonic Intellectual Property Management Co., Ltd. Computer-implemented method for generating a response sentence by using a weight value of node
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
US20170213545A1 (en) * 2016-01-22 2017-07-27 Electronics And Telecommunications Research Institute Self-learning based dialogue apparatus and method for incremental dialogue knowledge
US20170287478A1 (en) * 2016-03-29 2017-10-05 Maluuba Inc. Hierarchical attention for spoken dialogue state tracking
US20180090146A1 (en) * 2016-09-14 2018-03-29 Kabushiki Kaisha Toshiba Input support apparatus and computer program product
CN107423363A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的话术生成方法、装置、设备及存储介质
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107886948A (zh) * 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
CN109727085A (zh) * 2018-06-01 2019-05-07 平安普惠企业管理有限公司 保险展业方法、装置、设备及可读存储介质
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及系统
CN110059166A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110010120A (zh) * 2019-05-05 2019-07-12 标贝(深圳)科技有限公司 模型管理和语音合成方法、装置和系统及存储介质
CN110060656A (zh) * 2019-05-05 2019-07-26 标贝(深圳)科技有限公司 模型管理和语音合成方法、装置和系统及存储介质
CN109979457A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种应用于智能对话机器人的千人千面的方法
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志刚 等: "人工智能技术在语音交互领域的探索与应用", 《信息技术与标准化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489620A (zh) * 2020-11-20 2021-03-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112489620B (zh) * 2020-11-20 2022-09-09 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN112667086A (zh) * 2021-01-04 2021-04-16 瑞庭网络技术(上海)有限公司 一种vr看房的交互方法和装置
CN112667086B (zh) * 2021-01-04 2023-06-23 瑞庭网络技术(上海)有限公司 一种vr看房的交互方法和装置

Also Published As

Publication number Publication date
CN111128121B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
JP6952184B2 (ja) ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体
US11302337B2 (en) Voiceprint recognition method and apparatus
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
CN111177542B (zh) 介绍信息的生成方法和装置、电子设备和存储介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN112771530A (zh) 交互式web文档的自动导航
CN106971009B (zh) 语音数据库生成方法及装置、存储介质、电子设备
US11842278B2 (en) Object detector trained via self-supervised training on raw and unlabeled videos
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
CN111128121B (zh) 语音信息生成方法和装置、电子设备和存储介质
CN110929505B (zh) 房源标题的生成方法和装置、存储介质、电子设备
CN109815482B (zh) 一种新闻交互的方法、装置、设备和计算机存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN114974253A (zh) 一种基于人物画像的自然语言解释方法、装置及存储介质
JP7225380B2 (ja) 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN114040216B (zh) 直播间推荐方法、介质、装置和计算设备
US11074939B1 (en) Disambiguation of audio content using visual context
CN111178953B (zh) 信息生成方法和装置、电子设备和存储介质
CN113868445A (zh) 续播位置确定方法、续播系统
CN113901841A (zh) 翻译方法、装置以及存储介质
CN111859006A (zh) 建立语音词条树的方法、系统、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201020

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant