CN113066477A - 一种信息交互方法、装置及电子设备 - Google Patents

一种信息交互方法、装置及电子设备 Download PDF

Info

Publication number
CN113066477A
CN113066477A CN202110237209.XA CN202110237209A CN113066477A CN 113066477 A CN113066477 A CN 113066477A CN 202110237209 A CN202110237209 A CN 202110237209A CN 113066477 A CN113066477 A CN 113066477A
Authority
CN
China
Prior art keywords
information
user
task execution
execution end
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110237209.XA
Other languages
English (en)
Inventor
李武波
孙建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110237209.XA priority Critical patent/CN113066477A/zh
Publication of CN113066477A publication Critical patent/CN113066477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种信息交互方法、装置及电子设备。在本实施例中,获取包括任务执行端的位置和用户位置的任务信息,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息,对任务执行端的信息进行整合处理,获取对应的辅助识别文本,对辅助识别文本进行语音合成处理,获取对应的语音信息,将所述语音信息发送至用户终端进行播报,由此,可以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。

Description

一种信息交互方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种信息交互方法、装置及电子设备。
背景技术
智能硬件随着人工智能的发展已经深度融入了居民生活中。在大多数场景中,语音是最自然的交流方法,因此,基于语音交互的硬件深受用户的喜爱。但是随之而来的便是更严格的交互要求。例如,部分用户采用方言讲话,或者讲话口齿不清、重复、或结巴等,都会对语音识别和语义理解模型产生极大地挑战。同时,部分用户听力不好,需要更加清晰和明亮的语音合成,否则无法进行有效的交互。例如在网约车应用领域中,由于部分用户的记忆力、视力、听力较弱,存在忘记下单或者网约车抵达后无法找到网约车的情况,这给司乘之间带来了一定的麻烦。
发明内容
有鉴于此,本发明实施例提供一种信息交互方法、装置及电子设备,以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。
第一方面,本发明实施例提供一种信息交互方法,所述方法包括:
获取任务信息,所述任务信息包括任务执行端的位置和用户位置;
响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息;
对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本;
对所述辅助识别文本进行语音合成处理,获取对应的语音信息;
将所述语音信息发送至用户终端进行播报。
第二方面,本发明实施例提供一种信息交互装置,所述装置包括:
第一信息获取单元,被配置为获取任务信息,所述任务信息包括任务执行端的位置和用户位置;
第二信息获取单元,被配置为响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息;
信息整合单元,被配置为对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本;
语音合成处理单元,被配置为对所述辅助识别文本进行语音合成处理,获取对应的语音信息;
发送单元,被配置为将所述语音信息发送至用户终端进行播报。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例第一方面所述的方法。
第五方面,本发明实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如本发明实施例第一方面所述的方法。
在本实施例中,获取包括任务执行端的位置和用户位置的任务信息,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息,对任务执行端的信息进行整合处理,获取对应的辅助识别文本,对辅助识别文本进行语音合成处理,获取对应的语音信息,将所述语音信息发送至用户终端进行播报,由此,可以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的信息交互方法的流程图;
图2是本发明实施例的语音合成模型的示意图;
图3是发明实施例中的Pre-net模块的预训练过程的示意图
图4是本发明实施例的信息交互过程的示意图;
图5是本发明实施例的信息交互装置的示意图;
图6是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在以下实施例中,主要以通过网约车应用领域进行距离描述,应理解,本实施例并不对应用领域进行限制,其他需要双端之间相互寻找的应用场景,例如快递、外卖等物流应用领域等,均可应用本实施例的信息交互方法。
应理解,在本实施例的任一实施方式中,在获得用户授权后,获取的相关用户信息,例如账户信息、或位置信息等,以便于为用户提供导航或者引导用户寻找任务执行端等。
图1是本发明实施例的信息交互方法的流程图。如图1所示,本发明实施例的信息交互方法包括以下步骤:
步骤S110,获取任务信息。其中,任务信息包括任务执行端的位置和用户位置。可选的,通过获取任务执行端上传的坐标,以获得任务执行端的位置,通过获取用户终端标注的位置或获取用户语音输入的位置,以获得用户位置。
在一种可选的实现方式中,以网约车应用场景为例,任务执行端可以包括网约车、司机和司机终端。在车辆行驶过程中,通过网约车中的车载设备(例如导航仪等)或者司机终端实时上传的坐标信息,确定任务执行端当前的位置信息。
在一种可选的实现方式中,若用户通过用户终端网约车平台APP,或者通过用户终端中的任一APP中嵌入的网约车小程序创建任务(也即发单),可以在用户终端界面标注上车位置,以在发送创建任务请求时上传标注的上车位置,以使得网约车服务器确定用户位置。在其他情况下,例如老人不习惯使用智能手机或者不习惯使用APP,用户可以通过用户终端与网约车平台建立通信连接,例如采用用户终端拨打固定的网约车电话,以口述对应的上车位置,网约车平台通过对用户输入的语音进行语音识别,以获取用户位置。可选的,采用ASM方法对用户输入的语音进行识别,获取用户位置的文本表示信息。在其他可选的实现方式中,可以通过其他方式,例如获取用户和电话号码营业方的授权,基于建立通信连接的用户电话号码确定用户位置等。本实施例并不对用户位置的获取方式进行限制。
步骤S120,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息。在一种可选的方式中,预定条件为任务执行端的位置与用户位置之间的距离小于距离阈值。可选的,距离阈值基于具体应用场景确定,例如网约车领域,距离阈值范围可以为10-100m,应理解,本实施例并不对距离阈值的大小进行限制。
在一种可选的实现方式中,任务执行端的信息至少包括任务执行端的标志信息。可选的,以网约车应用场景为例,任务执行端的标志信息至少包括网约车的车牌号码、车辆品牌、车辆型号、外观颜色、以及司机信息中的至少一项。其中,司机信息可以包括司机年龄、或性别等。可选的,任务执行端的信息还包括任务执行端和用户当前的相对位置信息。例如,根据任务执行端当前的位置坐标和用户位置坐标确定任务执行端相对于用户的距离和方向。
步骤S130,对任务执行端的信息进行整合处理,获取对应的辅助识别文本。
在一种可选的实现方式中,以网约车应用领域为例,假设任务执行端的信息包括车牌号码(Axxxx)、车辆品牌(B)、车辆型号(X)、外观颜色(黑色)、以及网约车和用户当前的相对位置信息(东南方50米处),将任务执行端的信息按照预定方式进行整合处理,可以获得对应的辅助识别文本“尊敬的乘客您好,您叫的车牌号为Axxxx的黑色BX网约车已经快到您的上车位置,目前车辆在您东南方50米处,请注意来往车辆,安全乘车”。
在一种可选的实现方式中,在本实施例中,通过信息采集器获取任务执行端的信息,并按照具体应用场景中的语句规则将任务执行端的信息进行整合,获取对应的辅助识别文本。可选的,各具体应用场景具有对应的语句模板,例如网约车司乘会面场景中,信息采集器在获取到任务执行端的信息后,基于网约车司乘会面场景对应的语句模板,将任务执行端的信息进行整合,以获取对应的辅助识别文本。在其他可选的实现方式中,可以通过训练数据对信息采集器进行预先训练,将任务执行端的信息输入至训练好的信息采集器中进行处理,以获取信息采集器输出的辅助识别文本。其中,训练数据可以包括多条任务执行端的信息和对应的辅助识别文本。应理解,本实施例并不对任务执行端的整合处理方式进行限制,能够实现将其整合为容易被理解的语句的方式均可应用于本实施例中。
步骤S140,对辅助识别文本进行语音合成处理,获取对应的语音信息。在一种可选的实现方式中,将辅助识别文本输入至预先训练的语音合成模型中进行处理,获取对应的语音信息。可选的,本实施例的语音合成模型基于无监督训练获得。
在一种可选的实现方式中,本实施例的语音合成模型为基于无监督训练的TTS(Text To Speech)模型。可选的,语音合成模型为基于无监督训练的TTS模型。可选的,在本实施例中,TTS模型的无监督训练方法可以为MPC(Masked Predictive Coding,Masked预测编码)。可选的,在TTS模型的解码器中的pre-net模块采用MPC无监督训练以增强语音特征的表达能力,从而提高了语音合成的准确性。
图2是本发明实施例的语音合成模型的示意图。在一种可选的实现方式中,预先对辅助识别文本进行处理,获取服务识别文本的字符嵌入向量(Character embeddings)。可选的,基于bert模型或者其他模型对辅助识别文本进行处理,获取辅助识别文本对应的字符嵌入向量。在其他可选的实现方式中,可以基于对应的应用场景的语料库构造对应的字典,构造的字典中的每个字具有对应的标识,通过遍历构造的字典确定辅助识别文本中的各个字标识,并基于网络模型的词嵌入层(embed layer)对辅助识别文本中的各个字标识进行处理,以获取辅助识别文本中的字符嵌入向量。应理解,本实施例并不对辅助识别文本的向量获取方法进行限制。
如图2所示,在本实施例中,TTS模型2包括编码器21、基于注意力机制的解码器22和后处理网络23。
本实施例通过编码器21对辅助识别文本的字符嵌入向量v1进行编码处理,获取文本向量v3。其中,编码器21包括前网模块(Pre-net)和CBHG模块212。其中,将获取的辅助识别文本的字符嵌入向量v1输入至Pre-net模块211中进行非线性变换处理,获取文本向量v2,将文本向量v2输入至CBHG模块中进行处理,以通过提取序列的特征表达获取文本向量v3。可选的,Pre-net模块可以采用dropout的瓶颈层(bottleneck layer),以帮助收敛并提高泛化能力。CBHG通过非因果卷积、批标准化、残差连接以及最大池化处理,来提取序列的特征表达,提高了模型的泛化能力。由此,本实施例采用基于CBHG的编码器21可以减少错音的产生,提高语音合成的准确性。
在本实施例中,解码器22为基于注意力机制的解码器。如图3所示,解码器22是基于循环神经网络RNN的解码器。在解码器22中包括一个有状态的循环层在每个时间步骤上都产生依次注意点查询。其中,将辅助识别文本对应的初始输入帧222经Pre-net模块223中进行处理后输入至Attention RNN模块进行处理,将编码器21输出的文本向量v3经注意力模块221处理后和Attention RNN模块的输出进行拼接后输入至解码器RNN(Decoder RNN)中,获取解码后的数据。
在一种可选的实现方式中,解码器22中的Pre-net模块223采用语音无监督预训练方法以提升语音特征的表达能力,以在解码器22的解码过程中合成更准确的上下文语音播报信息。可选的,Pre-net模块223采用了MPC无监督训练(Masked Predictive Coding)方法以增强语音特征的表达。
图3是发明实施例中的Pre-net模块的预训练过程的示意图。如图3所示,在Pre-net模块223的训练过程中,将语音训练数据帧(x1~x8、x9~x16、xt-7~xt等)分别经过z1层、mask层、…、zt层处理后,再经过神经元33的前向传播和反向传播处理,以对Pre-net模块进行预训练,获取训练后的Pre-net模块。由此,本实施例中的Pre-net模块的无监督预训练过程中,采用mask层对语音训练数据帧进行mask掩码操作,从而可以增强语音特征的表达能力。
后处理网络23用于解码器22的输出转化为可以被合成为波形的目标表达。本实施例采用CBHG模块231作为后处理网络预测对应的声谱图v4,以减少语音合成的错误,并提高模型的泛化能力。可选的,本实施例采用Griffin-Lim算法根据预测出的声谱图v4合成对应的语音波形。
由此,本实施例通过基于无监督训练的TTS模型进行语音合成,以提高语音特征的表达能力,提高语音播报信息的准确性。
步骤S150,将语音信息发送至用户终端进行播报。在一种可选的实现方式中,根据用户通信信息建立与用户终端的通信连接,响应于与用户终端建立通信连接,将语音信息发送至用户终端进行播报。可选的,步骤S150具体可以为:将语音信息发送至用户终端,控制用户终端将语音信息播报预定次数或者持续播报预定时间。可选的,预定次数或预定时间可以为默认次数(例如3次)或默认时间(例如1分钟),也可以为用户预先设置的次数或时间,本实施例并不对此进行限制。进一步可选的,用户可以通过用户终端随时停止语音播报,例如在找到任务执行端后可以控制停止语音播报。
以网约车应用场景为例,网约车平台通过网约车APP中的通信方式、或者任一APP中嵌入的网约车小程序中的通信方式、或者拨打用户信息中的电话号码以建立与用户终端的通信连接,响应于用户终端接听通话,将上述语音信息发送至用户终端进行播报,以便于提醒用户相关信息,例如提醒用户车辆即将到达,并将车辆特征及其相对位置告知用户,以便于用户能够尽快找到对应的网约车,避免司机由于长时间未找到乘客取消订单的情况,从而提高司乘的体验感。
在本实施例中,获取包括任务执行端的位置和用户位置的任务信息,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息,对任务执行端的信息进行整合处理,获取对应的辅助识别文本,对辅助识别文本进行语音合成处理,获取对应的语音信息,将所述语音信息发送至用户终端进行播报,由此,可以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。
图4是本发明实施例的信息交互过程的示意图。以网约车应用场景为例,如图4所示,在用户通过网约车APP、或APP中嵌入的网约车小程序、或拨打固定网约车电话下单后,网约车平台获取用户标注或通过语音描述的用户位置,并实时获取接单的网约车的车辆位置信息,在网约车的车辆位置与用户位置满足预定条件,例如在网约车的车辆位置与用户位置之间的距离小于距离阈值时,获取车辆信息。车辆信息包括车牌号:Axxxx、车辆品牌:B、车辆型号:X、颜色:黑色、以及网相对位置:东南方50米处。信息采集器将获取的车辆信息进行按照预定方式进行整合处理,可以获得对应的辅助识别文本“尊敬的乘客您好,您叫的车牌号为Axxxx的黑色BX网约车已经快到您的上车位置,目前车辆在您东南方50米处,请注意来往车辆,安全乘车”。
如图4所示,将获取的辅助识别文本“尊敬的乘客您好,您叫的车牌号为Axxxx的黑色BX网约车已经快到您的上车位置,目前车辆在您东南方50米处,请注意来往车辆,安全乘车”输入至TTS模型41中进行语音合成,获取对应的语音信息Vo。在获取对应的语音信息Vo后,网约车平台通过网约车APP中的通信方式、或者任一APP中嵌入的网约车小程序中的通信方式、或者拨打用户信息中的电话号码以建立与用户终端的通信连接。其中,建立通信连接的过程中,用户终端界面如图4中的界面43所示。在用户选择接听通话后,网约车平台成功建立与用户终端的通信连接,将上述语音信息发送至用户终端进行播报,以便于提醒用户相关信息,例如提醒用户车辆即将到达,并将车辆特征及其相对位置告知用户,以便于用户能够尽快找到对应的网约车,避免司机由于长时间未找到乘客取消订单的情况,从而提高司乘的体验感。
在本实施例中,获取包括任务执行端的位置和用户位置的任务信息,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息,对任务执行端的信息进行整合处理,获取对应的辅助识别文本,对辅助识别文本进行语音合成处理,获取对应的语音信息,将所述语音信息发送至用户终端进行播报,由此,可以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。
图5是本发明实施例的信息交互装置的示意图。如图5所示,本发明实施例的信息交互装置5包括第一信息获取单元51、第二信息获取单元52、信息整合单元53、语音合成处理单元54以及发送单元55。
第一信息获取单元51被配置为获取任务信息,所述任务信息包括任务执行端的位置和用户位置。
在一种可选的实现方式中,第一信息获取单元51包括第一位置获取子单元和第二位置获取子单元。第一位置获取子单元被配置为获取所述任务执行端上传的坐标,以获得所述任务执行端的位置。第二位置获取子单元被配置为获取用户终端标注的位置或获取用户语音输入的位置,以获得所述用户位置。
第二信息获取单元52被配置为响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息。可选的,所述预定条件为所述任务执行端的位置与所述用户位置之间的距离小于距离阈值。可选的,所述任务执行端的信息包括任务执行端的标志信息、以及所述任务执行端和所述用户之间的相对位置。
信息整合单元53被配置为对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本。
语音合成处理单元54被配置为对所述辅助识别文本进行语音合成处理,获取对应的语音信息。在一种可选的实现方式中,所述语音合成处理单元进一步被配置为将所述辅助识别文本输入至预先训练的语音合成模型中进行处理,获取对应的语音信息。可选的,所述语音合成模型基于无监督训练获得。
发送单元55被配置为将所述语音信息发送至用户终端进行播报。在一种可选的实现方式中,发送单元55包括通信连接建立子单元和第一发送子单元。通信连接建立子单元被配置为根据所述用户通信信息建立与所述用户终端的通信连接。第一发送子单元被配置为响应于与所述用户终端建立通信连接,将所述语音信息发送至用户终端进行播报。
在一种可选的实现方式中,发送单元55包括第二发送子单元和控制子单元。第二发送子单元被配置为将所述语音信息发送至用户终端。控制子单元被配置为控制所述用户终端将所述语音信息播报预定次数或者持续播报预定时间。
在本实施例中,获取包括任务执行端的位置和用户位置的任务信息,响应于任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息,对任务执行端的信息进行整合处理,获取对应的辅助识别文本,对辅助识别文本进行语音合成处理,获取对应的语音信息,将所述语音信息发送至用户终端进行播报,由此,可以在任务执行端接近用户时,通过语音方式告知用户任务执行端的信息,以提高任务执行端和用户的碰面效率,进而提高任务执行端和用户的体验感。
图6是本发明实施例的电子设备的示意图。如图6所示,电子设备6为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器61和存储器62。处理器61和存储器62通过总线63连接。存储器62适于存储处理器61可执行的指令或程序。处理器61可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器61通过执行存储器62所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线63将上述多个组件连接在一起,同时将上述组件连接到显示控制器64和显示装置以及输入/输出(I/O)装置65。输入/输出(I/O)装置65可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置65通过输入/输出(I/O)控制器66与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述部分或全部的方法实施例。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开了TS1、一种信息交互方法,所述方法包括:
获取任务信息,所述任务信息包括任务执行端的位置和用户位置;
响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息;
对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本;
对所述辅助识别文本进行语音合成处理,获取对应的语音信息;
将所述语音信息发送至用户终端进行播报。
TS2、根据TS1所述的方法,所述预定条件为所述任务执行端的位置与所述用户位置之间的距离小于距离阈值。
TS3、根据TS1或TS2所述的方法,所述任务执行端的信息包括任务执行端的标志信息、以及所述任务执行端和所述用户之间的相对位置。
TS4、根据TS1所述的方法,获取任务信息包括:
获取所述任务执行端上传的坐标,以获得所述任务执行端的位置;
获取用户终端标注的位置或获取用户语音输入的位置,以获得所述用户位置。
TS5、根据TS1所述的方法,所述任务信息包括用户通信信息,将所述语音信息发送至用户终端进行播报包括:
根据所述用户通信信息建立与所述用户终端的通信连接;
响应于与所述用户终端建立通信连接,将所述语音信息发送至用户终端进行播报。
TS6、根据TS1所述的方法,对所述辅助识别文本进行语音合成处理,获取对应的语音信息包括:
将所述辅助识别文本输入至预先训练的语音合成模型中进行处理,获取对应的语音信息。
TS7、根据TS6所述的方法,所述语音合成模型基于无监督训练获得。
TS8、根据TS6或TS7所述的方法,所述语音合成模型为基于MPC无监督训练的TTS模型。
TS9、根据TS1-TS8中任一项所述的方法,将所述语音信息发送至用户终端进行播报包括:
将所述语音信息发送至用户终端;
控制所述用户终端将所述语音信息播报预定次数或者持续播报预定时间。
本发明实施例公开了TS10、一种信息交互装置,所述装置包括:
第一信息获取单元,被配置为获取任务信息,所述任务信息包括任务执行端的位置和用户位置;
第二信息获取单元,被配置为响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息;
信息整合单元,被配置为对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本;
语音合成处理单元,被配置为对所述辅助识别文本进行语音合成处理,获取对应的语音信息;
发送单元,被配置为将所述语音信息发送至用户终端进行播报。
TS11、根据TS10所述的装置,所述预定条件为所述任务执行端的位置与所述用户位置之间的距离小于距离阈值。
TS12、根据TS10或TS11所述的装置,所述任务执行端的信息包括任务执行端的标志信息、以及所述任务执行端和所述用户之间的相对位置。
TS13、根据TS10所述的装置,所述第一信息获取单元包括:
第一位置获取子单元,被配置为获取所述任务执行端上传的坐标,以获得所述任务执行端的位置;
第二位置获取子单元,被配置为获取用户终端标注的位置或获取用户语音输入的位置,以获得所述用户位置。
TS14、根据TS10所述的装置,所述发送单元包括:
通信连接建立子单元,被配置为根据所述用户通信信息建立与所述用户终端的通信连接;
第一发送子单元,被配置为响应于与所述用户终端建立通信连接,将所述语音信息发送至用户终端进行播报。
TS15、根据TS10所述的装置,所述语音合成处理单元进一步被配置为将所述辅助识别文本输入至预先训练的语音合成模型中进行处理,获取对应的语音信息。
TS16、根据TS17所述的装置,所述语音合成模型基于无监督训练获得。
TS17、根据TS15或TS16所述的装置,所述语音合成模型为基于MPC无监督训练的TTS模型。
TS18、根据TS10-TS17中任一项所述的装置,所述发送单元包括:
第二发送子单元,被配置为将所述语音信息发送至用户终端;
控制子单元,被配置为控制所述用户终端将所述语音信息播报预定次数或者持续播报预定时间。
本发明实施例公开了TS19、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS9中任一项所述的方法。
本发明实施例公开了TS20、一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如TS1-TS9任一项所述的方法。
本发明实施例公开了TS21、一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如TS1-TS9中任一项所述的方法。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息交互方法,其特征在于,所述方法包括:
获取任务信息,所述任务信息包括任务执行端的位置和用户位置;
响应于所述任务执行端的位置和用户位置满足预定条件,获取任务执行端的信息;
对所述任务执行端的信息进行整合处理,获取对应的辅助识别文本;
对所述辅助识别文本进行语音合成处理,获取对应的语音信息;
将所述语音信息发送至用户终端进行播报。
2.根据权利要求1所述的方法,其特征在于,所述预定条件为所述任务执行端的位置与所述用户位置之间的距离小于距离阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述任务执行端的信息包括任务执行端的标志信息、以及所述任务执行端和所述用户之间的相对位置。
4.根据权利要求1所述的方法,其特征在于,获取任务信息包括:
获取所述任务执行端上传的坐标,以获得所述任务执行端的位置;
获取用户终端标注的位置或获取用户语音输入的位置,以获得所述用户位置。
5.根据权利要求1所述的方法,其特征在于,所述任务信息包括用户通信信息,将所述语音信息发送至用户终端进行播报包括:
根据所述用户通信信息建立与所述用户终端的通信连接;
响应于与所述用户终端建立通信连接,将所述语音信息发送至用户终端进行播报。
6.根据权利要求1所述的方法,其特征在于,对所述辅助识别文本进行语音合成处理,获取对应的语音信息包括:
将所述辅助识别文本输入至预先训练的语音合成模型中进行处理,获取对应的语音信息。
7.根据权利要求6所述的方法,其特征在于,所述语音合成模型基于无监督训练获得。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
CN202110237209.XA 2021-03-03 2021-03-03 一种信息交互方法、装置及电子设备 Pending CN113066477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110237209.XA CN113066477A (zh) 2021-03-03 2021-03-03 一种信息交互方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110237209.XA CN113066477A (zh) 2021-03-03 2021-03-03 一种信息交互方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113066477A true CN113066477A (zh) 2021-07-02

Family

ID=76559616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110237209.XA Pending CN113066477A (zh) 2021-03-03 2021-03-03 一种信息交互方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113066477A (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101472228A (zh) * 2007-12-28 2009-07-01 上海飞田通信技术有限公司 车辆调度系统及利用该系统通知叫车客户车辆到达的方法
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN103162704A (zh) * 2011-12-14 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及语音提示方法
CN104639745A (zh) * 2015-01-26 2015-05-20 小米科技有限责任公司 语音提示方法及装置
CN104794882A (zh) * 2014-01-16 2015-07-22 南京车联网研究院有限公司 一种出租车智能叫车系统及方法
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN106548621A (zh) * 2015-09-22 2017-03-29 宫鹤 一种基于Android的拼车系统及方法
CN106959690A (zh) * 2017-02-13 2017-07-18 北京百度网讯科技有限公司 无人驾驶车辆的寻找方法、装置、设备及存储介质
CN107392337A (zh) * 2017-07-18 2017-11-24 深圳市盛路物联通讯技术有限公司 一种基于物联网的预约乘车方法及物联网服务器
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
CN108600956A (zh) * 2018-04-13 2018-09-28 武汉元光科技有限公司 乘车指示方法及装置
CN109166305A (zh) * 2018-10-16 2019-01-08 长沙硕铠电子科技有限公司 一种打车提醒方法
CN109709946A (zh) * 2017-10-26 2019-05-03 丰田自动车株式会社 用于自主驾驶车辆的车辆调度系统以及自主驾驶车辆
CN208963013U (zh) * 2018-05-15 2019-06-11 宝沃汽车(中国)有限公司 车载导盲系统和车辆
CN109903771A (zh) * 2019-01-30 2019-06-18 科讯嘉联信息技术有限公司 一种快递场景智能录入地址方法及系统
CN110070889A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 车辆监控方法、装置及存储介质、服务器
CN110827827A (zh) * 2019-11-27 2020-02-21 维沃移动通信有限公司 一种语音播报方法及电子设备
US20200189577A1 (en) * 2011-04-22 2020-06-18 Emerging Automotive, Llc Vehicle Communication with Connected Objects in Proximity to the Vehicle using Cloud Systems
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101472228A (zh) * 2007-12-28 2009-07-01 上海飞田通信技术有限公司 车辆调度系统及利用该系统通知叫车客户车辆到达的方法
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
US20200189577A1 (en) * 2011-04-22 2020-06-18 Emerging Automotive, Llc Vehicle Communication with Connected Objects in Proximity to the Vehicle using Cloud Systems
CN103162704A (zh) * 2011-12-14 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及语音提示方法
CN104794882A (zh) * 2014-01-16 2015-07-22 南京车联网研究院有限公司 一种出租车智能叫车系统及方法
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN104639745A (zh) * 2015-01-26 2015-05-20 小米科技有限责任公司 语音提示方法及装置
CN106548621A (zh) * 2015-09-22 2017-03-29 宫鹤 一种基于Android的拼车系统及方法
CN106959690A (zh) * 2017-02-13 2017-07-18 北京百度网讯科技有限公司 无人驾驶车辆的寻找方法、装置、设备及存储介质
CN107392337A (zh) * 2017-07-18 2017-11-24 深圳市盛路物联通讯技术有限公司 一种基于物联网的预约乘车方法及物联网服务器
CN109709946A (zh) * 2017-10-26 2019-05-03 丰田自动车株式会社 用于自主驾驶车辆的车辆调度系统以及自主驾驶车辆
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
CN108600956A (zh) * 2018-04-13 2018-09-28 武汉元光科技有限公司 乘车指示方法及装置
CN208963013U (zh) * 2018-05-15 2019-06-11 宝沃汽车(中国)有限公司 车载导盲系统和车辆
CN109166305A (zh) * 2018-10-16 2019-01-08 长沙硕铠电子科技有限公司 一种打车提醒方法
CN109903771A (zh) * 2019-01-30 2019-06-18 科讯嘉联信息技术有限公司 一种快递场景智能录入地址方法及系统
CN110070889A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 车辆监控方法、装置及存储介质、服务器
CN110827827A (zh) * 2019-11-27 2020-02-21 维沃移动通信有限公司 一种语音播报方法及电子设备
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩启德等: "《十万个为什么 电子与信息 第六版》", 31 October 2013, 少年儿童出版社 *

Similar Documents

Publication Publication Date Title
CN110705267B (zh) 语义解析方法、装置及存储介质
US9911412B2 (en) Evidence-based natural language input recognition
US8364486B2 (en) Speech understanding method and system
US11289074B2 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
US8352273B2 (en) Device, method, and program for performing interaction between user and machine
CN114186563A (zh) 电子设备及其语义解析方法、介质和人机对话系统
CN111402894B (zh) 语音识别方法及电子设备
CN109256125B (zh) 语音的离线识别方法、装置与存储介质
CN107871503A (zh) 语音对话系统以及发声意图理解方法
CN108885872A (zh) 应答生成装置、对话控制系统以及应答生成方法
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN111399629A (zh) 一种终端设备的操作引导方法、终端设备及存储介质
CN112199486A (zh) 一种办公场景的任务型多轮对话方法及系统
CN115410572A (zh) 语音交互方法、装置、终端、存储介质及程序产品
CN111258529A (zh) 电子设备及其控制方法
CN113066477A (zh) 一种信息交互方法、装置及电子设备
CN117352132A (zh) 心理辅导方法、装置、设备及存储介质
CN117275476A (zh) 数字人的交互方法、装置、电子设备及存储介质
CN108960191B (zh) 一种面向机器人的多模态融合情感计算方法及系统
CN110364169A (zh) 声纹识别方法、装置、设备及计算机可读存储介质
CN112988992A (zh) 一种信息交互方法、装置及电子设备
KR20190083884A (ko) 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
US11646021B2 (en) Apparatus for voice-age adjusting an input voice signal according to a desired age
CN113590800A (zh) 图像生成模型的训练方法和设备以及图像生成方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination