CN113630613A - 一种信息处理方法、装置及存储介质 - Google Patents

一种信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN113630613A
CN113630613A CN202110872708.6A CN202110872708A CN113630613A CN 113630613 A CN113630613 A CN 113630613A CN 202110872708 A CN202110872708 A CN 202110872708A CN 113630613 A CN113630613 A CN 113630613A
Authority
CN
China
Prior art keywords
user
information
type
voice information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110872708.6A
Other languages
English (en)
Other versions
CN113630613B (zh
Inventor
张瀚
李媛媛
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN202110872708.6A priority Critical patent/CN113630613B/zh
Publication of CN113630613A publication Critical patent/CN113630613A/zh
Application granted granted Critical
Publication of CN113630613B publication Critical patent/CN113630613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种信息处理方法,包括:获取针对第一用户的第一语音信息;基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息;本申请还提供一种信息处理装置和存储介质,通过本申请提供的信息处理方法、装置及存储介质,可以提升用户观看直播的体验。

Description

一种信息处理方法、装置及存储介质
技术领域
本申请涉及语音信息处理技术领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
相关技术中,网络直播是指主播人物或虚拟人物在工作室录制视频,通过网络将视频传输至观众。在网络直播的过程中,主播人物或虚拟人物会时长通过语音与观看直播的观众进行互动;但是同一时间主播人物或虚拟人物只能与有限数量的观众进行互动,导致大部分观众没有参与感;因此,如何提升用户观看直播的体验亟需解决。
发明内容
本申请提供一种信息处理方法、装置及存储介质,以至少解决现有技术中存在的以上技术问题。
本申请一方面提供一种信息处理方法,包括:
获取针对第一用户的第一语音信息;
基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;
向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
上述方案中,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称生成第二语音信息之前,所述方法还包括:
确认所述第一用户的用户类型与第二用户的用户类型相同。
上述方案中,若所述第一用户的用户类型与第二用户的用户类型不相同,则向所述第二用户传输所述第一语音信息。
上述方案中,所述基于所述第一语音信息的类型,确认所述第一用户的用户类型包括:
将所述第一语音信息转换为第一文本信息;
识别所述第一文本信息的类型;
基于所述第一文本信息的类型,确认所述第一用户的用户类型。
上述方案中,所述第一语音信息的类型基于第一文本信息分类模型确定,将所述第一语音信息中包括的所述第一用户的昵称替换为所述第二用户的昵称之前,所述方法还包括:
获取第一语音信息样本,将所述第一语音信息样本转换成第一文本信息样本;
确定所述第一文本信息样本对应的文本类型样本标签;
基于所述第一文本信息分类模型确定所述第一文本信息样本对应的文本类型预测标签;
确定所述文本类型样本标签与所述文本类型预测标签之间的差异;
基于所述文本类型样本标签与所述文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。
上述方案中,所述将所述第一语音信息中包括的第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息包括:
识别所述第一文本信息中的第一用户的昵称;
将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,得到所述第二文本信息;
将所述第二文本信息转换为第二语音信息。
本申请第二方面提供一种信息处理装置,所述装置包括:
获取单元,用于获取针对第一用户的第一语音信息;
生成单元,用于基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;
传输单元,用于向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
上述方案中,所述装置还包括:
确认单元,用于确认所述第一用户的用户类型与第二用户的用户类型相同。
本申请第三方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现所述信息处理方法的步骤。
本申请第四方面提供一种计算机刻度存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现所述信息处理方法的步骤。
通过本申请实施例提供的信息处理方法,获取针对第一用户的第一语音信息;基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息;如此,可以提升第一用户和第二用户观看直播的体验。
附图说明
图1示出了本申请实施例提供的信息处理系统的架构示意图;
图2示出了本申请实施例提供的信息处理设备的结构示意图;
图3示出了本申请实施例提供的信息处理方法的一种可选流程示意图;
图4示出了本申请实施例提供的信息处理方法的另一种可选流程示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有的直播通常由主播人物或者虚拟人物(简称主播)在工作室录制相应的视频,通过网络传输给观众观看相应的直播节目。在节目内容本身的间隙当中,主播通常会和观众互动,例如“欢迎‘爱吃鱼的大福’进入直播间”,“祝‘爱吃鱼的大福’生日快乐”,“感谢‘爱吃鱼的大福’赠送的666”等等,这种互动是十分有必要的,它拉近了主播和观众之间的距离,有效提升了观众黏性和打赏这类消费行为的转化率。但是传统直播架构下,主播在同一时间只能和一个观众互动,在直播人数较少的时候这没有问题,但是同时在线的观众数量达到数百或者更多之后,与如此多的观众进行互动就成为了一个不可能的任务,这会导致直播中大部分观众没有参与感,从而不能和主播建立有效连接最终流失。
因此,针对网络直播中存在的缺陷,本申请提供一种信息处理方法,能够克服现有技术的部分或全部缺点。
参见图1,图1是本申请实施例提供的信息处理系统100的架构示意图,为实现支撑一个示例性应用,信息处理设备400通过网络300连接服务器200,其中,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
在一些实施例中,以电子设备是信息处理设备为例,本申请实施例提供的信息处理方法可以由信息处理设备实现。例如,信息处理设备400运行客户端,客户端410可以是用于信息处理的客户端。客户端可以采集第一语音信息,并将所述第一语音信息通过网络300传输至服务器200。
在需要进行语音信息处理时,客户端获取包括第一语音信息,其中,客户端可以通过信息处理设备400内部的音频采集装置,对第一语音信息进行拍摄;也可以接收独立于信息处理设备400的音频采集装置的第一语音信息。
在一些实施例中,以电子设备是服务器为例,本申请实施例提供的信息处理方法可以由服务器和信息处理设备协同实现。
在需要进行语音信息处理时,客户端获取包括第一语音信息,其中,客户端可以通过信息处理设备400内部的音频采集装置,对第一语音信息进行拍摄;也可以接收独立于信息处理设备400的音频采集装置的第一语音信息。然后,服务器200基于所述第一语音信息,确定所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
在一些实施例中,信息处理设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的信息处理方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在实际应用中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。信息处理设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以本申请实施例提供的电子设备是信息处理设备为例说明,可以理解的,对于电子设备是服务器的情况,图2中示出的结构中的部分模块或接口可以缺省。参见图2,图2是本申请实施例提供的信息处理设备400的结构示意图,图2所示的信息处理设备400包括:至少一个处理器460、存储器450和至少一个网络接口420;可选的,所述信息处理设备400还可以包括用户接口430。信息处理设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器460可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器460的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory,ROM),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的信息处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取单元4551、生成单元4552、传输单元4553以及确认单元4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的信息处理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的信息处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific IntegratedCircuit,ASIC)、DSP、可编程逻辑器件(Programmable Logic Device,PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或其他电子元件。
基于上述对本申请实施例提供的信息处理系统及信息处理设备的说明,下面说明本申请实施例提供的信息处理方法。在一些实施例中,本申请实施例提供的信息处理方法可由服务器或运输设备单独实施,或由服务器及运输设备协同实施,下面以信息处理设备实施为例说明本申请实施例提供的信息处理方法。参见图3示出了本申请实施例提供的信息处理方法的一种可选流程示意图,将根据各个步骤进行说明。
步骤S101,获取针对第一用户的第一语音信息。
在一些实施例中,信息处理装置(以下简称装置)可以基于语音采集设备直接获取第一语音信息,也可以基于网络获取服务器发送的第一语音信息。
所述第一语音信息可以是主播在直播过程中产生直接获取的,也可以是主播在直播的过程中产生并录制形成的,本申请不作具体限定。
步骤S102,基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息。
在一些实施例中,所述装置基于所述第一语音信息包括的内容,确定所述第一语音信息的类型。
在一些实施例中,所述装置将所述第一语音信息转换为第一文本信息;将所述第一文本信息输入至所述文本信息模型中,输出所述第一文本信息的类型;基于所述第一文本信息的类型,确认所述第一用户的用户类型。
在一些实施例中,所述装置可以基于所述第二用户最近一次的操作或者所述第二用户的用户信息,确认所述第二用户的用户类型。若所述装置确认所述第一用户的用户类型与所述第二用户的用户类型相同,则所述装置将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息。
具体实施时,所述装置可以识别所述第一文本信息中的第一用户的昵称;将所述第一语音信息转换为第一文本信息,将所述第一文本信息中包括的第一用户的昵称替换为第二用户的昵称,生成第二文本信息,将所述第二文本信息转换成第二语音信息。
具体实施时,所述装置可以基于第一文本信息分类模型,确定所述第一语音信息的类型。所述文本信息模型可以是所述装置接收所述第一语音信息之前训练并测试的。
具体实施时,所述装置获取第一语音信息样本,将所述第一语音信息样本转换成第一文本信息样本;确定所述第一文本信息样本对应的文本类型样本标签;基于所述第一文本信息分类模型确定所述第一文本信息样本对应的文本类型预测标签;确定所述文本类型样本标签与所述文本类型预测标签之间的差异;基于所述文本类型样本标签与所述文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。如此,完成所述文本信息模型的训练。可选的,所述装置还可以基于第二语音信息样本对所述第一文本信息分类模型进行测试。
在一些可选实施例中,所述用户类型可以包括第一用户类型、第二用户类型和第三用户类型。其中,所述第一用户的用户信息中的出生日期为直播日期,所述第一用户的用户类型为第一用户类型(如用户是2001年1月1日出生,直播日期是2021年1月1日,则确定用户资料中的出生日期与直播日期相同);在预设时间内进入直播间的用户为第二用户类型;与主播进行互动的用户为第三用户类型(例如送主播礼物、在主播的直播间刷弹幕等)。其中,预设时间可以基于实际需求设置,例如1分钟、2分钟、5分钟等,本申请实施例不作具体限制。
步骤S103,向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
在一些实施例中,若确认所述第一用户的用户类型与第二用户的用户类型相同;则所述装置向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
在另一些实施例中,若所述第一用户的用户类型与第二用户的用户类型不相同,则所述装置向所述第二用户传输所述第一语音信息。
如此,通过本申请实施例提供的信息处理方法,信息处理装置获取针对第一用户的第一语音信息;基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。如此,在主播与第一用户进行互通时,与第一用户的用户类型相同的第二用户可以接收到针对第二用户的第二语音信息,实现了主播同时与多人进行直播互动,提升用户体验的同时,还增加了用户粘性。
图4示出了本申请实施例提供的信息处理方法的另一种可选流程示意图,将根据各个步骤进行说明。
步骤S201,训练第一文本信息分类模型。
在一些实施例中,信息处理装置训练第一文本信息分类模型,所述第一文本信息分类模型用于确定第一语音信息的类型。
具体实施时,所述装置获取第一语音信息样本,将所述第一语音信息样本转换成第一文本信息样本;确定所述第一文本信息样本对应的文本类型样本标签;基于所述第一文本信息分类模型确定所述第一文本信息样本对应的文本类型预测标签;确定所述文本类型样本标签与所述文本类型预测标签之间的差异;基于所述文本类型样本标签与所述文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。如此,完成所述第一文本信息分类模型的训练。
可选的,所述装置还可以基于第二语音信息样本对所述第一文本信息分类模型进行测试。所述装置将所述第二语音信息样本转换为第二文本信息样本;确定所述第二文本信息样本对应的文本类型样本标签;基于所述第一文本信息分类模型确定所述第二文本信息样本对应的文本类型预测标签;确定第二文本信息样本的文本类型样本标签与第二文本信息样本的文本类型预测标签之间的差异;基于第二文本信息样本的文本类型样本标签与第二文本信息样本的文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。
步骤S202,训练第二文本信息分类模型。
在一些实施例中,所述装置训练第二文本信息分类模型,所述第二文本信息分类模型用于识别用户的昵称。
具体实施时,所述装置获取第三语音信息样本,将所述第三语音信息样本转换成第三文本信息样本;确定所述第三文本信息样本对应的用户昵称样本标签;基于所述第二文本信息分类模型确定所述第三文本信息样本对应的用户昵称预测标签;确定所述用户昵称样本标签与所述用户昵称预测标签之间的差异;基于所述用户昵称样本标签与所述用户昵称预测标签之间的差异调整所述第二文本信息分类模型的模型参数。如此,完成所述第二文本信息分类模型的训练。
可选的,所述装置还可以基于第四语音信息样本对所述第二文本信息分类模型进行测试。所述装置将所述第四语音信息样本转换为第四文本信息样本;确定所述第四文本信息样本对应的用户昵称样本标签;基于所述第二文本信息分类模型确定所述第四文本信息样本对应的用户昵称预测标签;确定第四文本信息样本的用户昵称样本标签与第四文本信息样本的用户昵称预测标签之间的差异;基于第四文本信息样本的用户昵称样本标签与第四文本信息样本的用户昵称预测标签之间的差异调整所述第二文本信息分类模型的模型参数。
步骤S203,获取针对第一用户的第一语音信息。
在一些实施例中,信息处理装置可以基于语音采集设备直接获取第一语音信息,也可以基于网络获取服务器发送的第一语音信息。
所述第一语音信息可以是主播在直播过程中产生直接获取的,也可以是主播在直播的过程中产生并录制形成的,本申请不作具体限定。
步骤S204,判断第一语音信息的类型。
在一些实施例中,所述装置可以将所述第一语音信息直接输入至所述第一文本信息分类模型中,也可以将所述第一语音信息转换成第一文本信息后,输入至所述第一文本信息分类模型。
可选的,所述装置可以基于所述第一文本信息分类模型,确定所述第一语音信息为第一类型或第二类型;其中,所述第一类型可以包括所述第一语音信息中包括互动内容;所述第二类型可以包括所述第一语音信息中不包括互动内容。若所述装置确定所述第一文本信息为第一类型,则执行步骤S205,若所述装置确定所述第一文本信息为第二类型,则执行步骤S208。
步骤S205,判断第一用户与第二用户的用户类型是否相同。
在一些实施例中,所述装置基于所述第一用户的用户信息和/或所述第一用户在所述第一语音信息产生之前的最近一次的操作,确认所述第一用户的用户类型。
例如,所述第一用户的用户信息中的出生日期为直播日期,所述第一用户的用户类型为第一用户类型;或者,所述第一用户在所述第一语音信息产生之前进入直播间,所述第一用户的用户类型为第二用户类型;或者,所述第一用户在所述第一语音信息产生之前向主播赠送礼物,所述第一用户的类型为第三用户类型。
可选的,赠送的礼物不同,所述用户的用户类型也不同。
在一些实施例中,所述装置基于所述第二用户的用户信息和/或所述第二用户的最近一次的操作,确认所述第二用户的用户类型。
例如,所述第二用户的用户信息中的出生日期为直播日期,所述第二用户的用户类型为第一用户类型;或者,所述第二用户在第一语音信息产生之前或之后的预设时间内进入直播间,所述第一用户的用户类型为第二用户类型;或者,所述第二用户在所述第一语音信息产生之前向主播赠送礼物,所述第二用户的类型为第三用户类型。
其中,预设时间可以基于实际需求设置,例如1分钟、2分钟、5分钟等,本申请实施例不作具体限制。例如针对第一用户类型的语音信息10:55:00秒产生,则在10:55:00秒之前1分钟或之后1分钟进入直播间的第二用户,均为第二用户类型的用户。
在一些实施例中,所述装置判断第一用户与第二用户的用户类型是否相同,所述第一用户与第二用户的用户类型相同,则执行步骤S206,若所述第一用户与第二用户的用户类型不同,则执行步骤S208。
步骤S206,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息。
在一些实施例中,所述装置基于第二文本信息分类模型识别所述第一文本信息中的第一用户的昵称;将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,得到所述第二文本信息;将所述第二文本信息转换为第二语音信息。
例如,第一语音信息为“欢迎第一用户”,相应的,将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,第二文本信息为“欢迎第二用户”。
步骤S207,向第一用户传输述第一语音信息,以及向所述第二用户传输所述第二语音信息。
在一些实施例中,所述装置向第一用户传输述第一语音信息,以及向所述第二用户传输所述第二语音信息。
例如,第一语音信息为“欢迎第一用户”,相应的,将将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,第二文本信息为“欢迎第二用户”;第一用户接收到的语音信息为“欢迎第一用户”,第二用户接收到的语音信息为“欢迎第二用户”。如此,实现主播同时与多个用户的互动。
步骤S208,向第一用户传输第一语音信息,以及向第二用户传输第一语音信息。
在一些实施例中,所述装置向第一用户传输述第一语音信息,以及向所述第二用户传输所述第一语音信息。
例如,第一语音信息为“谢谢第一用户送的礼物”,若第二用户没有送主播礼物,则第一用户与第二用户接收到的语音信息均是“谢谢第一用户送的礼物”
或者,第一语音信息为直播时主播的讲解操作,则第一用户与第二用户接收到的语音信息均是相应的讲解内容。
如此,通过本申请实施例,在主播与用户有互动的情况下,将相同用户类型的语音信息分别替换为用户昵称,实现同一时间与多名用户进行互动,提升直播间用户的参与感,建立用户与主播之间的有效连接。
下面继续说明本申请实施例提供的信息处理装置455实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的信息处理装置455中的软件模块可以包括:获取单元4551,用于获取针对第一用户的第一语音信息;生成单元4552,用于基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息;传输单元4553,用于向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息;确认单元4554,用于确认所述第一用户的用户类型与第二用户的用户类型相同。
所述传输单元4553,还用于若所述第一用户的用户类型与第二用户的用户类型不相同,则向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第一语音信息。
所述生成单元4552,还用于将所述第一语音信息转换为第一文本信息;识别所述第一文本信息的类型;基于所述第一文本信息的类型,确认所述第一用户的用户类型。
所述生成单元4552,还用于获取第一语音信息样本,将所述第一语音信息样本转换成第一文本信息样本;确定所述第一文本信息样本对应的文本类型样本标签;基于所述第一文本信息分类模型确定所述第一文本信息样本对应的文本类型预测标签;确定所述文本类型样本标签与所述文本类型预测标签之间的差异;基于所述文本类型样本标签与所述文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。
所述生成单元4552,具体用于识别所述第一文本信息中的第一用户的昵称;将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,得到所述第二文本信息;将所述第二文本信息转换为第二语音信息。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取针对第一用户的第一语音信息;
基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为第二用户的昵称,生成第二语音信息;
向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一语音信息中包括的所述第一用户的昵称替换为所述第二用户的昵称,生成第二语音信息之前,所述方法还包括:
确认所述第一用户的用户类型与第二用户的用户类型相同。
3.根据权利要求2所述的方法,其特征在于,
若所述第一用户的用户类型与第二用户的用户类型不相同,则向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第一语音信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音信息的类型,确认所述第一用户的用户类型包括:
将所述第一语音信息转换为第一文本信息;
识别所述第一文本信息的类型;
基于所述第一文本信息的类型,确认所述第一用户的用户类型。
5.根据权利要求1所述的方法,其特征在于,所述第一语音信息的类型基于第一文本信息分类模型确定,将所述第一语音信息中包括的所述第一用户的昵称替换为所述第二用户的昵称之前,所述方法还包括:
获取第一语音信息样本,将所述第一语音信息样本转换成第一文本信息样本;
确定所述第一文本信息样本对应的文本类型样本标签;
基于所述第一文本信息分类模型确定所述第一文本信息样本对应的文本类型预测标签;
确定所述文本类型样本标签与所述文本类型预测标签之间的差异;
基于所述文本类型样本标签与所述文本类型预测标签之间的差异调整所述第一文本信息分类模型的模型参数。
6.根据权利要求4所述的方法,其特征在于,所述将所述第一语音信息中包括的第一用户的昵称,替换为所述第二用户的昵称,生成第二语音信息包括:
识别所述第一文本信息中的第一用户的昵称;
将所述第一文本信息中的第一用户昵称替换为所述第二用户昵称,得到所述第二文本信息;
将所述第二文本信息转换为第二语音信息。
7.一种信息处理装置,其特征在于,所述装置包括:
获取单元,用于获取针对第一用户的第一语音信息;
生成单元,用于基于所述第一语音信息的类型,将所述第一语音信息中包括的所述第一用户的昵称,替换为第二用户的昵称,生成第二语音信息;
传输单元,用于向所述第一用户传输所述第一语音信息,以及向所述第二用户传输所述第二语音信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
确认单元,用于确认所述第一用户的用户类型与第二用户的用户类型相同。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN202110872708.6A 2021-07-30 2021-07-30 一种信息处理方法、装置及存储介质 Active CN113630613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110872708.6A CN113630613B (zh) 2021-07-30 2021-07-30 一种信息处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110872708.6A CN113630613B (zh) 2021-07-30 2021-07-30 一种信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113630613A true CN113630613A (zh) 2021-11-09
CN113630613B CN113630613B (zh) 2023-11-10

Family

ID=78381863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110872708.6A Active CN113630613B (zh) 2021-07-30 2021-07-30 一种信息处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113630613B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821146A (zh) * 2012-07-27 2012-12-12 深圳市有伴科技有限公司 基于移动终端应用的个性化交互方法及系统
CN107749931A (zh) * 2017-09-29 2018-03-02 携程旅游信息技术(上海)有限公司 互动式语音应答的方法、系统、设备及存储介质
CN108809809A (zh) * 2018-06-08 2018-11-13 腾讯科技(武汉)有限公司 消息发送方法、计算机设备及存储介质
JP2019079070A (ja) * 2019-01-28 2019-05-23 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN111798853A (zh) * 2020-03-27 2020-10-20 北京京东尚科信息技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112135160A (zh) * 2020-09-24 2020-12-25 广州博冠信息科技有限公司 直播中虚拟对象控制方法及装置、存储介质和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821146A (zh) * 2012-07-27 2012-12-12 深圳市有伴科技有限公司 基于移动终端应用的个性化交互方法及系统
CN107749931A (zh) * 2017-09-29 2018-03-02 携程旅游信息技术(上海)有限公司 互动式语音应答的方法、系统、设备及存储介质
CN108809809A (zh) * 2018-06-08 2018-11-13 腾讯科技(武汉)有限公司 消息发送方法、计算机设备及存储介质
JP2019079070A (ja) * 2019-01-28 2019-05-23 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN111798853A (zh) * 2020-03-27 2020-10-20 北京京东尚科信息技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112135160A (zh) * 2020-09-24 2020-12-25 广州博冠信息科技有限公司 直播中虚拟对象控制方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN113630613B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN110351572B (zh) 直播间信息的更新方法、装置、设备及存储介质
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
CN109429522A (zh) 语音交互方法、装置及系统
CN111629253A (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN110428825B (zh) 用于忽略流式媒体内容中的触发词的方法和系统
CN111800668B (zh) 弹幕的处理方法、装置、设备及存储介质
WO2022053004A1 (zh) 邮件处理方法、装置、电子设备及计算机可读介质
US11095957B2 (en) Method and apparatus for publishing information, and method and apparatus for processing information
CN111163330A (zh) 直播视频的渲染方法、装置、系统、设备及存储介质
KR101385316B1 (ko) 로봇을 이용한 광고 및 콘텐츠 연계형 대화 서비스 제공 시스템 및 그 방법
KR20170029466A (ko) 메신저를 통한 컨텐츠 제공 방법과 시스템 및 기록 매체
CN112492329B (zh) 直播方法和装置
CN103414866A (zh) 播放在线音视频的方法、嵌入式多媒体设备及电视
US10997963B1 (en) Voice based interaction based on context-based directives
CN113873288A (zh) 在直播过程中生成回放的方法和装置
CN111147894A (zh) 一种手语视频的生成方法、装置及系统
CN113630613B (zh) 一种信息处理方法、装置及存储介质
CN108289056B (zh) 分享动态图表的方法、装置以及计算设备
CN113420133B (zh) 一种会话处理方法、装置、设备及存储介质
CN113992619B (zh) 直播信息的处理方法、装置、设备及计算机可读存储介质
CN115686408A (zh) 用于远程应用程序共享的内容外观转换
CN110634478A (zh) 用于处理语音信号的方法及装置
CN113852835A (zh) 直播音频处理方法、装置、电子设备以及存储介质
CN108881978B (zh) 用于智能设备的资源播放方法和装置
CN113117340A (zh) 游戏运行方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant