CN110111793B - 音频信息的处理方法、装置、存储介质及电子装置 - Google Patents

音频信息的处理方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110111793B
CN110111793B CN201810103534.5A CN201810103534A CN110111793B CN 110111793 B CN110111793 B CN 110111793B CN 201810103534 A CN201810103534 A CN 201810103534A CN 110111793 B CN110111793 B CN 110111793B
Authority
CN
China
Prior art keywords
information
client
audio
audio information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810103534.5A
Other languages
English (en)
Other versions
CN110111793A (zh
Inventor
李龙彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810103534.5A priority Critical patent/CN110111793B/zh
Priority to JP2020541391A priority patent/JP7071514B2/ja
Priority to PCT/CN2019/072957 priority patent/WO2019149132A1/zh
Publication of CN110111793A publication Critical patent/CN110111793A/zh
Priority to US16/906,525 priority patent/US11475894B2/en
Application granted granted Critical
Publication of CN110111793B publication Critical patent/CN110111793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种音频信息的处理方法、装置、存储介质及电子装置。其中,该方法包括:在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;在客户端上显示第一信息、第二信息和第三信息。本发明解决了对音频信息进行处理时的处理效率较低的技术问题。

Description

音频信息的处理方法、装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种音频信息的处理方法、装置、存储介质及电子装置。
背景技术
在用户与应用程序客户端互动的过程中,往往需要用户向客户端中输入信息,比如:打字、手写等输入方式,为了使人机的交互更加方便,还可以语音输入,客户端会识别用户输入的音频信息并对用户的指示进行反馈,但通常反馈的内容往往并不是用户真正想要得到的,这就导致对音频信息进行处理时的处理效率较低,无法满足用户真正的需求,使得用户体验度较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种音频信息的处理方法、装置、存储介质及电子装置,以至少解决对音频信息进行处理时的处理效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种音频信息的处理方法,包括:在客户端上检测到正在接收一段音频信息,其中,在所述客户端上当前已接收到所述一段音频信息中的第一部分音频信息;根据所述当前已接收到的所述第一部分音频信息获取第一信息、第二信息和第三信息,其中,所述第一信息包括所述第一部分音频信息对应的文本信息,所述第二信息包括所述第一信息对应的满足目标条件的信息,所述第三信息包括根据所述第一信息中的关键词获取的待推送给所述客户端的信息;在所述客户端上显示所述第一信息、所述第二信息和所述第三信息。
根据本发明实施例的另一方面,还提供了一种音频信息的处理方法,包括:接收客户端发送的第一部分音频信息,其中,在所述客户端上检测到正在接收一段音频信息,所述第一部分音频信息为在所述客户端上当前已接收到的所述一段音频信息中的部分音频信息;将所述第一部分音频信息转换为第一信息,并将所述第一信息发送至所述客户端,其中,所述第一信息包括所述第一部分音频信息对应的文本信息;对所述第一信息进行编辑得到第二信息,并根据所述第一信息中携带的关键词获取第三信息,其中,所述第二信息包括所述第一信息对应的满足目标条件的信息,所述第三信息包括待推送给所述客户端的信息;将所述第二信息和所述第三信息发送至所述客户端。
根据本发明实施例的另一方面,还提供了一种音频信息的处理装置,包括:检测模块,用于在客户端上检测到正在接收一段音频信息,其中,在所述客户端上当前已接收到所述一段音频信息中的第一部分音频信息;第一获取模块,用于根据所述当前已接收到的所述第一部分音频信息获取第一信息、第二信息和第三信息,其中,所述第一信息包括所述第一部分音频信息对应的文本信息,所述第二信息包括所述第一信息对应的满足目标条件的信息,所述第三信息包括根据所述第一信息中的关键词获取的待推送给所述客户端的信息;第一显示模块,用于在所述客户端上显示所述第一信息、所述第二信息和所述第三信息。
根据本发明实施例的另一方面,还提供了一种音频信息的处理装置,包括:第一接收模块,用于接收客户端发送的第一部分音频信息,其中,在所述客户端上检测到正在接收一段音频信息,所述第一部分音频信息为在所述客户端上当前已接收到的所述一段音频信息中的部分音频信息;转换模块,用于将所述第一部分音频信息转换为第一信息,并将所述第一信息发送至所述客户端,其中,所述第一信息包括所述第一部分音频信息对应的文本信息;第四处理模块,用于对所述第一信息进行编辑得到第二信息,并根据所述第一信息中携带的关键词获取第三信息,其中,所述第二信息包括所述第一信息对应的满足目标条件的信息,所述第三信息包括待推送给所述客户端的信息;发送模块,用于将所述第二信息和所述第三信息发送至所述客户端。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本发明实施例中,采用在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;在客户端上显示第一信息、第二信息和第三信息的方式,当在客户端上检测到正在接收一段音频信息时,根据在客户端上当前已接收到一段音频信息中的第一部分音频信息获取该第一部分音频信息对应的文本信息作为第一信息,并获取第一信息对应的满足目标条件的信息作为第二信息,以及获取根据第一信息中的关键词获取的待推送给客户端的信息作为第三信息,将第一信息,第二信息和第三信息同时显示在客户端上,在用户进行音频输入的同时实时为用户提供更加准确、丰富的反馈信息,从而使得用户可以在音频输入的同时根据获取到的信息执行不同的操作,从而实现了提高对音频信息进行处理时的处理效率的技术效果,进而解决了对音频信息进行处理时的处理效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的音频信息的处理方法的示意图;
图2是根据本发明实施例的一种可选的音频信息的处理方法的应用环境示意图一;
图3是根据本发明实施例的一种可选的音频信息的处理方法的应用环境示意图三;
图4是根据本发明可选的实施方式的一种可选的音频信息的处理方法的示意图一;
图5是根据本发明可选的实施方式的一种可选的音频信息的处理方法的示意图二;
图6是根据本发明可选的实施方式的一种可选的音频信息的处理方法的示意图三;
图7是根据本发明可选的实施方式的一种可选的音频信息的处理方法的示意图四;
图8是根据本发明可选的实施方式的一种可选的音频信息的处理方法的示意图五;
图9是根据本发明实施例的另一种可选的音频信息的处理方法的示意图;
图10是根据本发明实施例的一种可选的音频信息的处理装置的示意图;
图11是根据本发明实施例的另一种可选的音频信息的处理装置的示意图;
图12是根据本发明实施例的一种可选的音频信息的处理方法的应用场景示意图;
图13是根据本发明实施例的另一种可选的音频信息的处理方法的应用场景示意图;以及
图14是根据本发明实施例的一种可选的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种音频信息的处理方法,如图1所示,该方法包括:
S102,在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;
S104,根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;
S106,在客户端上显示第一信息、第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理方法可以应用于如图2所示的终端202、服务器204和网络206所构成的硬件环境中。如图2所示,终端202通过网络206与服务器204连接。客户端208安装在终端202上。终端202用于在客户端208上检测到正在接收一段音频信息,其中,在客户端208上当前已接收到一段音频信息中的第一部分音频信息;根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端208的信息。终端202检测到正在接收一段音频信息时可以将第一部分音频信息发送给服务器204。服务器204接收客户端208发送的第一部分音频信息;将第一部分音频信息转换为第一信息,并将第一信息发送至客户端208;对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息;将第二信息和第三信息发送至客户端208。终端202接收服务器204发送的第一信息、第二信息和第三信息,并在客户端208上显示第一信息、第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理方法还可以应用于如图3所示的终端302所构成的硬件环境中。如图3所示,终端302上安装有用于对音频信息进行处理的客户端304。终端302在客户端304上通过检测客户端304显示界面上的对话筒图标的触摸(图3中话筒图标上的黑色圆点所示为用户对话筒图标进行了触摸)检测到客户端304上正在接收一段音频信息,在客户端304的显示界面上随着一段音频信息的输入,实时显示根据已接收到该一段音频信息中的第一部分音频信息获取的第一信息、第二信息和第三信息。该第一信息为第一部分音频信息对应的文本信息,第二信息为第一信息对应的满足目标条件的信息,第三信息为根据第一信息中的关键词获取的待推送给客户端的信息。第一信息、第二信息和第三信息是随着第一部分音频信息的更新而实时更新的,即在客户端304接收一段音频信息的同时将已经接收到的部分信息转换为文字作为第一信息显示在客户端的界面上,同时将第一信息转换为第二信息,并根据第一信息中携带的关键词得到第三信息,在显示第一信息的同时在客户端304的界面上显示该第一信息对应的第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理方法可以但不限于应用于客户端上接收用户语音输入的信息的场景中。其中,上述客户端可以但不限于为各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用上接收用户语音输入的信息的场景中,或还可以但不限于应用于在上述即时通信应用上接收用户语音输入的信息的场景中,以提高对音频信息进行处理时的处理效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述音频信息的处理方法可以但不限于应用于终端设备侧。例如:手机、平板电脑、PC计算机、智能穿戴设备、智能家居设备等等。
可选地,在本实施例中,音频信息可以但不限于为语音信息,歌曲、视频中的音频信息等等。
可选地,在本实施例中,客户端检测是否正在接收一段音频信息的方式可以但不限于是通过检测客户端上显示的图标接收到的操作信息。例如:如图4所示,客户端上显示会话界面,在会话界面上显示“话筒”图标,以指示用户通过操作该图标输入音频信息,用户在输入一段音频信息时可以持续触摸该图标,客户端通过检测该连续的触摸操作确定正在接收一段音频信息,当检测到该触摸操作中断时,则确定用户已经结束本次的音频信息的输入。或者,在另一种方式下,可以检测该图标上的点击操作,当检测到第一次点击操作时,确定开始接收一段音频信息,当检测到第二次点击操作时,确定结束接收这一段音频信息。
可选地,在本实施例中,上述第一部分音频信息是客户端上检测到的正在接收的一段音频信息中已经接收到的部分。客户端上检测到的正在接收的一段音频信息可能是用户说的一段话、一首歌曲中的几句歌词、一段视频中的某些台词等等。那么,接收到这些音频信息的过程可能会持续一段时间,在这段时间内实时地将已经接收到的第一部分音频信息转换成的文本信息显示在客户端上,能够实时地向用户展示已经接收到的信息的内容。将上述文本信息对应的满足目标条件的信息实时展示在客户端上,如果该信息即为用户希望输入的信息,那么用户可以直接使用该信息执行后续的操作,不必继续进行音频信息的输入,节省了时间。此外,将根据文本信息中的关键词获取的待推送的信息显示在客户端上,能够实时地向用户推荐其可能感兴趣的内容,提高了用户的互动体验。
可选地,在本实施例中,上述目标条件可以但不限于包括:目标语法规则(该语法规则可以指文本信息对应的语言中规定的语法规则,可以通过深度学习的训练过程获取,或者也可以是人为设置的规则),或者,目标语义规则,例如:语义完整(完整可以指语句不缺少成分,例如:语句具有主语、谓语、宾语、定语、状语、补语,或者,也可以指语句能够表达一个完整的意思),或者,既满足目标语法规则又满足目标语义规则等等。
在一个可选的实施方式中,如图5所示,客户端上显示了输入音频信息的会话界面,用户通过点击“话筒”图标输入语音信息作为上述一段音频信息,用户原本希望输入的语音为“今天北京的天气如何”。用户正在说话时,检测到正在接收这一段音频信息,此时用户对这话筒说出了“今天”,则客户端将“今天”作为第一部分音频信息,根据该第一部分音频信息获取第一信息为“今天”,第一信息对应的满足目标条件的第二信息为“今天是星期日”。根据该第一信息中的关键词获取的待推送给客户端的第三信息为三个今天的新闻,新闻1、新闻2和新闻3。在客户端上显示“今天”、“今天是星期日”和“新闻1、新闻2和新闻3”。接下来,用户会继续说出“北京的”,此时客户端将“今天北京的”作为第一部分音频信息,获取第一信息为“今天北京的”,第一信息对应的满足目标条件的第二信息为“今天北京的天气”。根据该第一信息中的关键词获取的待推送给客户端的第三信息为今天北京的天气、今天北京的活动、今天北京的新闻。在客户端上显示“今天北京的”、“今天北京的天气”和“今天北京的天气、今天北京的活动、今天北京的新闻”。用户看到此时客户端上显示的内容后发现“今天北京的天气”是他希望获取的内容,他可以点击客户端上显示的第二消息作为完整的输入信息,或者,点击客户端上显示的第三信息中的“今天北京的天气”来查看天气信息。
可选地,在本实施例中,在客户端上显示了第一信息、第二信息和第三信息之后,可以检测这些信息上的操作信息,用户可以直接对这些信息执行操作,客户端将根据不同的操作为用户提供不同的反馈。
例如:用户可以通过点击第一信息来对第一信息进行编辑。可以通过点击第二信息获取第二信息对应的响应信息。通过点击第三信息查看第三信息对应的页面等等。
可选地,在本实施例中,用户可以对第一信息进行编辑操作,可以在检测到对第一信息执行的第三操作的情况下,接收对第一信息执行的编辑操作,并将编辑操作执行后的编辑结果显示在客户端上。
可选地,在本实施例中,检测到用户对第一信息的点击操作后,可以在客户端上显示一个携带有第一信息的文本输入框,在文本输入框中检测用户对第一信息执行的编辑操作,当编辑结束后将文本输入框中的编辑结果作为第四信息显示在客户端上。例如:在客户端上显示携带有第一信息的文本输入框,检测对文本输入框中的第一信息执行的编辑操作,响应编辑操作在文本输入框中显示编辑结果,在检测到编辑完成指令的情况下,在一段音频信息对应的会话界面上显示目标编辑结果对应的第四信息,其中,目标编辑结果为检测到编辑完成信息后在文本输入框中显示的编辑结构,编辑完成指令用于指示编辑操作已结束。
可选地,在本实施例中,客户端可以根据显示的第四信息获取第四信息对应的反馈信息并显示在客户端上。例如:获取第四信息对应的反馈信息,将反馈信息显示在会话界面上。
可见,通过上述步骤,当在客户端上检测到正在接收一段音频信息时,根据在客户端上当前已接收到一段音频信息中的第一部分音频信息获取该第一部分音频信息对应的文本信息作为第一信息,并获取第一信息对应的满足目标条件的信息作为第二信息,以及获取根据第一信息中的关键词获取的待推送给客户端的信息作为第三信息,将第一信息,第二信息和第三信息同时显示在客户端上,在用户进行音频输入的同时实时为用户提供更加准确、丰富的反馈信息,从而使得用户可以在音频输入的同时根据获取到的信息执行不同的操作,从而实现了提高对音频信息进行处理时的处理效率的技术效果,进而解决了对音频信息进行处理时的处理效率较低的技术问题。
作为一种可选的方案,在客户端上显示第一信息、第二信息和第三信息之后,还包括:
S1,在检测到对第二信息执行的第一操作的情况下,获取第二信息对应的响应信息;
S2,将响应信息显示在客户端上;
其中,满足目标条件包括以下至少之一:满足目标语法规则,满足目标语义规则。
可选地,在本实施例中,第一操作可以但不限于为点击操作。例如:如图6所示,在客户端上显示有第一信息、第二信息和第三信息,在检测到对第二信息执行的点击操作的情况下,获取第二信息对应的响应信息,并将响应信息显示在客户端上。
可选地,在本实施例中,通过设置目标语法规则对第一信息的语法错误进行纠正。通过设置目标语义规则对第一信息或者纠正语法错误后的改写信息进行语义的补充,以得到语法正确且语义完整的第二信息。
可选地,在本实施例中,第一信息对应的满足目标条件的信息可以为按照目标语法规则对第一信息的语法进行纠错,并根据纠错结果对第一信息进行改写得到改写信息,再按照目标语义规则对改写信息进行补充所得到的信息。
作为一种可选的方案,在客户端上显示第一信息、第二信息和第三信息之后,还包括:
S1,在检测到对第三信息执行的第二操作的情况下,向第三信息对应的第一服务器请求第三信息对应的页面;
S2,接收第一服务器返回的页面;
S3,在客户端上显示页面。
可选地,在本实施例中,第二操作可以但不限于为点击操作。例如:如图7所示,在客户端上显示有第一信息、第二信息和第三信息,在检测到对第三信息执行的点击操作的情况下,向第三信息对应的第一服务器请求第三信息对应的页面,并接收第一服务器返回的所述页面,将接收到的页面显示在客户端上。
可选地,在本实施例中,上述第三信息可以但不限于包括:内容信息以及一个或者多个提示信息,其中,内容信息用于指示待推送给客户端的信息的内容,检测到的对第三信息执行的第三操作可以但不限于包括:对内容信息执行的第一子操作,对一个或者多个提示信息中目标提示信息执行的第二子操作,向第三信息对应的第一服务器请求第三信息对应的页面可以但不限于包括请求以上两种形式的第三信息中的任意一种或者多种信息对应的页面。例如:在检测到对内容信息执行的第一子操作的情况下,向第一服务器请求内容信息对应的第一页面,其中,第二操作包括第一子操作;在检测到对一个或者多个提示信息中目标提示信息执行的第二子操作的情况下,向第一服务器请求目标提示信息对应的第二页面,其中,第二页面与第一页面为属于相同领域的不同页面,或者,第二页面与第一页面所属的领域不同,第二操作包括第二子操作。
在一个可选的实施方式中,如图8所示,客户端上显示有第一信息,第二信息,内容信息,第一提示信息和第二提示信息,其中,第一信息为第一部分音频信息对应的文本信息“讲笑话”,第二信息为第一信息对应的满足目标条件的信息“讲笑话是一件考验语言功底的事情”。内容信息为根据第一信息中的关键词“笑话”获取的推送给客户端的信息“一则笑话:问:要把大象装冰箱,总共分几步。答:三步,第一步把冰箱门打开,第二步把大象装进去,第三步把冰箱门关上。”第一提示信息为“再来一个”的图标,第二提示信息为“搞笑图片”的图标。用户可以根据需要点击自己希望获取的信息,比如,客户端可以检测内容信息上的点击操作,如果检测到则客户端界面跳转至该笑话所在的网页页面。客户端可以检测第一提示信息上的点击操作,如果检测到则客户端获取另一则笑话显示在当前界面上。客户端还可以检测第二提示信息上的点击操作,如果检测到则客户端可以获取一张搞笑图片显示在当前界面上(图8中未示出),也可以将界面跳转至搞笑图片的网页页面。
作为一种可选的方案,根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息包括:
S1,从开始接收一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,其中,信息请求中携带有第二部分音频信息,信息请求用于请求第二部分音频信息对应的第一信息、第二信息和第三信息,第二部分音频信息为当前时间间隔内接收到的音频信息;
S2,接收第二部分音频信息对应的第一信息、第二信息和第三信息,其中,第一信息、第二信息和第三信息为根据当前已接收到的第一部分音频信息获取到的信息,第一部分音频信息为对第二部分音频信息和第三部分音频信息按照时间顺序进行拼接得到的信息,第三部分音频信息为在当前时间间隔之前的时间内接收到的一段音频信息中的音频信息。
可选地,在本实施例中,客户端可以与第二服务器进行交互,从而每隔目标时间间隔获取到当前时间间隔的第一信息、第二信息和第三信息。上述第一信息、第二信息和第三信息的转换过程也可以由客户端来执行。
可选地,在本实施例中,可以通过设置目标时间间隔来配置客户端上显示第一信息、第二信息和第三信息的频率。例如:目标时间间隔可以设置为200ms,客户端在接收一段音频信息的过程中,每隔200ms向第二服务器发送一次第二部分音频信息,从而获取第二服务器返回的第一信息、第二信息和第三信息,并将其显示在客户端上。
可选地,在本实施例中,在客户端按照目标时间间隔发送当前时间间隔对应的信息请求的过程中,该一段音频信息的持续时间可能并不是目标时间间隔的整数倍,为了确保实时在客户端上更新第一信息、第二信息和第三信息,对于一段音频信息没有与一个目标时间间隔同时结束的情况,客户端可以在结束接收一段音频信息的同时将该目标时间间隔内接收到的音频信息携带在信息请求中进行发送。例如:从开始接收一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,直至结束接收一段音频信息,并在最后一个目标时间间隔内的情况下,在结束接收一段音频信息时,发送最后一个目标时间间隔对应的信息请求,其中,最后一个目标时间间隔为结束接收一段音频信息的时刻所在的目标时间间隔。
可选地,在本实施例中,第二服务器每接收到一个目标时间间隔内的第二部分音频信息,则将该第二部分音频信息与之前接收到的第三部分音频信息拼接为第一部分音频信息,获取该第一部分音频信息对应的第一信息、第二信息和第三信息,实时反馈给客户端,由客户端显示在会话界面上。
作为一种可选的方案,在客户端上显示第一信息、第二信息和第三信息包括:
S1,在接收一段音频信息的界面上显示第一信息对应的第一会话气泡、第二信息对应的第二会话气泡和第三信息对应的第三会话气泡。
可选地,在本实施例中,在客户端的会话界面上可以但不限于以会话气泡的形式显示第一信息、第二信息和第三信息。
根据本发明实施例的另一个方面,还提供了另一种音频信息的处理方法,如图9所示,该方法包括:
S902,接收客户端发送的第一部分音频信息,其中,在客户端上检测到正在接收一段音频信息,第一部分音频信息为在客户端上当前已接收到的一段音频信息中的部分音频信息;
S904,将第一部分音频信息转换为第一信息,并将第一信息发送至客户端,其中,第一信息包括第一部分音频信息对应的文本信息;
S906,对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息,其中,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括待推送给客户端的信息;
S908,将第二信息和第三信息发送至客户端。
可选地,在本实施例中,上述音频信息的处理方法可以但不限于应用于客户端上接收用户语音输入的信息的场景中。其中,上述客户端可以但不限于为各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用上接收用户语音输入的信息的场景中,或还可以但不限于应用于在上述即时通信应用上接收用户语音输入的信息的场景中,以提高对音频信息进行处理时的处理效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述音频信息的处理方法可以但不限于应用于服务器侧。客户端将第一部分音频信息发送至服务器,由服务器将第一部分音频信息转换为第一信息,并获取第一信息对应的第二信息和第三信息,返回给客户端,客户端将第一信息、第二信息和第三信息显示出来。
可选地,在本实施例中,音频信息可以但不限于为语音信息,歌曲、视频中的音频信息等等。
可选地,在本实施例中,上述第一部分音频信息是客户端上检测到的正在接收的一段音频信息中已经接收到的部分。客户端上检测到的正在接收的一段音频信息可能是用户说的一段话、一首歌曲中的几句歌词、一段视频中的某些台词等等。
可见,通过上述步骤,当在客户端上检测到正在接收一段音频信息时,根据在客户端上当前已接收到一段音频信息中的第一部分音频信息获取该第一部分音频信息对应的文本信息作为第一信息,并获取第一信息对应的满足目标条件的信息作为第二信息,以及获取根据第一信息中的关键词获取的待推送给客户端的信息作为第三信息,将第一信息,第二信息和第三信息同时显示在客户端上,在用户进行音频输入的同时实时为用户提供更加准确、丰富的反馈信息,从而使得用户可以在音频输入的同时根据获取到的信息执行不同的操作,从而实现了提高对音频信息进行处理时的处理效率的技术效果,进而解决了对音频信息进行处理时的处理效率较低的技术问题。
作为一种可选的方案,将第一部分音频信息转换为第一信息包括:
S1,获取第二部分音频信息和第三部分音频信息,其中,第二部分音频信息为客户端在当前目标时间间隔内向客户端对应的第二服务器发送的音频信息,第三部分音频信息为第二服务器在当前时间间隔之前的时间内接收到的音频信息;
S2,按照时间顺序对第二部分音频信息和第三部分音频信息进行拼接,得到第一部分音频信息;
S3,将第一部分音频信息转换为文字,得到第一信息。
可选地,在本实施例中,可以通过设置目标时间间隔来配置客户端上显示第一信息、第二信息和第三信息的频率。在每个目标时间间隔内客户端可以将当前时间间隔内接收的音频信息发送给服务器,当前时间间隔之前的音频信息已经存储在服务器上了,服务器将两部分音频信息拼接在一起,根据拼接后的信息获取第一信息。
作为一种可选的方案,对第一信息进行编辑得到第二信息包括:
S1,按照目标语法规则对第一信息的语法进行纠错,并根据纠错结果对第一信息进行改写,得到改写信息;
S2,按照目标语义规则对改写信息进行补充,得到第一信息对应的满足目标条件的信息,并将第一信息对应的满足目标条件的信息确定为第二信息。
可选地,在本实施例中,可以设置目标语法规则来对第一信息进行语法上的纠错。纠错后可以对第一信息进行改写,得到不存在语法错误的改写信息,再按照设置的目标语义规则对改写信息进行补充,得到不存在语法错误的语义完整的第二信息,返回给客户端。
可选地,在本实施例中,可以通过以下方式对改写信息进行补充:从第一信息中提取第一关键词和第一目标词,其中,第一目标词为第一信息中语义不完整的词,获取第一关键词对应的第一标签,其中,第一标签用于指示第一关键词所属的领域,从第一标签对应的词库中获取与第一目标词匹配的第二目标词,其中,第二目标词为语义完整的词,将第二目标词补充在改写信息中,得到第一信息对应的满足目标条件的信息。
作为一种可选的方案,根据第一信息中携带的关键词获取第三信息包括:
S1,从第一信息中提取第二关键词,并获取一段音频信息所在会话的历史会话信息;
S2,基于第二关键词和历史会话信息确定会话对应的第二标签,其中,第二标签用于指示会话所属的领域;
S3,从第二标签对应的信息库中提取与第二关键词匹配的信息,并将与第二关键词匹配的信息确定为第三信息,其中,信息库中存储有第二标签所指示的领域中的信息。
可选地,在本实施例中,第三信息可以但不限于是参考当前接收到的音频信息和历史会话信息获取的在这些信息所属的领域内的信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述音频信息的处理方法的音频信息的处理装置,如图10所示,该装置包括:
1)检测模块102,用于在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;
2)第一获取模块104,用于根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;
3)第一显示模块106,用于在客户端上显示第一信息、第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理装置可以应用于如图2所示的终端202、服务器204和网络206所构成的硬件环境中。如图2所示,终端202通过网络206与服务器204连接。客户端208安装在终端202上。终端202用于在客户端208上检测到正在接收一段音频信息,其中,在客户端208上当前已接收到一段音频信息中的第一部分音频信息;根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端208的信息。终端202检测到正在接收一段音频信息时可以将第一部分音频信息发送给服务器204。服务器204接收客户端208发送的第一部分音频信息;将第一部分音频信息转换为第一信息,并将第一信息发送至客户端208;对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息;将第二信息和第三信息发送至客户端208。终端202接收服务器204发送的第一信息、第二信息和第三信息,并在客户端208上显示第一信息、第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理装置还可以应用于如图3所示的终端302所构成的硬件环境中。如图3所示,终端302上安装有用于对音频信息进行处理的客户端304。终端302在客户端304上通过检测客户端304显示界面上的对话筒图标的触摸检测到客户端304上正在接收一段音频信息,在客户端304的显示界面上随着一段音频信息的输入,实时显示根据已接收到该一段音频信息中的第一部分音频信息获取的第一信息、第二信息和第三信息。该第一信息为第一部分音频信息对应的文本信息,第二信息为第一信息对应的满足目标条件的信息,第三信息为根据第一信息中的关键词获取的待推送给客户端的信息。第一信息、第二信息和第三信息是随着第一部分音频信息的更新而实时更新的,即在客户端304接收一段音频信息的同时将已经接收到的部分信息转换为文字作为第一信息显示在客户端的界面上,同时将第一信息转换为第二信息,并根据第一信息中携带的关键词得到第三信息,在显示第一信息的同时在客户端304的界面上显示该第一信息对应的第二信息和第三信息。
可选地,在本实施例中,上述音频信息的处理装置可以但不限于应用于客户端上接收用户语音输入的信息的场景中。其中,上述客户端可以但不限于为各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用上接收用户语音输入的信息的场景中,或还可以但不限于应用于在上述即时通信应用上接收用户语音输入的信息的场景中,以提高对音频信息进行处理时的处理效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述音频信息的处理装置可以但不限于应用于终端设备侧。例如:手机、平板电脑、PC计算机、智能穿戴设备、智能家居设备等等。
可选地,在本实施例中,音频信息可以但不限于为语音信息,歌曲、视频中的音频信息等等。
可选地,在本实施例中,客户端检测是否正在接收一段音频信息的方式可以但不限于是通过检测客户端上显示的图标接收到的操作信息。例如:如图4所示,客户端上显示会话界面,在会话界面上显示“话筒”图标,以指示用户通过操作该图标输入音频信息,用户在输入一段音频信息时可以持续触摸该图标,客户端通过检测该连续的触摸操作确定正在接收一段音频信息,当检测到该触摸操作中断时,则确定用户已经结束本次的音频信息的输入。或者,在另一种方式下,可以检测该图标上的点击操作,当检测到第一次点击操作时,确定开始接收一段音频信息,当检测到第二次点击操作时,确定结束接收这一段音频信息。
可选地,在本实施例中,上述第一部分音频信息是客户端上检测到的正在接收的一段音频信息中已经接收到的部分。客户端上检测到的正在接收的一段音频信息可能是用户说的一段话、一首歌曲中的几句歌词、一段视频中的某些台词等等。那么,接收到这些音频信息的过程可能会持续一段时间,在这段时间内实时地将已经接收到的第一部分音频信息转换成的文本信息显示在客户端上,能够实时地向用户展示已经接收到的信息的内容。将上述文本信息对应的满足目标条件的信息实时展示在客户端上,如果该信息即为用户希望输入的信息,那么用户可以直接使用该信息执行后续的操作,不必继续进行音频信息的输入,节省了时间。此外,将根据文本信息中的关键词获取的待推送的信息显示在客户端上,能够实时地向用户推荐其可能感兴趣的内容,提高了用户的互动体验。
可选地,在本实施例中,上述目标条件可以但不限于包括:目标语法规则(该语法规则可以指文本信息对应的语言中规定的语法规则,可以通过深度学习的训练过程获取,或者也可以是人为设置的规则),或者,目标语义规则,例如:语义完整(完整可以指语句不缺少成分,例如:语句具有主语、谓语、宾语、定语、状语、补语,或者,也可以指语句能够表达一个完整的意思),或者,既满足目标语法规则又满足目标语义规则等等。
在一个可选的实施方式中,如图5所示,客户端上显示了输入音频信息的会话界面,用户通过点击“话筒”图标输入语音信息作为上述一段音频信息,用户原本希望输入的语音为“今天北京的天气如何”。用户正在说话时,检测到正在接收这一段音频信息,此时用户对这话筒说出了“今天”,则客户端将“今天”作为第一部分音频信息,根据该第一部分音频信息获取第一信息为“今天”,第一信息对应的满足目标条件的第二信息为“今天是星期日”。根据该第一信息中的关键词获取的待推送给客户端的第三信息为三个今天的新闻,新闻1、新闻2和新闻3。在客户端上显示“今天”、“今天是星期日”和“新闻1、新闻2和新闻3”。接下来,用户会继续说出“北京的”,此时客户端将“今天北京的”作为第一部分音频信息,获取第一信息为“今天北京的”,第一信息对应的满足目标条件的第二信息为“今天北京的天气”。根据该第一信息中的关键词获取的待推送给客户端的第三信息为今天北京的天气、今天北京的活动、今天北京的新闻。在客户端上显示“今天北京的”、“今天北京的天气”和“今天北京的天气、今天北京的活动、今天北京的新闻”。用户看到此时客户端上显示的内容后发现“今天北京的天气”是他希望获取的内容,他可以点击客户端上显示的第二消息作为完整的输入信息,或者,点击客户端上显示的第三信息中的“今天北京的天气”来查看天气信息。
可选地,在本实施例中,在客户端上显示了第一信息、第二信息和第三信息之后,可以检测这些信息上的操作信息,用户可以直接对这些信息执行操作,客户端将根据不同的操作为用户提供不同的反馈。
例如:用户可以通过点击第一信息来对第一信息进行编辑。可以通过点击第二信息获取第二信息对应的响应信息。通过点击第三信息查看第三信息对应的页面等等。
可选地,在本实施例中,用户可以对第一信息进行编辑操作,可以在检测到对第一信息执行的第三操作的情况下,接收对第一信息执行的编辑操作,并将编辑操作执行后的编辑结果显示在客户端上。
可选地,在本实施例中,检测到用户对第一信息的点击操作后,可以在客户端上显示一个携带有第一信息的文本输入框,在文本输入框中检测用户对第一信息执行的编辑操作,当编辑结束后将文本输入框中的编辑结果作为第四信息显示在客户端上。例如:在客户端上显示携带有第一信息的文本输入框,检测对文本输入框中的第一信息执行的编辑操作,响应编辑操作在文本输入框中显示编辑结果,在检测到编辑完成指令的情况下,在一段音频信息对应的会话界面上显示目标编辑结果对应的第四信息,其中,目标编辑结果为检测到编辑完成信息后在文本输入框中显示的编辑结构,编辑完成指令用于指示编辑操作已结束。
可选地,在本实施例中,客户端可以根据显示的第四信息获取第四信息对应的反馈信息并显示在客户端上。例如:获取第四信息对应的反馈信息,将反馈信息显示在会话界面上。
可见,通过上述装置,当在客户端上检测到正在接收一段音频信息时,根据在客户端上当前已接收到一段音频信息中的第一部分音频信息获取该第一部分音频信息对应的文本信息作为第一信息,并获取第一信息对应的满足目标条件的信息作为第二信息,以及获取根据第一信息中的关键词获取的待推送给客户端的信息作为第三信息,将第一信息,第二信息和第三信息同时显示在客户端上,在用户进行音频输入的同时实时为用户提供更加准确、丰富的反馈信息,从而使得用户可以在音频输入的同时根据获取到的信息执行不同的操作,从而实现了提高对音频信息进行处理时的处理效率的技术效果,进而解决了对音频信息进行处理时的处理效率较低的技术问题。
作为一种可选的方案,上述装置还包括:
1)第二获取模块,用于在检测到对第二信息执行的第一操作的情况下,获取第二信息对应的响应信息;
2)第二显示模块,用于将响应信息显示在客户端上;
其中,满足目标条件包括以下至少之一:满足目标语法规则,满足目标语义规则。
可选地,在本实施例中,第一操作可以但不限于为点击操作。例如:如图6所示,在客户端上显示有第一信息、第二信息和第三信息,在检测到对第二信息执行的点击操作的情况下,获取第二信息对应的响应信息,并将响应信息显示在客户端上。
可选地,在本实施例中,通过设置目标语法规则对第一信息的语法错误进行纠正。通过设置目标语义规则对第一信息或者纠正语法错误后的改写信息进行语义的补充,以得到语法正确且语义完整的第二信息。
可选地,在本实施例中,第一信息对应的满足目标条件的信息可以为按照目标语法规则对第一信息的语法进行纠错,并根据纠错结果对第一信息进行改写得到改写信息,再按照目标语义规则对改写信息进行补充所得到的信息。
作为一种可选的方案,上述装置还包括:
1)请求模块,用于在检测到对第三信息执行的第二操作的情况下,向第三信息对应的第一服务器请求第三信息对应的页面;
2)第二接收模块,用于接收第一服务器返回的页面;
3)第三显示模块,用于在客户端上显示页面。
可选地,在本实施例中,第二操作可以但不限于为点击操作。例如:如图7所示,在客户端上显示有第一信息、第二信息和第三信息,在检测到对第三信息执行的点击操作的情况下,向第三信息对应的第一服务器请求第三信息对应的页面,并接收第一服务器返回的所述页面,将接收到的页面显示在客户端上。
可选地,在本实施例中,上述第三信息可以但不限于包括:内容信息以及一个或者多个提示信息,其中,内容信息用于指示待推送给客户端的信息的内容,检测到的对第三信息执行的第三操作可以但不限于包括:对内容信息执行的第一子操作,对一个或者多个提示信息中目标提示信息执行的第二子操作,向第三信息对应的第一服务器请求第三信息对应的页面可以但不限于包括请求以上两种形式的第三信息中的任意一种或者多种信息对应的页面。例如:请求模块用于在检测到对内容信息执行的第一子操作的情况下,向第一服务器请求内容信息对应的第一页面,其中,第二操作包括第一子操作;在检测到对一个或者多个提示信息中目标提示信息执行的第二子操作的情况下,向第一服务器请求目标提示信息对应的第二页面,其中,第二页面与第一页面为属于相同领域的不同页面,或者,第二页面与第一页面所属的领域不同,第二操作包括第二子操作。
在一个可选的实施方式中,如图8所示,客户端上显示有第一信息,第二信息,内容信息,第一提示信息和第二提示信息,其中,第一信息为第一部分音频信息对应的文本信息“讲笑话”,第二信息为第一信息对应的满足目标条件的信息“讲笑话是一件考验语言功底的事情”。内容信息为根据第一信息中的关键词“笑话”获取的推送给客户端的信息“一则笑话:问:要把大象装冰箱,总共分几步。答:三步,第一步把冰箱门打开,第二步把大象装进去,第三步把冰箱门关上。”第一提示信息为“再来一个”的图标,第二提示信息为“搞笑图片”的图标。用户可以根据需要点击自己希望获取的信息,比如,客户端可以检测内容信息上的点击操作,如果检测到则客户端界面跳转至该笑话所在的网页页面。客户端可以检测第一提示信息上的点击操作,如果检测到则客户端获取另一则笑话显示在当前界面上。客户端还可以检测第二提示信息上的点击操作,如果检测到则客户端可以获取一张搞笑图片显示在当前界面上,也可以将界面跳转至搞笑图片的网页页面。
作为一种可选的方案,第一获取模块包括:
1)发送单元,用于从开始接收一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,其中,信息请求中携带有第二部分音频信息,信息请求用于请求第二部分音频信息对应的第一信息、第二信息和第三信息,第二部分音频信息为当前时间间隔内接收到的音频信息;
2)接收单元,用于接收第二部分音频信息对应的第一信息、第二信息和第三信息,其中,第一信息、第二信息和第三信息为根据当前已接收到的第一部分音频信息获取到的信息,第一部分音频信息为对第二部分音频信息和第三部分音频信息按照时间顺序进行拼接得到的信息,第三部分音频信息为在当前时间间隔之前的时间内接收到的一段音频信息中的音频信息。
可选地,在本实施例中,客户端可以与第二服务器进行交互,从而每隔目标时间间隔获取到当前时间间隔的第一信息、第二信息和第三信息。上述第一信息、第二信息和第三信息的转换过程也可以由客户端来执行。
可选地,在本实施例中,可以通过设置目标时间间隔来配置客户端上显示第一信息、第二信息和第三信息的频率。例如:目标时间间隔可以设置为200ms,客户端在接收一段音频信息的过程中,每隔200ms向第二服务器发送一次第二部分音频信息,从而获取第二服务器返回的第一信息、第二信息和第三信息,并将其显示在客户端上。
可选地,在本实施例中,在客户端按照目标时间间隔发送当前时间间隔对应的信息请求的过程中,该一段音频信息的持续时间可能并不是目标时间间隔的整数倍,为了确保实时在客户端上更新第一信息、第二信息和第三信息,对于一段音频信息没有与一个目标时间间隔同时结束的情况,客户端可以在结束接收一段音频信息的同时将该目标时间间隔内接收到的音频信息携带在信息请求中进行发送。例如:从开始接收一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,直至结束接收一段音频信息,并在最后一个目标时间间隔内的情况下,在结束接收一段音频信息时,发送最后一个目标时间间隔对应的信息请求,其中,最后一个目标时间间隔为结束接收一段音频信息的时刻所在的目标时间间隔。
可选地,在本实施例中,第二服务器每接收到一个目标时间间隔内的第二部分音频信息,则将该第二部分音频信息与之前接收到的第三部分音频信息拼接为第一部分音频信息,获取该第一部分音频信息对应的第一信息、第二信息和第三信息,实时反馈给客户端,由客户端显示在会话界面上。
作为一种可选的方案,第一显示模块用于:在接收一段音频信息的界面上显示第一信息对应的第一会话气泡、第二信息对应的第二会话气泡和第三信息对应的第三会话气泡。
可选地,在本实施例中,在客户端的会话界面上可以但不限于以会话气泡的形式显示第一信息、第二信息和第三信息。
根据本发明实施例的另一个方面,还提供了另一种用于实施上述音频信息的处理方法的音频信息的处理装置,如图11所示,该装置包括:
1)第一接收模块112,用于接收客户端发送的第一部分音频信息,其中,在客户端上检测到正在接收一段音频信息,第一部分音频信息为在客户端上当前已接收到的一段音频信息中的部分音频信息;
2)转换模块114,用于将第一部分音频信息转换为第一信息,并将第一信息发送至客户端,其中,第一信息包括第一部分音频信息对应的文本信息;
3)处理模块116,用于对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息,其中,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括待推送给客户端的信息;
4)发送模块118,用于将第二信息和第三信息发送至客户端。
可选地,在本实施例中,上述音频信息的处理装置可以但不限于应用于客户端上接收用户语音输入的信息的场景中。其中,上述客户端可以但不限于为各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用上接收用户语音输入的信息的场景中,或还可以但不限于应用于在上述即时通信应用上接收用户语音输入的信息的场景中,以提高对音频信息进行处理时的处理效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述音频信息的处理装置可以但不限于应用于服务器侧。客户端将第一部分音频信息发送至服务器,由服务器将第一部分音频信息转换为第一信息,并获取第一信息对应的第二信息和第三信息,返回给客户端,客户端将第一信息、第二信息和第三信息显示出来。
可选地,在本实施例中,音频信息可以但不限于为语音信息,歌曲、视频中的音频信息等等。
可选地,在本实施例中,上述第一部分音频信息是客户端上检测到的正在接收的一段音频信息中已经接收到的部分。客户端上检测到的正在接收的一段音频信息可能是用户说的一段话、一首歌曲中的几句歌词、一段视频中的某些台词等等。
可见,通过上述装置,当在客户端上检测到正在接收一段音频信息时,根据在客户端上当前已接收到一段音频信息中的第一部分音频信息获取该第一部分音频信息对应的文本信息作为第一信息,并获取第一信息对应的满足目标条件的信息作为第二信息,以及获取根据第一信息中的关键词获取的待推送给客户端的信息作为第三信息,将第一信息,第二信息和第三信息同时显示在客户端上,在用户进行音频输入的同时实时为用户提供更加准确、丰富的反馈信息,从而使得用户可以在音频输入的同时根据获取到的信息执行不同的操作,从而实现了提高对音频信息进行处理时的处理效率的技术效果,进而解决了对音频信息进行处理时的处理效率较低的技术问题。
作为一种可选的方案,转换模块包括:
1)获取单元,用于获取第二部分音频信息和第三部分音频信息,其中,第二部分音频信息为客户端在当前目标时间间隔内向客户端对应的第二服务器发送的音频信息,第三部分音频信息为第二服务器在当前时间间隔之前的时间内接收到的音频信息;
2)拼接单元,用于按照时间顺序对第二部分音频信息和第三部分音频信息进行拼接,得到第一部分音频信息;
3)转换单元,用于将第一部分音频信息转换为文字,得到第一信息。
可选地,在本实施例中,可以通过设置目标时间间隔来配置客户端上显示第一信息、第二信息和第三信息的频率。在每个目标时间间隔内客户端可以将当前时间间隔内接收的音频信息发送给服务器,当前时间间隔之前的音频信息已经存储在服务器上了,服务器将两部分音频信息拼接在一起,根据拼接后的信息获取第一信息。
作为一种可选的方案,第四处理模块包括:
1)纠错单元,用于按照目标语法规则对第一信息的语法进行纠错,并根据纠错结果对第一信息进行改写,得到改写信息;
2)补充单元,用于按照目标语义规则对改写信息进行补充,得到第一信息对应的满足目标条件的信息,并将第一信息对应的满足目标条件的信息确定为第二信息。
可选地,在本实施例中,可以设置目标语法规则来对第一信息进行语法上的纠错。纠错后可以对第一信息进行改写,得到不存在语法错误的改写信息,再按照设置的目标语义规则对改写信息进行补充,得到不存在语法错误的语义完整的第二信息,返回给客户端。
可选地,在本实施例中,补充单元包括:提取子单元,用于从第一信息中提取第一关键词和第一目标词,其中,第一目标词为第一信息中语义不完整的词;第一获取子单元,用于获取第一关键词对应的第一标签,其中,第一标签用于指示第一关键词所属的领域;第二获取子单元,用于从第一标签对应的词库中获取与第一目标词匹配的第二目标词,其中,第二目标词为语义完整的词;补充子单元,用于将第二目标词补充在改写信息中,得到第一信息对应的满足目标条件的信息。
作为一种可选的方案,第四处理模块包括:
1)第一提取单元,用于从第一信息中提取第二关键词,并获取一段音频信息所在会话的历史会话信息;
2)确定单元,用于基于第二关键词和历史会话信息确定会话对应的第二标签,其中,第二标签用于指示会话所属的领域;
3)第二提取单元,用于从第二标签对应的信息库中提取与第二关键词匹配的信息,并将与第二关键词匹配的信息确定为第三信息,其中,信息库中存储有第二标签所指示的领域中的信息。
可选地,在本实施例中,第三信息可以但不限于是参考当前接收到的音频信息和历史会话信息获取的在这些信息所属的领域内的信息。
本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。
作为一种可选的实施例,上述音频信息的处理方法可以但不限于应用于如图12所示的对语音助手接收到的音频信息进行处理的场景中。在本场景中,语音助手不停的将麦克风录入的原始录音信息发送给后台服务器转化成文本信息,在后台服务器返回转化的文本信息的过程中,返回辅助输入文本以提升用户体验,返回的辅助文本包括:纠错文本信息和基于聊天历史内容的推荐信息。终端以气泡的形式展示给用户,整个过程会随着录音过程不停的动态变化和调整,用户根据自己的需要可以直接点击气泡发送请求出去进行消费。
通过上述方式,能帮助用户在语音输入的过程中,实时的根据用户当前输入的内容进行纠错提示,并且根据用户会话流上下文语义,推荐给用户相关的内容,提升用户语音输入的用户体验。
如图12所示,用户可以方便的点击气泡请求。气泡会在语音输入过程中、会话完成的过程后以气泡的形式出现。气泡的内容可能会是纠错和推荐两种方式。
可选地,在本实施例中,在用户持续的语音输入过程中,终端以100ms的语音数据为目标时间间隔,不停的请求后台服务器转化当前已经说话的文本信息。后台服务器会每隔100ms接收到终端发送的信息,并将其转化出当前用户已经输入的语音信息的文本信息。因为用户还没说完,转换出来的文本信息不完整,甚至可能存在语法错误。这时终端中的纠错模块会给出一段基于当前文本内容修正后的完整的、无语法错误的文本,返回给终端。供用户选择使用。
可选地,在本实施例中,用户可以根据自己的需要直接点击气泡发送请求出去进行消费。
比如:用户输入了一部分语音了,这个时候后台服务器已经转化出来的文字是“王者荣耀的李”,这个时候纠错信息会把这句话补齐为“王者荣耀的李白怎么玩”,指定领域为“游戏”。同时还可以基于上下文推荐“诗仙李白的百科”,领域“百科”两个气泡给终端。用户点击气泡的时候,终端将气泡文本和领域信息发送给后台服务器就能准确无误的消费到对应的服务了。如果用户的意图不是上面两个气泡的内容,他会继续说话,直到把话说完。
在一个可选的实施方式中,如图13所示,终端开始接受语音,以100ms为目标时间间隔,并将其发送给后台服务器,后台服务器接收到当前100ms音频数据,将其和之前会话的的录音数据拼装在一起,转化出当前会话的文本输入:[返回结果1]。后台服务器检查[返回结果1]是否存在语法错误(当前翻译的是半句话,很有可能有语法错误),对其语法错误进行纠正。并补齐成完整语句,得到[返回结果2]。后台服务器基于[返回结果1]的关键字(可以通过后台AI智能猜词获取),检索会话历史的聊天内容,返回相关的推荐结果[返回结果3]。将返回结果1,2,3组装好,返回给终端。这里所说的组装:可以是把1的结果,2的结果,3的结果放在一条响应里一起返回给终端。终端将结果1,结果2和结果3以气泡的形式展示出来。用户继续说话,发送下一个100ms语音数据,重复上一过程。用户可以完成说话。也可以点击气泡,终端将发送气泡内容,并结束用户语音输入。
在上述过程中,终端上展示的气泡构成为:展示文本,是展示在气泡上用户可视的文本信息。发送文本,是发送给人工智能后台,进行机器理解纠错并补充的文本信息。领域意图。是发送给人工智能后台,文本标识的领域意图,比如李白,是诗人李白还是王者荣耀游戏里面的李白。
可选地,在本实施例中,用户语音输入时可以实时展示气泡,用户语音流在转文本的过程中,后台会实时返回语音转化的文字流以及当前所输入文字的修改气泡数据。气泡数据可以多条,并可以以数组的形式返回。
可选地,在本实施例中,用户语音输入完成后,语音助手当前会话返回完成后,会在会话结尾将辅助气泡浮在输入流上面。
可选地,在本实施例中,气泡的展示提供纠错功能,根据用户已经录入语音转化的文本,使用NLP语法学习的人工智能库,对转换的文本信息进行语法纠错和补充。
可选地,在本实施例中,气泡的展示还提供推荐功能,根据用户已经录入语音转化的文本,以及聊天历史的上下文语义推荐给用户相关信息。
可选地,在本实施例中,上述气泡展示的整体过程包括以下步骤:
步骤1,用户点击终端开始录音,终端将microphone录取的原始音频数据以100ms时间长度为单位,不停的将音频数据发送给后台。后台接收到这段音频数据,会结合之前已经上传的音频数据,进行文字转化。并将转换后的文字信息发送给终端呈现给用户。这个过程会一直重复,直到用户结束输入。
步骤2,后台接受到原始语音输入后,会结合当前上传的语音输入与之前上传的语音输入,将音频转化成文字,这时返回的文字是实时说话的文字。
步骤3,后台将步骤2转化出来的文本信息作为输入,请求纠错模块,纠错模块返回推荐的纠错文本。如果步骤2返回的文字没有语法上的错误,纠错模块会根据热词自动补齐文本。
步骤4,后台将步骤2转化出来的文本信息作为输入,请求会话服务器,会话服务器保留了用户的当前会话内容,会话服务器会根据历史聊天内容返回相关的推荐信息。
步骤5,后台将步骤3的结果拼成纠错类型的气泡,步骤4返回的结果拼成推荐气泡,返回给终端
步骤6,终端将气泡展示出来,供用户点击消费。
通过上述过程,实现了语音输入过程中的纠错功能,实现了语音输入过程中的推荐功能,其基于聊天上下文语义,使得推荐内容更理解用户。还实现了语音输入后气泡的辅助输入功能。
根据本发明实施例的又一个方面,还提供了一种用于实施上述音频信息的处理的电子装置,如图14所示,该电子装置包括:一个或多个(图中仅示出一个)处理器1402、存储器1404、传感器1406、编码器1408以及传输装置1410,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;
S2,根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;
S3,在客户端上显示第一信息、第二信息和第三信息。
根据本发明实施例的另一个方面,上述处理器还可以被设置为通过计算机程序执行以下步骤:
S1,接收客户端发送的第一部分音频信息,其中,在客户端上检测到正在接收一段音频信息,第一部分音频信息为在客户端上当前已接收到的一段音频信息中的部分音频信息;
S2,将第一部分音频信息转换为第一信息,并将第一信息发送至客户端,其中,第一信息包括第一部分音频信息对应的文本信息;
S3,对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息,其中,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括待推送给客户端的信息;
S4,将第二信息和第三信息发送至客户端。
可选地,本领域普通技术人员可以理解,图14所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图14所示不同的配置。
其中,存储器1402可用于存储软件程序以及模块,如本发明实施例中的音频信息的处理方法和装置对应的程序指令/模块,处理器1404通过运行存储在存储器1402内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标组件的控制方法。存储器1402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1402可进一步包括相对于处理器1404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1410用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1410包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1410为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1402用于存储应用程序。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在客户端上检测到正在接收一段音频信息,其中,在客户端上当前已接收到一段音频信息中的第一部分音频信息;
S2,根据当前已接收到的第一部分音频信息获取第一信息、第二信息和第三信息,其中,第一信息包括第一部分音频信息对应的文本信息,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括根据第一信息中的关键词获取的待推送给客户端的信息;
S3,在客户端上显示第一信息、第二信息和第三信息。
根据本发明实施例的另一个方面,上述存储介质还可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收客户端发送的第一部分音频信息,其中,在客户端上检测到正在接收一段音频信息,第一部分音频信息为在客户端上当前已接收到的一段音频信息中的部分音频信息;
S2,将第一部分音频信息转换为第一信息,并将第一信息发送至客户端,其中,第一信息包括第一部分音频信息对应的文本信息;
S3,对第一信息进行编辑得到第二信息,并根据第一信息中携带的关键词获取第三信息,其中,第二信息包括第一信息对应的满足目标条件的信息,第三信息包括待推送给客户端的信息;
S4,将第二信息和第三信息发送至客户端。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种音频信息的处理方法,其特征在于,包括:
在客户端上检测到正在接收一段音频信息,其中,在所述客户端上当前已接收到所述一段音频信息中的第一部分音频信息;
根据所述当前已接收到的所述第一部分音频信息获取第一信息,并将所述第一信息显示在所述客户端上,同时将所述第一信息转换为第二信息,并根据所述第一信息中携带的关键词得到第三信息,其中,所述第一信息包括所述第一部分音频信息对应的文本信息,所述第二信息包括所述第一信息以及基于所述第一信息进行谓语宾语的预测、以使所述第二信息能够表达一个完整意思的信息,所述第三信息包括根据所述关键词获取的待推送给所述客户端的信息;
在显示所述第一信息的同时,在所述客户端上显示所述第二信息和所述第三信息。
2.根据权利要求1所述的方法,其特征在于,在显示所述第一信息的同时,在所述客户端上显示所述第二信息和所述第三信息之后,所述方法还包括:
在检测到对所述第二信息执行的第一操作的情况下,获取所述第二信息对应的响应信息;
将所述响应信息显示在所述客户端上。
3.根据权利要求1所述的方法,其特征在于,在显示所述第一信息的同时,在所述客户端上显示所述第二信息和所述第三信息之后,所述方法还包括:
在检测到对所述第三信息执行的第二操作的情况下,向所述第三信息对应的第一服务器请求所述第三信息对应的页面;
接收所述第一服务器返回的所述页面;
在所述客户端上显示所述页面。
4.根据权利要求3所述的方法,其特征在于,所述第三信息包括:内容信息以及一个或者多个提示信息,其中,所述内容信息用于指示所述待推送给所述客户端的信息的内容,在检测到对所述第三信息执行的第三操作的情况下,所述向所述第三信息对应的第一服务器请求所述第三信息对应的页面包括:
在检测到对所述内容信息执行的第一子操作的情况下,向所述第一服务器请求所述内容信息对应的第一页面,其中,所述第二操作包括所述第一子操作;
在检测到对所述一个或者多个提示信息中目标提示信息执行的第二子操作的情况下,向所述第一服务器请求所述目标提示信息对应的第二页面,其中,所述第二页面与所述第一页面为属于相同领域的不同页面,或者,所述第二页面与所述第一页面所属的领域不同,所述第二操作包括所述第二子操作。
5.根据权利要求1所述的方法,其特征在于,根据所述当前已接收到的所述第一部分音频信息获取第一信息,并将所述第一信息显示在所述客户端上,同时将所述第一信息转换为第二信息,并根据所述第一信息中携带的关键词得到第三信息包括:
从开始接收所述一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,其中,所述信息请求中携带有第二部分音频信息,所述信息请求用于请求所述第二部分音频信息对应的所述第一信息、所述第二信息和所述第三信息,所述第二部分音频信息为所述当前时间间隔内接收到的音频信息;
接收所述第二部分音频信息对应的所述第一信息、所述第二信息和所述第三信息,其中,所述第一信息、所述第二信息和所述第三信息为根据所述当前已接收到的所述第一部分音频信息获取到的信息,所述第一部分音频信息为对所述第二部分音频信息和第三部分音频信息按照时间顺序进行拼接得到的信息,所述第三部分音频信息为在所述当前时间间隔之前的时间内接收到的所述一段音频信息中的音频信息。
6.根据权利要求5所述的方法,其特征在于,从开始接收所述一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求包括:
从开始接收所述一段音频信息起,每隔目标时间间隔发送当前时间间隔对应的信息请求,直至结束接收所述一段音频信息,并在最后一个所述目标时间间隔内的情况下,在结束接收所述一段音频信息时,向服务器发送所述最后一个所述目标时间间隔对应的信息请求,其中,所述最后一个所述目标时间间隔为结束接收所述一段音频信息的时刻所在的目标时间间隔。
7.一种音频信息的处理方法,其特征在于,包括:
接收客户端发送的第一部分音频信息,其中,在所述客户端上检测到正在接收一段音频信息,所述第一部分音频信息为在所述客户端上当前已接收到的所述一段音频信息中的部分音频信息;
将所述第一部分音频信息转换为第一信息,并将所述第一信息发送至所述客户端,其中,所述第一信息包括所述第一部分音频信息对应的文本信息;
对所述第一信息进行编辑得到第二信息,并根据所述第一信息中携带的关键词获取第三信息,其中,所述第二信息包括所述第一信息以及基于所述第一信息进行谓语宾语的预测、以使所述第二信息能够表达一个完整意思的信息,所述第三信息包括待推送给所述客户端的信息;
将所述第二信息和所述第三信息发送至所述客户端。
8.根据权利要求7所述的方法,其特征在于,将所述第一部分音频信息转换为所述第一信息包括:
获取第二部分音频信息和第三部分音频信息,其中,所述第二部分音频信息为所述客户端在当前目标时间间隔内向所述客户端对应的第二服务器发送的音频信息,所述第三部分音频信息为所述第二服务器在所述当前目标时间间隔之前的时间内接收到的音频信息;
按照时间顺序对所述第二部分音频信息和所述第三部分音频信息进行拼接,得到所述第一部分音频信息;
将所述第一部分音频信息转换为文字,得到所述第一信息。
9.根据权利要求7所述的方法,其特征在于,对所述第一信息进行编辑得到所述第二信息包括:
按照目标语法规则对所述第一信息的语法进行纠错,并根据纠错结果对所述第一信息进行改写,得到改写信息;
按照目标语义规则对所述改写信息进行补充,得到所述第一信息对应的满足目标条件的信息,并将所述第一信息对应的满足目标条件的信息确定为所述第二信息。
10.根据权利要求9所述的方法,其特征在于,对所述改写信息进行补充,得到所述第一信息对应的满足目标条件的信息包括:
从所述第一信息中提取第一关键词和第一目标词,其中,所述第一目标词为所述第一信息中语义不完整的词;
获取所述第一关键词对应的第一标签,其中,所述第一标签用于指示所述第一关键词所属的领域;
从所述第一标签对应的词库中获取与所述第一目标词匹配的第二目标词,其中,所述第二目标词为语义完整的词;
将所述第二目标词补充在所述改写信息中,得到所述第一信息对应的满足目标条件的信息。
11.根据权利要求7所述的方法,其特征在于,根据所述第一信息中携带的关键词获取所述第三信息包括:
从所述第一信息中提取第二关键词,并获取所述一段音频信息所在会话的历史会话信息;
基于所述第二关键词和所述历史会话信息确定所述会话对应的第二标签,其中,所述第二标签用于指示所述会话所属的领域;
从所述第二标签对应的信息库中提取与所述第二关键词匹配的信息,并将所述与所述第二关键词匹配的信息确定为所述第三信息,其中,所述信息库中存储有所述第二标签所指示的领域中的信息。
12.一种音频信息的处理装置,其特征在于,包括:
检测模块,用于在客户端上检测到正在接收一段音频信息,其中,在所述客户端上当前已接收到所述一段音频信息中的第一部分音频信息;
第一获取模块,用于根据所述当前已接收到的所述第一部分音频信息获取第一信息,并将所述第一信息显示在所述客户端上,同时将所述第一信息转换为第二信息,并根据所述第一信息中携带的关键词得到第三信息,其中,所述第一信息包括所述第一部分音频信息对应的文本信息,所述第二信息包括所述第一信息以及基于所述第一信息进行谓语宾语的预测、以使所述第二信息能够表达一个完整意思的信息,所述第三信息包括根据所述关键词获取的待推送给所述客户端的信息;
第一显示模块,用于在显示所述第一信息的同时,在所述客户端上显示所述第二信息和所述第三信息。
13.一种音频信息的处理装置,其特征在于,包括:
第一接收模块,用于接收客户端发送的第一部分音频信息,其中,在所述客户端上检测到正在接收一段音频信息,所述第一部分音频信息为在所述客户端上当前已接收到的所述一段音频信息中的部分音频信息;
转换模块,用于将所述第一部分音频信息转换为第一信息,并将所述第一信息发送至所述客户端,其中,所述第一信息包括所述第一部分音频信息对应的文本信息;
第四处理模块,用于对所述第一信息进行编辑得到第二信息,并根据所述第一信息中携带的关键词获取第三信息,其中,所述第二信息包括所述第一信息以及基于所述第一信息进行谓语宾语的预测、以使所述第二信息能够表达一个完整意思的信息,所述第三信息包括待推送给所述客户端的信息;
发送模块,用于将所述第二信息和所述第三信息发送至所述客户端。
14.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至11任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
CN201810103534.5A 2018-02-01 2018-02-01 音频信息的处理方法、装置、存储介质及电子装置 Active CN110111793B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810103534.5A CN110111793B (zh) 2018-02-01 2018-02-01 音频信息的处理方法、装置、存储介质及电子装置
JP2020541391A JP7071514B2 (ja) 2018-02-01 2019-01-24 オーディオ情報の処理方法、装置、記憶媒体並びに電子装置
PCT/CN2019/072957 WO2019149132A1 (zh) 2018-02-01 2019-01-24 音频信息的处理方法、装置、存储介质及电子装置
US16/906,525 US11475894B2 (en) 2018-02-01 2020-06-19 Method and apparatus for providing feedback information based on audio input

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810103534.5A CN110111793B (zh) 2018-02-01 2018-02-01 音频信息的处理方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110111793A CN110111793A (zh) 2019-08-09
CN110111793B true CN110111793B (zh) 2023-07-14

Family

ID=67479102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810103534.5A Active CN110111793B (zh) 2018-02-01 2018-02-01 音频信息的处理方法、装置、存储介质及电子装置

Country Status (4)

Country Link
US (1) US11475894B2 (zh)
JP (1) JP7071514B2 (zh)
CN (1) CN110111793B (zh)
WO (1) WO2019149132A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11646032B2 (en) * 2020-02-27 2023-05-09 Medixin Inc. Systems and methods for audio processing
CN112203134A (zh) * 2020-09-30 2021-01-08 腾讯科技(深圳)有限公司 用于信息处理的方法、装置、计算机可读介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533542A (zh) * 2015-01-23 2018-01-02 微软技术许可有限责任公司 用于理解不完整的自然语言查询的方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
JP2004264464A (ja) 2003-02-28 2004-09-24 Techno Network Shikoku Co Ltd 特定分野辞書を利用した音声認識誤り訂正システム
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
JP4287386B2 (ja) 2005-01-31 2009-07-01 株式会社東芝 情報検索システム、方法及びプログラム
JP5089955B2 (ja) 2006-10-06 2012-12-05 三菱電機株式会社 音声対話装置
US7904298B2 (en) * 2006-11-17 2011-03-08 Rao Ashwin P Predictive speech-to-text input
US20090249198A1 (en) * 2008-04-01 2009-10-01 Yahoo! Inc. Techniques for input recogniton and completion
EP2311030A1 (en) * 2008-07-03 2011-04-20 Mobiter Dicta Oy Method and device for converting speech
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9257053B2 (en) 2009-06-01 2016-02-09 Zya, Inc. System and method for providing audio for a requested note using a render cache
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8224654B1 (en) * 2010-08-06 2012-07-17 Google Inc. Editing voice input
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
JP5739718B2 (ja) 2011-04-19 2015-06-24 本田技研工業株式会社 対話装置
US8914288B2 (en) * 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US9445136B2 (en) 2011-09-21 2016-09-13 Qualcomm Incorporated Signaling characteristics of segments for network streaming of media data
CN103150294A (zh) * 2011-12-06 2013-06-12 盛乐信息技术(上海)有限公司 基于语音识别结果的修正方法和系统
CN103366731B (zh) * 2012-03-31 2019-02-01 上海果壳电子有限公司 语音合成方法及系统
US8515750B1 (en) * 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
CN104144108B (zh) * 2013-09-30 2017-07-25 腾讯科技(深圳)有限公司 一种消息响应方法、装置及系统
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
CN104361507A (zh) * 2014-11-20 2015-02-18 携程计算机技术(上海)有限公司 商品推荐方法及系统
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10997364B2 (en) * 2015-11-02 2021-05-04 Microsoft Technology Licensing, Llc Operations on sound files associated with cells in spreadsheets
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN105578277A (zh) * 2015-12-15 2016-05-11 四川长虹电器股份有限公司 基于用户心情推送资源的智能电视系统及其处理方法
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
CN105681318A (zh) * 2016-02-03 2016-06-15 百度在线网络技术(北京)有限公司 基于人工智能的语音识别的信息推送方法和装置
CN105959806A (zh) * 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
CN106201424B (zh) * 2016-07-08 2019-10-01 北京甘为乐博科技有限公司 一种信息交互方法、装置及电子设备
US10242670B2 (en) * 2016-09-21 2019-03-26 Intel Corporation Syntactic re-ranking of potential transcriptions during automatic speech recognition
CN106570100B (zh) * 2016-10-31 2019-02-26 腾讯科技(深圳)有限公司 信息搜索方法和装置
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533542A (zh) * 2015-01-23 2018-01-02 微软技术许可有限责任公司 用于理解不完整的自然语言查询的方法

Also Published As

Publication number Publication date
CN110111793A (zh) 2019-08-09
US11475894B2 (en) 2022-10-18
US20200320135A1 (en) 2020-10-08
WO2019149132A1 (zh) 2019-08-08
JP2021513103A (ja) 2021-05-20
JP7071514B2 (ja) 2022-05-19

Similar Documents

Publication Publication Date Title
CN110033659B (zh) 一种远程教学互动方法、服务器、终端以及系统
CN109429522A (zh) 语音交互方法、装置及系统
CN109348275B (zh) 视频处理方法和装置
WO2017186050A1 (zh) 人机智能问答系统的断句识别方法和装置
CN104488027A (zh) 声音处理系统以及终端装置
CN114328852B (zh) 一种文本处理的方法、相关装置及设备
CN111951782A (zh) 语音问答方法及装置、计算机可读存储介质和电子设备
CN116303962B (zh) 对话生成方法、深度学习模型的训练方法、装置和设备
CN116521841B (zh) 用于生成回复信息的方法、装置、设备及介质
CN110111793B (zh) 音频信息的处理方法、装置、存储介质及电子装置
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN111861405A (zh) 用于生成互动做菜教程的方法和设备
CN111933128B (zh) 调查问卷的题库的处理方法、装置、电子设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN112752134B (zh) 视频处理方法和装置、存储介质及电子装置
CN117421413A (zh) 一种问答对生成方法、装置及电子设备
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN115905490B (zh) 人机交互对话方法、装置以及设备
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN111147894A (zh) 一种手语视频的生成方法、装置及系统
WO2022089546A1 (zh) 标签生成方法、装置及相关设备
CN114519347A (zh) 用于语言和词汇学习训练的会话内容的生成方法及装置
CN103049275A (zh) 一种处理操作指令的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant