CN111968630A - 信息处理方法、装置和电子设备 - Google Patents

信息处理方法、装置和电子设备 Download PDF

Info

Publication number
CN111968630A
CN111968630A CN201910420512.6A CN201910420512A CN111968630A CN 111968630 A CN111968630 A CN 111968630A CN 201910420512 A CN201910420512 A CN 201910420512A CN 111968630 A CN111968630 A CN 111968630A
Authority
CN
China
Prior art keywords
information
voice information
voice
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910420512.6A
Other languages
English (en)
Other versions
CN111968630B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910420512.6A priority Critical patent/CN111968630B/zh
Publication of CN111968630A publication Critical patent/CN111968630A/zh
Application granted granted Critical
Publication of CN111968630B publication Critical patent/CN111968630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/066Format adaptation, e.g. format conversion or compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了信息处理方法、装置和电子设备。该方法的一具体实施方式包括:接收用户输入的语音信息;确定所述语音信息对应的文字信息;将所述语音信息和所述文字信息合为同一条发送信息发送。实现了将用户输入的语音信息和语音信息对应的文字信息作为同一条信息发送,从而可以改善由于信息接收方由于环境限制,无法实时接收信息发送方发送的信息的现象,提高了信息传输的效率。

Description

信息处理方法、装置和电子设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息处理方法、装置和电子设备。
背景技术
随着互联网技术的发展,用户可以通过网络实时向其他用户发送信息,也可以实时接收其他用户发送的信息。例如,不同用户之间通过即时聊天工具进行实时信息互通。
在即时聊天工具中,用户可以单独发送语音信息,也可以单独发送文字信息。
通常使用语音发送信息可以实现信息快速输入。接收方从语音信息中接受信息的速度也较文字信息快。
但是在一些环境中,例如要求保持安静的环境,或者在环境音嘈杂的环境中,收听语音信息存在困难。可能造成信息接收的延时。
发明内容
本发明实施例提供了一种信息处理方法、装置和电子设备,实现了将语音信息与语音信息对应的文字信息作为一条信息发送,以达到便于用户及时接收信息的目的。
第一方面,本发明实施例提供了一种信息处理方法,应用于终端设备,该方法包括:接收用户输入的语音信息;确定所述语音信息对应的文字信息;将所述语音信息和所述文字信息合为同一条发送信息发送。
可选地,所述接收用户输入的语音信息,包括:响应于用户触控所述预设语音文字信息输入窗口对应的标识,开始接收用户输入的语音信息。
可选地,所述确定所述语音信息对应的文字信息,包括:对用户输入的语音信息进行分帧,得到包括多个语音信息分帧的语音信息帧序列,其中,且相邻的两个语音信息分帧包括部分重合的语音信息;依次确定每一个语音信息分帧对应的文字信息;根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息。
可选地,该方法还包括:对于每一语音信息分帧,使用第一预设文字颜色实时展示根据该语音信息分帧转换得到文本内容。
可选地,所述根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息,包括:对于每一个语音信息分帧,根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容进行纠偏。
可选地,该方法还包括:使用第二预设文字颜色展示纠偏后的该语音信息分帧对应的文字内容。
可选地,该方法还包括:分析后一时段输入的语音信息的语义,在使用第二预设文字颜色展示的、在前一时间段接收到的语音信息所对应的文本内容中确定与所述语义分析结果不匹配的部分文字;利用与语义分析结果匹配的替换文字替换所述部分文字;使用第三预设文字颜色显示所述替换文字。
可选地,该方法还包括:确定语音信息的结束时间点;分析结束时间点之前接收的全部语音信息的语义;根据语义分析结果,确定所述替换文字是否准确;若准确,将所述替换文字的显示颜色调整为第二预设文字颜色;若不准确,根据所示语义确定与所述语义分析结果匹配的纠正文字,将所述纠正文字替换所述替换文字,并使用第二预设文字颜色显示所述纠正文字。
可选地,在所述将所述语音信息和所述文字信息合为同一条发送信息发送之前,该方法还包括:响应于接收到用户的文字调整操作,对所述文字信息中的至少一个文字进行调整;以及所述将所述语音信息和所述文字信息合为同一条发送信息发送,包括:将所述语音信息和调整后的文字信息合为同一条发送信息发送。
可选地,该方法还包括:在接收用户输入的语音信息的过程中,向用户提示语音信息输入的时长。
可选地,所述用户输入的语音信息为空,与语音信息对应的文字信息为空,该方法还包括:展示用于提示未检测到有效语音信息的提示信息。
可选地,该方法还包括:响应于接收到用户对当前交互页面中展示的已发送的所述同一条发送信息中的语音信息的预设操作,展示所述语音信息的进度条;以及响应于用户对进度条执行的拖动操作,显示与所述进度条被拖动至的位置关联的语音进度信息。
可选地,所述展示所述语音信息的进度条,还包括:展示所述语音信息对应的带有进度条的波形声音。
第二方面,本发明实施例提供了一种信息处理装置,应用于终端设备,包括:接收单元,用于接收用户输入的语音信息;确定单元,用于确定所述语音信息对应的文字信息;发送单元,用于将所述语音信息和所述文字信息合为同一条发送信息发送。
可选地,接收单元进一步用于:响应于用户触控预设语音文字信息输入窗口对应的标识,开始接收用户输入的语音信息。
可选地,确定单元进一步用于:对用户输入的语音信息进行分帧,得到包括多个语音信息分帧的语音信息帧序列,其中,相邻的两个语音信息分帧包括部分重合的语音信息;依次确定每一个语音信息分帧对应的文字信息;根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息。
可选地,该装置还包括展示单元,展示单元用于对于每一语音信息分帧,使用第一预设文字颜色实时展示根据该语音信息分帧转换得到的文本内容。
可选地,确定单元进一步用于:对于每一个语音信息分帧,根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容进行纠偏。
可选地,展示单元进一步用于;使用第二预设文字颜色展示纠偏后的该语音信息分帧对应的文字内容。
可选地,展示单元进一步用于:分析后一时段输入的语音信息的语义,在使用第二预设文字颜色展示的、在前一时间段接收到的语音信息所对应的文本内容中确定与所述语义分析结果不匹配的部分文字;利用与语义分析结果匹配的替换文字替换所述部分文字;使用第三预设文字颜色显示所述替换文字。
可选地,展示单元进一步用于:确定语音信息的结束时间点;分析结束时间点之前接收的本次输入的全部语音信息的语义;根据语义分析结果,确定所述替换文字是否准确;若准确,将所述替换文字的显示颜色调整为第二预设文字颜色;若不准确,根据语义确定与所述语义分析结果匹配的纠正文字,将所述纠正文字替换所述替换文字,并使用第二预设文字颜色显示所述纠正文字。
可选地,该装置包括调整单元,调整单元用于:响应于接收到用户的文字调整操作,对所述文字信息中的至少一个文字进行调整。以及发送单元进一步用于:将所述语音信息和调整后的文字信息合为同一条发送信息发送。
可选地,该装置还包括第一提示单元,第一提示单元用于:在接收用户输入的语音信息的过程中,向用户提示语音信息输入的时长。
可选地,用户输入的语音信息为空,与语音信息对应的文字信息为空。该装置还包括第二提示单元,第二提示单元用于:展示用于提示未检测到有效语音信息提示信息。
可选地,该装置还包括语音进度展示单元,语音进度展示单元用于:响应于接收到用户对当前交互页面中展示的已发送的所述同一条发送信息中的语音信息的预设操作,展示所述语音信息的进度条;以及响应于用户对进度条执行的拖动操作,显示与所述进度条被拖动至的位置关联的语音进度信息。
可选地,语音进度展示单元进一步用于:展示语音信息对应的待有进度条的波形语音。
第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面任一所述的信息处理方法。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任意一种信息处理方法的步骤。
本发明实施例提供的信息处理方法、装置和电子设备,通过接收用户输入的语音信息;确定所述语音信息对应的文字信息;将所述语音信息和所述文字信息合为同一条发送信息发送。实现了将用户输入的语音信息和语音信息对应的文字信息作为同一条信息发送,从而可以改善由于信息接收方由于环境限制实时接收信息发送方发送的信息的现象,提高了信息传输的效率。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明的信息处理方法的一个实施例的流程图;
图2A~图2B是根据本申请的信息处理方法的一个应用场景的示意图;
图3是根据本发明的信息处理方法的又一个实施例的流程图;
图4是根据本申请的信息处理方法的一个应用场景的示意图;
图5是根据本发明的信息处理装置的一个实施例的结构示意图;
图6是本发明的一个实施例的信息处理方法可以应用于其中的示例性系统架构;
图7是根据本发明实施例提供的电子设备的基本结构的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解。应当将它们认为仅仅是示范性的。因此本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
用户可以使用终端设备与其他用户实现信息交流,例如通过安装在终端设备中即时通讯应用客户端与其他拥有实现即时通讯。
现有技术中,用户可以通过终端设备向其他用户发送语音信息、文字信息等。用户发送的一条信息可以是语音信息,也可以是文字信息等。
对于信息交互双方而言,使用语音信息进行信息交流可以节约用户输入文字,以及用户阅读文字所占用的时间,从而使用语音信息进行即时通讯可以节省用户的时间。但是在一些应用场景中,例如在要求静音的环境中,或者在周围环境噪音较大的环境中,接收方无法实时收听信息发送方传递的信息,造成信息接收的延时。
为了改善上述现象,可以应用本申请实施例所提供的方法,以改善现有技术中对于由于信息接收方无法实时收听信息发送方发送的语音信息,而引起的信息接收延时的现象。
请参考图1,其示出了根据本发明的信息处理方法的一个实施例的流程。如图1所示该信息处理方法,包括以下步骤:
步骤101,接收用户输入的语音信息。
在本实施例中,用户可以通过语音信息接收装置实时输入语音信息。这里的语音信息输入装置可以是设置在电子设备中的语音信息输入装置,还可以是与电子设备实现通信连接的语音信息输入装置。
上述电子设备可以实时接收用户输入的语音信息。
在本实施例的一些可选的实现方式中,上述接收用户输入的语音信息,包括:响应于用户触控所述预设语音文字信息输入窗口对应的标识,开始接收用户输入的语音信息。
在这些可选的实现方式中,上述电子设备的展示页面中可以设置预设语音文字信息输入窗口对应的标识。用户可以触控上述标识,在用户触控上述标识后,电子设备可以开始接收用户输入的语音信息。这里的触控可以是短时间触控,也可以是较长时间的触控等。
步骤102,确定语音信息对应的文字信息。
在本实施例中,可以通过各种分析方法确定上述语音信息对应的文字信息。
在一些应用场景中,上述电子设备可以是用户使用其进行即时通讯的终端设备。在这些应用场景中,上述电子设备可以实时确定语音信息对应的文字信息。在另外一些应用场景中,上述电子设备还可以是服务器,用户的终端设备可以通过网络将用户输入的语音信息实时发送到上述服务器,由服务器实时确定语音信息对应的文字信息,并将所确定的语音信息对应的文字信息发送给终端设备。
可以使用现有的各种将语音信息转换为文字信息的方法,将用户输入的语音信息转换为文字信息。上述将语音信息转换为文字信息的方法包括使用语音识别模型来识别语音信息对应的文字信息的方法。语音识别模型可以包括基于隐马尔可夫模型的语音识别模型,基于人工神经网络的语音识别模型等等。
步骤103,将语音信息和文字信息合为同一条发送信息发送。
可以将用户输入的语音信息以及与语音对应的文字信息合为同一条发送信息发送。
这样一来,信息接收方可以同时接收到语音信息和与语音信息对应的文字信息,用户可以收听语音信息,也可以阅读文字信息。从而可以改善由于信息接收方由于环境限制,无法实时接收信息发送方发送的信息的现象,提高了信息传输的效率。
请参考图2A~图2B,其示出了根据本申请的信息处理方法的一个应用场景的示意图。
电子设备的应用页面中展示了语音文字信息输入窗口的预设标识201。用户通过触控预设标识201的方式触发输入语音文字信息。如图2A所示。通过语音文字信息输入窗口,用户可以输入语音信息。电子设备可以确定用户输入的语音信息对应的文字信息。电子设备可以将用户输入的语音信息以及语音信息对应的文字信息合为同一条发送信息202发送,如图2B所示。
本发明的上述实施例提供的方法通过接收用户输入的语音信息;然后,确定所述语音信息对应的文字信息;最后将所述语音信息和所述文字信息合为同一条发送信息发送。实现了将用户输入的语音信息和语音信息对应的文字信息作为同一条信息发送,从而可以改善由于信息接收方由于环境限制,无法实时接收信息发送方发送的信息的现象,提高了信息传输的效率。
在本实施例的一些可选的实现方式中,信息处理方法还包括:在接收用户输入的语音信息的过程中,向用户提示语音信息输入的时长。
在本实施例的一些可选的实现方式中,用户输入的语音信息为空,与语音信息对应的文字信息为空。信息处理方法还包括:展示用于提示未检测到有效语音信息的提示信息。
在这些可选的实现方式中,上述提示信息可以提示是否继续发送上述信息。并根据用户的选择操作执行相应操作。
在本实施例的一些可选的实现方式中,信息处理方法还包括:响应于接收到用户对当前交互页面中展示的已发送的同一条发送信息中的语音信息的预设操作,展示语音信息的进度条;以及响应于用户对进度条执行的拖动操作,显示与进度条被拖动至的位置关联的语音进度信息。
在这些可选的实现方式中,用户可以通过拖动进度条的方式检查已发送的语音信息。此外,上述与进度条被拖动至的位置关联的语音进度信息可以进度条当前位置之后的语音信息持续的时间信息,还可以是进度条当前位置之前的语音信息所持续的时间信息等。
进一步地,上述展示所述语音信息的进度条,还包括:展示所述语音信息对应的带有进度条的波形声音。
这里的波形声音可以展示用户发送的语音信息在每个时间点对应的语音的幅度。有助于用户观察语音大小变化的信息等。
请继续参考图3,其示出了根据本发明的信息处理方法的又一个实施例的流程。如图3所示,该信息处理方法,包括以下步骤:
步骤301,接收用户输入的语音信息。
在本实施例中,步骤301可以与图1所示实施例中的步骤101相同,此处不赘述。
步骤302,对用户输入的语音信息进行分帧,得到包括多个语音信息分帧的语音信息帧序列。
在本实施例中,可以将实时输入的语音信息(例如当前时间段内输入的语音信息)进行分帧。具体地,可以使用移动窗函数对实时输入的语音信息进行分帧。这样用户输入的语音可以对应一个语言信息帧序列。在语音信息帧序列包括按照用户语音输入的先后顺序排列的多个语音信息分帧。相邻两个语音信息分帧存在重叠的语音信息。各语音信息分帧的长度可以相等。语音信息分帧的长度与移动窗函数的参数设置有关。语音信息分帧的长度可以通过调整移动窗函数的参数的方式进行调整。语音信息分帧的长度可以根据具体的应用进行调整,此处不进行限定。
步骤303,依次确定每一个语音信息分帧对应的文字信息。
可以使用现有的语音识别方法,按语音信息帧序列中各语音信息分帧的先后顺序,依次确定每一个语音信息分帧对应的文字信息。
对于每一个语音信息分帧,确定该语音分帧对应的文字信息具体地可以包括如下步骤:
第一,提取语音信息分帧对应的特征参数。
例如将该语音信息分帧进行快速傅里叶变换,得到该语音信息分帧对应的频谱。使用梅尔滤波器对上述频谱进行滤波。对滤波后的频谱进行离散余弦变换,得到梅尔频率倒谱系数。梅尔频率倒谱系数是语音信息分帧的一个特征参数。上述特征参数还可以是线性预测倒谱系数等。
上述提取语音信息分帧的特征参数的过程实际是把每一语音信息分帧转换为了多维向量。
第二,利用预先训练的声学模型、字典、语言模型等对语音信息分帧对应的特征参数进行解码,从而得到该语音分帧对应的文字信息。
上述声学模型的输入为特征向量,输出为音素信息;字典中包括字或词与音素的对应。语言模型,通过大量文本信息进行训练,得到单个字或者词相互关联的概率。
需要说明的是,上述语音识别的方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤304,根据各语音信息分帧分别对应的文字信息确定语音信息对应的文字信息。
具体地,对于相邻两语音信息分帧,确定重叠的语音部分各自对应的文字内容,若相同,则可以首次确定重叠的语音部分对应的文字内容。
在一些应用场景中,对于每一个语音信息分帧,可以根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容纠偏。例如,可以利用第二语音信息分帧和第三语音信息分帧各自对应的文字内容的语义分析结果,对第一语音信息分帧对应的文字内容进行纠偏。此外,还可以使用第一语音信息分帧和第二语音信息分帧各自对应的文字内容的语义分析结果,对第三语音信息分帧对应的文字内容进行纠偏。
在用户语音信息输入结束后,可以对用户输入全部语音信息对应的文字内容进行语义分析。根据语义分析结果对各语音信息分帧对应的文字内容进行纠偏。最后得到语音信息对应的文字信息。
步骤305,响应于接收到用户的文字调整操作,对文字信息中的至少一个文字进行调整。
这里的文字调整操作,可以将由电子设备确定的语音信息所对应的文字内容中的部分文字替换为其他文字的操作。
步骤306,将语音信息和调整后的文字信息合为同一条发送信息发送。
从图3中可以看出,与图1对应的实施例相比,本实施例中的信息处理方法的流程突出了对语音信息分帧,逐帧确定语音信息分帧对应的文字内容,根据各语音信息分帧对应的文字内容确定语音信息的文字信息,以及接收用户对文字信息中的文字调整,将语音信息与调整后的文字信息合为同一条发送信息发送的步骤。由此,本实施例描述的方案所得到的文字信息与语音信息更加贴合,从而可以提高信息传递的准确率。
在本实施例的一些可选的实现方式中,上述信息处理方法还可以包括:
对于每一语音信息分帧,使用第一预设文字颜色实时展示根据该语音信息分帧转换得到文本内容。
也就是在接收到用户输入的语音信息时,在将语音信息逐帧转换成文字内容时,可以使用第一预设文字颜色展示每一语音信息帧实时转换得到的文本内容。这样,信息发送用户可以实时观看到自己当前输入的语音对应文字内容。
在本实施例的一些可选的实现方式中,对于每一个语音信息分帧,根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容进行纠偏。信息处理方法还包括:使用第二预设文字颜色展示纠偏后的该语音信息分帧对应的文字内容。这里是使用第二预设文字颜色展示该语音信息分帧所对应的全部文字内容。
这里的第一预设文字颜色可以是各种颜色,第二预设文字颜色可以是除第一预设文字颜色之外的其他任意颜色。
在本实施例的一些可选的实现方式中,信息处理方法还包括:分析后一时段输入的语音信息的语义,在使用第二预设文字颜色展示的、在前一时间段接收到的语音信息所对应的文本内容中确定与所述语义分析结果不匹配的部分文字;利用与语义分析结果匹配的替换文字替换所述部分文字;使用第三预设文字颜色显示所述替换文字。
在这些可选的实现方式中,可以使用后一时段输入的语音信息对应的文字内容的语义分析结果,确定前一时段输入的语音信息中与上述语义分析结果不匹配的部分文字,并根据语义分析结果确定用于替换上述部分文字的替换文字。使用替换文字替换上述部分文字,并使用第三预设文字颜色显示上述替换文字。
这里的第三预设文字颜色可以是与上述第二预设文字颜色不同的任意颜色。第三预设文字颜色可以与第一预设文字颜色相同,也可以不同。
使用不同的预设文字颜色展示在语音文字转换过程中得到的文字内容,用户可以直观的观察到在上述语音文字转换过程中的文字内容的调整过程。在得到语音信息对应的文字信息之后,可以根据之前文字颜色发生变换的文字部分进行重点查看,有助于提高用户检查语音信息得到的文字信息是否准确的效率。
在本实施例的一些可选的实现方式中,信息处理方法还包括:确定语音信息的结束时间点;分析结束时间点之前接收的全部语音信息的语义;根据语义分析结果,确定替换文字是否准确;若准确,将所述替换文字的显示颜色调整为第二预设文字颜色;若不准确,根据所示语义确定与所述语义分析结果匹配的纠正文字,将所述纠正文字替换所述替换文字,并使用第二预设文字颜色显示所述纠正文字。
在这些可选的实现方式中,可以对所输入的全部语音进行语义分析,并确定上述替换文字是否与语义分析结果匹配。若匹配,则准确,否则,不准确。若上述替换文字是准确的,则将上述替换文字的颜色有第三预设文字颜色转为第三预设文字颜色。若不准确,则根据全部语音的语义分析结果,来确定用于替换上述替换文字的纠正文字,使用纠正文字替换上述替换文字。并使用第二预设文字颜色显示上述纠正文字。
这样一来,由于最后根据全部语音信息的语义对上述文字内容进行纠正,从而得到的文字信息与语音信息的匹配度较高。另外,最后所得到的语音信息对应的文字信息中所有的文字显示一致,有利于提高用户体验。
请参考图4A~4D,其示出了根据本申请的信息处理方法的又一个应用场景的示意图。
如图4A所示,用户通过终端设备的麦克风实时输入语音信息,终端设备可以将用户输入的语音信息实时转换成文字。例如将用户输入的第一句语音“我马上到楼下”转换为文字“我马上到龙虾”,并使用第一预设文字颜色,将“我马上到龙虾”展示在显示界面中。如图4B所示,用户输入第二句语音。可以将第二句语音转换换为文字内容“你帮我把东西带过来”,并使用第一预设文字颜色显示。另外,可以将第一句语音对应的文字内容“我马上到楼下”的显示颜色调整为第二预设颜色。如图4C所示,用户输入第三句语音。可以实时确定第三句语音对应的文字内容“我在楼下大厅等你”。可以将上述文字内容“我在楼下大厅等你”以第一预设文字颜色显示。将第二句语音对应的文字内容“你帮我把东西带过来”的文字颜色调整为第二预设文字颜色。根据上述“我在楼下大厅等你”的语义分析结果,确定第一句语音对应的部分文字内容“龙虾”与上述语义分析结果不匹配。根据“我在楼下大厅等你”的语义分析结果,确定“楼下”为“龙虾”的替换文字,并用替换文字“楼下”替换“龙虾”,且将“楼下”显示为第三文字颜色。这里的第三文字颜色可以与第一预设文字颜色相同。如图4D所示,当用户语音信息输入结束后,可以对用户输入的全部语音信息对应的文字信息进行语义分析,并确定上述替换文字是否准确,若准确,则将上述替换文字的颜色显示为第二预设文字颜色。
进一步参考图5,作为对上述各图所示方法的实现,本发明提供了一种信息处理装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息处理装置包括:接收单元401、确定单元402和发送单元403。其中,接收单元401,用于接收用户输入的语音信息;确定单元402,用于确定所述语音信息对应的文字信息;发送单元403,用于将所述语音信息和所述文字信息合为同一条发送信息发送。
在本实施例中,信息处理装置的接收单元401、确定单元402和发送单元403的具体处理及其所带来的技术效果可分别参考图1对应实施例中步骤101、步骤102和步骤103的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,接收单元401进一步用于:响应于用户触控预设语音文字信息输入窗口对应的标识,开始接收用户输入的语音信息。
在本实施例的一些可选的实现方式中,确定单元402进一步用于:对用户输入的语音信息进行分帧,得到包括多个语音信息分帧的语音信息帧序列,其中,各语音信息分帧的长度相同,且相邻的两个语音信息分帧包括部分重合的语音信息;依次确定每一个语音信息分帧对应的文字信息;根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息。
在本实施例的一些可选的实现方式中,信息处理装置还包括展示单元404。展示单元用于对于每一语音信息分帧,使用第一预设文字颜色实时展示根据该语音信息分帧转换得到的文本内容。
在本实施例的一些可选的实现方式中,确定单元402进一步用于:对于每一个语音信息分帧,根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容进行纠偏。
在本实施例的一些可选的实现方式中,展示单元404进一步用于;使用第二预设文字颜色展示纠偏后的该语音信息分帧对应的文字内容。
在本实施例的一些可选的实现方式中,展示单元404进一步用于:在接收后一时间段输入的语音信息后,对用户输入的语音信息进行语义分析;对使用第二预设文字颜色展示的、在前一时间段接收到的语音信息所对应的文本内容中确定与所述语义分析结果不匹配的部分文字;利用与语义分析结果匹配替换文字替换所述部分文字;使用第三预设文字颜色显示所述替换文字。
在本实施例的一些可选的实现方式中,展示单元404进一步用于:确定语音信息的结束时间点;分析结束时间点之前接收的本次输入的全部语音信息的语义;根据语义分析结果,确定所述替换文字是否准确;若准确,将所述替换文字的显示颜色调整为第二预设文字颜色;若不准确,根据语义确定与所述语义分析结果匹配的纠正文字,将所述纠正文字替换所述替换文字,并使用第二预设文字颜色显示所述纠正文字。
在本实施例的一些可选的实现方式中,信息处理装置还包括调整单元(图中未示出)。调整单元用于:响应于接收到用户的文字调整操作,对所述文字信息中的至少一个文字进行调整。以及发送单元403进一用于:将所述语音信息和调整后的文字信息合为同一条发送信息发送。
在本实施例的一些可选的实现方式中,信息处理装置还包括第一提示单元(图中未示出)。第一提示单元用于:在接收用户输入的语音信息的过程中,向用户提示语音信息输入的时长。
在本实施例的一些可选的实现方式中,用户输入的语音信息为空,与语音信息对应的文字信息为空。信息处理装置还包括第二提示单元(图中未示出)。第二提示单元用于:展示用于提示未检测到有效语音信息及有效文字信息的提示信息。
在本实施例的一些可选的实现方式中,信息处理装置还包括语音进度展示单元(图中未示出)。语音进度展示单元用于:响应于接收到用户对当前交互页面中展示的已发送的所述同一条发送信息中的语音信息的预设操作,展示所述语音信息的进度条;以及响应于用户对进度条执行的拖动操作,显示与所述进度条被拖动至的位置关联的语音进度信息。
在本实施例的一些可选的实现方式中,语音进度展示单元进一步用于:展示语音信息对应的待有进度条的波形语音。
请参考图6,图6示出了本发明的一个实施例的信息处理方法可以应用于其中的示例性系统架构。
如图6所示,系统架构可以包括终端设备501、502、503,网络504,服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备501、502、503可以通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用、新闻资讯类应用、即时通讯类应用等。终端设备501、502、503中的客户端应用可以接收用户输入的信息。
终端设备501、502、503可以是硬件,也可以是软件。当终端设备501、502、503为硬件时,可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备501、502、503为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器505可以是提供各种服务的服务器,例如接收终端设备501、502、503发送的信息,并将所接收到的信息转发给其他终端设备。
需要说明的是,本发明实施例所提供的信息处理方法可以由终端设备执行,相应地,信息处理装置可以设置在终端设备501、502、503中。另外,本发明实施例所提供的信息处理方法可以由服务器执行,相应地,信息处理装置可以设置在服务器505中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备的基本结构示意图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备可以包括一个或多个处理器601,存储装置602。存储装置602用户存储一个或多个程序。存储装置602中的一个或多个程序可以被一个或多个处理器601执行。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器可以实现本发明的方法中限定的上述功能。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、确定单元和发送单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收单元还可以被描述为“接收用户输入的语音信息的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。本发明的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质可以应用于终端设备,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备:接收用户输入的语音信息;确定所述语音信息对应的文字信息;将所述语音信息和所述文字信息合为同一条发送信息发送。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (16)

1.一种信息处理方法,其特征在于,包括:
接收用户输入的语音信息;
确定所述语音信息对应的文字信息;
将所述语音信息和所述文字信息合为同一条发送信息发送。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音信息,包括:
响应于用户触控所述预设语音文字信息输入窗口对应的标识,开始接收用户输入的语音信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述语音信息对应的文字信息,包括:
对用户输入的语音信息进行分帧,得到包括多个语音信息分帧的语音信息帧序列,其中,相邻的两个语音信息分帧包括部分重合的语音信息;
依次确定每一个语音信息分帧对应的文字信息;
根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于每一语音信息分帧,使用第一预设文字颜色实时展示根据该语音信息分帧转换得到的文本内容。
5.根据权利要求4所述的方法,其特征在于,所述根据各语音信息分帧对应的文字信息确定所述语音信息对应的文字信息,包括:
对于每一个语音信息分帧,根据该语音信息分帧之后的至少一个语音信息分帧的语义,对该语音信息分帧对应的文字内容进行纠偏。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
使用第二预设文字颜色展示纠偏后的该语音信息分帧对应的文字内容。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
分析后一时段输入的语音信息的语义,在使用第二预设文字颜色展示的、在前一时间段接收到的语音信息所对应的文本内容中确定与所述语义分析结果不匹配的部分文字;
利用与语义分析结果匹配的替换文字替换所述部分文字;
使用第三预设文字颜色显示所述替换文字。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定语音信息的结束时间点;
分析结束时间点之前接收的全部语音信息的语义;
根据语义分析结果,确定所述替换文字是否准确;
若准确,将所述替换文字的显示颜色调整为第二预设文字颜色;
若不准确,根据所示语义确定与所述语义分析结果匹配的纠正文字,将所述纠正文字替换所述替换文字,并使用第二预设文字颜色显示所述纠正文字。
9.根据权利要求1所述的方法,其特征在于,在所述将所述语音信息和所述文字信息合为同一条发送信息发送之前,所述方法还包括:
响应于接收到用户的文字调整操作,对所述文字信息中的至少一个文字进行调整;以及
所述将所述语音信息和所述文字信息合为同一条发送信息发送,包括:
将所述语音信息和调整后的文字信息合为同一条发送信息发送。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收用户输入的语音信息的过程中,向用户提示语音信息输入的时长。
11.根据权利要求1所述的方法,其特征在于,所述用户输入的语音信息为空,与语音信息对应的文字信息为空,所述方法还包括:
展示用于提示未检测到有效语音信息的提示信息。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于接收到用户对当前交互页面中展示的已发送的所述同一条发送信息中的语音信息的预设操作,展示所述语音信息的进度条;以及
响应于用户对进度条执行的拖动操作,显示与所述进度条被拖动至的位置关联的语音进度信息。
13.根据权利要求11所述的方法,其特征在于,所述展示所述语音信息的进度条,还包括:
展示所述语音信息对应的带有进度条的波形声音。
14.一种信息处理装置,其特征在于,包括:
接收单元,用于接收用户输入的语音信息;
确定单元,用于确定所述语音信息对应的文字信息;
发送单元,用于将所述语音信息和所述文字信息合为同一条发送信息发送。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13中任一所述的方法。
CN201910420512.6A 2019-05-20 2019-05-20 信息处理方法、装置和电子设备 Active CN111968630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910420512.6A CN111968630B (zh) 2019-05-20 2019-05-20 信息处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910420512.6A CN111968630B (zh) 2019-05-20 2019-05-20 信息处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111968630A true CN111968630A (zh) 2020-11-20
CN111968630B CN111968630B (zh) 2024-03-19

Family

ID=73357984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910420512.6A Active CN111968630B (zh) 2019-05-20 2019-05-20 信息处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111968630B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597856A (zh) * 2023-07-18 2023-08-15 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278408A1 (en) * 2013-03-15 2014-09-18 Lg Electronics Inc. Mobile terminal and method of controlling the mobile terminal
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN107888479A (zh) * 2017-10-31 2018-04-06 深圳云之家网络有限公司 语音通信方法、装置、计算机设备及存储介质
CN109347980A (zh) * 2018-11-23 2019-02-15 网易有道信息技术(北京)有限公司 呈现、推送信息的方法、介质、装置和计算设备
KR101952106B1 (ko) * 2017-11-03 2019-02-26 주식회사 셀바스에이아이 전자의무기록 서비스를 제공하는 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278408A1 (en) * 2013-03-15 2014-09-18 Lg Electronics Inc. Mobile terminal and method of controlling the mobile terminal
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN107888479A (zh) * 2017-10-31 2018-04-06 深圳云之家网络有限公司 语音通信方法、装置、计算机设备及存储介质
KR101952106B1 (ko) * 2017-11-03 2019-02-26 주식회사 셀바스에이아이 전자의무기록 서비스를 제공하는 방법 및 장치
CN109347980A (zh) * 2018-11-23 2019-02-15 网易有道信息技术(北京)有限公司 呈现、推送信息的方法、介质、装置和计算设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597856A (zh) * 2023-07-18 2023-08-15 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法
CN116597856B (zh) * 2023-07-18 2023-09-22 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法

Also Published As

Publication number Publication date
CN111968630B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
US11475897B2 (en) Method and apparatus for response using voice matching user category
US11217236B2 (en) Method and apparatus for extracting information
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
CN110047481B (zh) 用于语音识别的方法和装置
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
US8510117B2 (en) Speech enabled media sharing in a multimodal application
US20110172989A1 (en) Intelligent and parsimonious message engine
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN107705782B (zh) 用于确定音素发音时长的方法和装置
CN113362828B (zh) 用于识别语音的方法和装置
US20160125881A1 (en) Mobile Device for Speech Input and Text Delivery
CN108877779B (zh) 用于检测语音尾点的方法和装置
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN111968630B (zh) 信息处理方法、装置和电子设备
CN116016779A (zh) 语音通话翻译辅助方法、系统、计算机设备和存储介质
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN115129845A (zh) 文本信息处理方法、装置和电子设备
CN114067842A (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN114171016A (zh) 语音交互的方法、装置、电子设备及存储介质
US7860715B2 (en) Method, system and program product for training and use of a voice recognition application
CN105989832A (zh) 一种用于在计算机设备中生成个性化语音的方法和装置
CN114078478B (zh) 语音交互的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant