CN111526247A

CN111526247A - 显示语音文本的方法及装置

Info

Publication number: CN111526247A
Application number: CN202010298911.2A
Authority: CN
Inventors: 张苏弦; 柯文杰; 梁嘉燕
Original assignee: Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-11

Abstract

提供一种显示语音文本的方法及装置。该显示语音文本的方法包括：获取当前场景信息；基于获取的当前场景信息将语音数据转换为文本信息；并且输出转换得到的文本信息。

Description

显示语音文本的方法及装置

技术领域

本公开涉及物联网领域。更具体地，本公开涉及一种显示语音文本的方法及装置。

背景技术

视频和音频播放在移动终端广泛流行。在很多场合(例如，工作场合、生活场合)中，为了不对周围的人造成影响，用户只能够通过静音模式播放视频。在这种情况下，由于用户无法听到视频的播放声音，只能看到视频的画面，因此，视频内容的一部分可能无法被用户接收到。

另外，在嘈杂的情况或者手机被设置为静音模式的情况下，正在播放的音频或者视频的播放声音，也可能无法被用户接收到。

发明内容

本公开的示例性实施例在于提供一种显示语音文本的方法及装置，以自动判断是否处于用户无法听到音频播放的场景，并且在判断结果为是时为用户提供音频内容的文字，使得音频内容被用户有效地接收到。

根据本公开的示例性实施例，提供一种显示语音文本的方法，包括：获取当前场景信息；基于获取的当前场景信息将语音数据转换为文本信息；并且输出转换得到的文本信息。

可选地，当前场景信息可包括当前位置信息、周围环境信息、时间信息和设定的终端的模式信息中的至少一个。

可选地，基于获取的当前场景信息将语音数据转换为文本信息的步骤可包括：基于获取的当前场景信息来确定是否提供语音转文本功能选项以供用户进行选择；并且响应于用户对语音转文本选项的选择操作，将语音数据转换为文本信息。

可选地，基于获取的当前场景信息将语音数据转换为文本信息的步骤可包括：基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息。

可选地，输出转换得到的文本信息的步骤可包括：将文本信息进行自适应显示和/或为文本信息提供文本操作选项。

可选地，输出转换得到的文本信息的步骤可包括：提取文本信息中的关键词并输出提取的关键词。

可选地，基于获取的当前场景信息来确定是否提供语音转文本选项的步骤可包括：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。

可选地，基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息的步骤可包括：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。

可选地，用户对语音转文本选项的选择操作可包括：点击操作、滑动操作和长按操作。

可选地，将语音数据转换为文本信息的步骤可包括：通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息。

可选地，自适应显示的步骤可包括：根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。

可选地，获取当前场景信息的方式可包括检测周围环境的音量来确定当前场景信息、检测当前位置信息来确定当前场景信息、根据当前接入的wifi信息来确定当前场景信息、根据预先设定的不同场景对应的终端设备的音量大小来确定当前场景信息、以及根据预先设定的不同场景对应的时间信息来确定当前场景信息的方式中的至少一个方式。

可选地，强噪声场景可以为周围环境的声音强度值大于一定阈值时的场景。

可选地，噪声敏感场所可包括工作地点、学习场所和休息场所。

可选地，文本操作选项可包括以下中的至少一个：文本选择、文本复制、文本剪切、文本搜索、文本翻译、文本删除。

可选地，调整文本显示参数的步骤可包括以下至少一个步骤：将文本信息显示在当前界面中的空白位置；依据背景色自动调整文本信息的颜色和亮度；将文本信息的字体显示为当前用户经常使用的字体；根据当前用户的视力来调整文本信息的字体大小和对比度；对文本信息中的敏感信息进行加密显示和/或不显示。

可选地，画面信息可包括画面空白区域颜色和画面背景颜色中的至少一个。

可选地，用户信息可包括用户类型信息、用户习惯信息和用户状态信息中的至少一个。

可选地，文本显示参数可包括以下中的至少一个：显示位置、显示效果、显示亮度、显示颜色、显示字体、加密显示、隐藏显示。

根据本公开的示例性实施例，提供一种显示语音文本的装置，包括：场景信息获取单元，被配置为获取当前场景信息；语音文本转换单元，被配置为基于获取的当前场景信息将语音数据转换为文本信息；和文本输出单元，被配置为输出转换得到的文本信息。

可选地，语音文本转换单元可被配置为：基于获取的当前场景信息来确定是否提供语音转文本功能选项以供用户进行选择；并且响应于用户对语音转文本选项的选择操作，将语音数据转换为文本信息。

可选地，语音文本转换单元可被配置为：基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息。

可选地，文本输出单元可被配置为：将文本信息进行自适应显示和/或为文本信息提供文本操作选项。

可选地，文本输出单元可被配置为：提取文本信息中的关键词并输出提取的关键词。

可选地，语音文本转换单元还可被配置为：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。

可选地，语音文本转换单元还可被配置为：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。

可选地，用户对语音转文本选项的选择操作可包括点击操作、滑动操作和长按操作。

可选地，语音文本转换单元还可被配置为：通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息。

可选地，文本输出单元还可被配置为：根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。

可选地，文本输出单元还可被配置为执行以下至少一个步骤：将文本信息显示在当前界面中的空白位置；依据背景色自动调整文本信息的颜色和亮度；将文本信息的字体显示为当前用户经常使用的字体；根据当前用户的视力来调整文本信息的字体大小和对比度；对文本信息中的敏感信息进行加密显示和/或不显示。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的显示语音文本的方法。

根据本公开的示例性实施例，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的显示语音文本的方法。

根据本公开的示例性实施例的显示语音文本的方法及装置，通过首先获取当前场景信息，然后基于获取的当前场景信息将语音数据转换为文本信息，并且输出转换得到的文本信息，从而在用户无法听到音频播放时，使得音频内容被用户有效地接收到。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的显示语音文本的方法的流程图；

图2示出根据本公开的示例性实施例的显示语音文本的装置的框图；和

图3示出根据本公开的示例性实施例的计算装置的示意图。

具体实施方式

现将详细参照本公开的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

图1示出根据本公开的示例性实施例的显示语音文本的方法的流程图。应理解，根据本公开的示例性实施例的方法可在诸如智能手机的终端设备中实现。

参照图1，在步骤S101，获取当前场景信息。

在本公开的示例性实施例中，当前场景信息包括当前位置信息、周围环境信息、时间信息和设定的终端的模式信息中的至少一个。

在本公开的示例性实施例中，获取当前场景信息的方式可包括检测周围环境的音量来确定当前场景信息、检测当前位置信息来确定当前场景信息、根据当前接入的wifi信息来确定当前场景信息、根据预先设定的不同场景对应的终端设备的音量大小来确定当前场景信息、以及根据预先设定的不同场景对应的时间信息来确定当前场景信息等方式中的至少一个方式。例如，可以检测周围环境中的声音的分贝值并且对终端设备进行定位，将周围环境中的声音的分贝值和终端设备的位置信息作为当前场景信息。例如，可以根据终端设备的音量大小从终端设备的音量大小与场景的对应关系表中选择终端设备当前所处的场景，从而根据选择的场景确定当前场景信息。例如，可以根据当前的时间从时间与场景的对应关系表中选择终端设备当前所处的场景，从而根据选择的场景确定当前场景信息。

接下来，在步骤S102，基于获取的当前场景信息将语音数据转换为文本信息。

在本公开的示例性实施例中，在基于获取的当前场景信息将语音数据转换为文本信息时，可首先基于获取的当前场景信息来确定是否提供语音转文本功能选项以供用户进行选择，然后响应于用户对语音转文本选项的选择操作，将语音数据转换为文本信息。在本公开的示例性实施例中，用户对语音转文本选项的选择操作可包括点击操作、滑动操作和长按操作等。

在本公开的示例性实施例中，在基于获取的当前场景信息来确定是否提供语音转文本选项时，可通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。当满足上述至少一个触发条件时，提供语音转文本选项；当不满足上述任何一个触发条件时，不提供语音转文本选项。

例如，当周围环境为静音场景或者强噪声场景时，确定提供语音转文本选项；当当前位置为特定的噪声敏感场所(例如，办公室、图书馆等)时，确定提供语音转文本选项；当当前时间段为工作时间或休息时间(例如，午休时间)时，确定提供语音转文本选项；当当前位置为公共场合(例如，公交车、地铁、博物馆、图书馆等)时，确定提供语音转文本选项；当终端设备的当前模式为静音模式、夜间模式和会议模式之一时，确定提供语音转文本选项；当在通话模式下检测到的用户远离话筒且没有使用耳机时，确定提供语音转文本选项；当在通话模式下检测到用户目光注视屏幕时，确定提供语音转文本选项。例如，当周围环境为静音场景并且当前位置为特定的噪声敏感场所(例如，办公室、图书馆等)时，确定提供语音转文本选项；当周围环境为静音场景并且当前时间段为休息时间(例如，午休时间)时，确定提供语音转文本选项。

具体来说，在本公开的示例性实施例中，静音场景可以为周边的环境音量低、周边环境空旷、休息时间段、所处的位置是否是家中寝室等场景。强噪声场景可以为周围环境的声音强度值大于一定阈值时的场景。噪声敏感场所可包括工作地点、学习场所和休息场所。

在本公开的示例性实施例中，在将语音数据转换为文本信息时，可通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息。也就是说，本公开对将语音数据转换为文本信息的方式不进行选择，可以使用任何本地和/或在线语音文字转换方式。

在本公开的示例性实施例中，在基于获取的当前场景信息将语音数据转换为文本信息时，可基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息。

在本公开的示例性实施例中，在基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息时，可通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。当满足上述至少一个触发条件时，自动将语音数据转换为文本信息；当不满足上述任何一个触发条件时，不自动将语音数据转换为文本信息。

例如，当周围环境为静音场景或者强噪声场景时，自动将语音数据转换为文本信息；当当前位置为特定的噪声敏感场所(例如，办公室、图书馆等)时，自动将语音数据转换为文本信息；当当前时间段为工作时间或休息时间(例如，午休时间)时，自动将语音数据转换为文本信息；当当前位置为公共场合(例如，公交车、地铁、博物馆、图书馆等)时，自动将语音数据转换为文本信息；当当前设定的终端的模式为静音模式、夜间模式和会议模式之一时，自动将语音数据转换为文本信息；当在通话模式下检测到的用户远离话筒且没有使用耳机时，自动将语音数据转换为文本信息；当在通话模式下检测到用户目光注视屏幕时，自动将语音数据转换为文本信息。例如，当周围环境为静音场景并且当前位置为特定的噪声敏感场所(例如，办公室、图书馆等)时，自动将语音数据转换为文本信息；当周围环境为静音场景并且当前时间段为休息时间(例如，午休时间)时，自动将语音数据转换为文本信息。

在步骤S103，输出转换得到的文本信息。

在本公开的示例性实施例中，在输出转换得到的文本信息时，可将文本信息进行自适应显示和/或为文本信息提供文本操作选项。在本公开的示例性实施例中，文本操作选项可包括以下中的至少一个：文本选择、文本复制、文本剪切、文本搜索、文本翻译、文本删除。

在本公开的示例性实施例中，在自适应显示时，可根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。

例如，可仅根据画面信息调整文本显示参数，或者仅根据用户信息调整文本显示参数，或者仅根据文本信息(例如，文本信息中的敏感信息)调整文本显示参数。例如，可根据画面信息和用户信息调整文本显示参数，或者可根据画面信息和文本信息调整文本显示参数，或者可根据用户信息和文本信息调整文本显示参数，或者可根据画面信息、用户信息和文本信息调整文本显示参数。

在本公开的示例性实施例中，在输出转换得到的文本信息时，可提取文本信息中的关键词并输出提取的关键词。

在本公开的示例性实施例中，在调整文本显示参数时，可执行以下至少一个步骤：将文本信息显示在当前界面中的空白位置；依据背景色自动调整文本信息的颜色和亮度；将文本信息的字体显示为当前用户经常使用的字体；根据当前用户的视力来调整文本信息的字体大小和对比度；对文本信息中的敏感信息进行加密显示和/或不显示。

具体来说，可将文本的显示位置确定为app界面中的较为“干净”(空白的)区域。可根据显示位置的背景颜色对文字颜色及亮度进行调整。记录或者学习不同账号的人的字体显示习惯，当确认当前使用人时，可以调出当前使用人的习惯字体。针对同一个人，也会设置不同字体。通过传感器检测到用户是否佩戴眼镜来调整字体大小和对比度等。

例如，当显示位置的背景颜色为白色时，可以将文字颜色及亮度调整为默认的文字颜色及亮度；当显示位置的背景颜色为灰色时，可以将文字颜色调整为黑色、红色、蓝色等除了灰色之外的颜色中RGB值与灰色的RGB值的差异超过预设阈值的颜色，并且根据调整后的文字颜色调整文字亮度，使得在显示位置的背景颜色下文字能够清晰地显示。

例如，当第一用户使用终端设备时，根据第一用户的字体显示习惯对文字的字体进行调整，使得字体被调整为第一用户的习惯字体(例如，宋体)。第一用户可以在一部分应用中习惯使用第一字体，在另一部分应用中习惯使用第二字体(例如，楷体)。

例如，当检测到老年人用户使用终端设备时，如果老年人用户没有佩戴眼镜，则将字体的大小调大并且将屏幕的对比度调高；如果老年人用户佩戴眼镜，则不对字体大小和屏幕的对比度进行调整。

在本公开的示例性实施例中，画面信息可包括画面空白区域颜色和画面背景颜色中的至少一个。

在本公开的示例性实施例中，用户信息可包括用户类型信息、用户习惯信息和用户状态信息中的至少一个。

在本公开的示例性实施例中，文本显示参数可包括以下中的至少一个：显示位置、显示效果、显示亮度、显示颜色、显示字体、加密显示、隐藏显示。

以上已经结合图1对根据本公开的示例性实施例的显示语音文本的方法进行了描述。在下文中，将参照图2对根据本公开的示例性实施例的显示语音文本的装置及其单元进行描述。

图2示出根据本公开的示例性实施例的显示语音文本的装置的框图。

参照图2，显示语音文本的装置包括场景信息获取单元21、语音文本转换单元22和文本输出单元23。

场景信息获取单元21被配置为获取当前场景信息。

在本公开的示例性实施例中，获取当前场景信息的方式可包括检测周围环境的音量来确定当前场景信息、检测当前位置信息来确定当前场景信息、根据当前接入的wifi信息来确定当前场景信息、根据预先设定的不同场景对应的终端设备的音量大小来确定当前场景信息、以及根据预先设定的不同场景对应的时间信息来确定当前场景信息等方式中的至少一个方式。

语音文本转换单元22被配置为基于获取的当前场景信息将语音数据转换为文本信息。

在本公开的示例性实施例中，语音文本转换单元22可被配置为：首先基于获取的当前场景信息来确定是否提供语音转文本功能选项以供用户进行选择，然后响应于用户对语音转文本选项的选择操作，将语音数据转换为文本信息。在本公开的示例性实施例中，用户对语音转文本选项的选择操作可包括点击操作、滑动操作和长按操作等。

在本公开的示例性实施例中，语音文本转换单元22还可被配置为：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。当满足上述至少一个触发条件时，语音文本转换单元提供语音转文本选项；当不满足上述任何一个触发条件时，语音文本转换单元不提供语音转文本选项。

在本公开的示例性实施例中，强噪声场景可以为周围环境的声音强度值大于一定阈值时的场景。噪声敏感场所可包括工作地点、学习场所和休息场所。

在本公开的示例性实施例中，语音文本转换单元22还可被配置为：通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息。

在本公开的示例性实施例中，语音文本转换单元22可被配置为：基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息。

在本公开的示例性实施例中，语音文本转换单元22还可被配置为：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况。当满足上述至少一个触发条件时，语音文本转换单元自动将语音数据转换为文本信息；当不满足上述任何一个触发条件时，语音文本转换单元不自动将语音数据转换为文本信息。

文本输出单元23被配置为输出转换得到的文本信息。

在本公开的示例性实施例中，文本输出单元23可被配置为：将文本信息进行自适应显示和/或为文本信息提供文本操作选项。在本公开的示例性实施例中，文本操作选项可包括以下中的至少一个：文本选择、文本复制、文本剪切、文本搜索、文本翻译、文本删除。

在本公开的示例性实施例中，文本输出单元23还可被配置为：根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。例如，可仅根据画面信息调整文本显示参数，或者仅根据用户信息调整文本显示参数，或者仅根据文本信息(例如，文本信息中的敏感信息)调整文本显示参数。例如，可根据画面信息和用户信息调整文本显示参数，或者可根据画面信息和文本信息调整文本显示参数，或者可根据用户信息和文本信息调整文本显示参数，或者可根据画面信息、用户信息和文本信息调整文本显示参数。

在本公开的示例性实施例中，文本输出单元23可被配置为：提取文本信息中的关键词并输出提取的关键词。

在本公开的示例性实施例中，文本输出单元23还可被配置为执行以下至少一个步骤：将文本信息显示在当前界面中的空白位置；依据背景色自动调整文本信息的颜色和亮度；将文本信息的字体显示为当前用户经常使用的字体；根据当前用户的视力来调整文本信息的字体大小和对比度；对文本信息中的敏感信息进行加密显示和/或不显示。

此外，根据本公开的示例性实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现根据本公开的示例性实施例的显示语音文本的方法。

在本公开的示例性实施例中，所述计算机可读存储介质可承载有一个或者多个程序，当所述计算机程序被执行时可实现以下步骤：获取当前场景信息；基于获取的当前场景信息将语音数据转换为文本信息；并且输出转换得到的文本信息。

计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中；也可以单独存在，而未装配入该装置中。

以上已经结合图2对根据本公开的示例性实施例的显示语音文本的装置进行了描述。接下来，结合图3对根据本公开的示例性实施例的计算装置进行描述。

图3示出根据本公开的示例性实施例的计算装置的示意图。

参照图3，根据本公开的示例性实施例的计算装置3，包括存储器31和处理器32，所述存储器31上存储有计算机程序，当所述计算机程序被处理器32执行时，实现根据本公开的示例性实施例的显示语音文本的方法。

在本公开的示例性实施例中，当所述计算机程序被处理器32执行时，可实现以下步骤：获取当前场景信息；基于获取的当前场景信息将语音数据转换为文本信息；并且输出转换得到的文本信息。

本公开实施例中的计算装置可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机等的装置。图3示出的计算装置仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

以上已参照图1至图3描述了根据本公开的示例性实施例的显示语音文本的方法及装置。然而，应该理解的是：图2中所示的显示语音文本的装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图3中所示的计算装置并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

尽管已经参照其示例性实施例具体显示和描述了本公开，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本公开的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种显示语音文本的方法，包括：

获取当前场景信息；

基于获取的当前场景信息将语音数据转换为文本信息；并且

输出转换得到的文本信息。

2.如权利要求1所述的方法，其中，当前场景信息包括当前位置信息、周围环境信息、时间信息和设定的终端的模式信息中的至少一个，

和/或，

其中，基于获取的当前场景信息将语音数据转换为文本信息的步骤包括：

基于获取的当前场景信息来确定是否提供语音转文本功能选项以供用户进行选择；并且

响应于用户对语音转文本选项的选择操作，将语音数据转换为文本信息，

和/或，

其中，基于获取的当前场景信息将语音数据转换为文本信息的步骤包括：基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息，

和/或，

其中，输出转换得到的文本信息的步骤包括：将文本信息进行自适应显示和/或为文本信息提供文本操作选项，

和/或，

其中，输出转换得到的文本信息的步骤包括：提取文本信息中的关键词并输出提取的关键词。

3.如权利要求2所述的方法，其中，基于获取的当前场景信息来确定是否提供语音转文本选项的步骤包括：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况，

和/或，

其中，基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息的步骤包括：通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况，

和/或，

其中，用户对语音转文本选项的选择操作包括：点击操作、滑动操作和长按操作，

和/或，

其中，将语音数据转换为文本信息的步骤包括：通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息，

和/或，

其中，自适应显示的步骤包括：根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。

4.如权利要求3所述的方法，其中，获取当前场景信息的方式包括检测周围环境的音量来确定当前场景信息、检测当前位置信息来确定当前场景信息、根据当前接入的wifi信息来确定当前场景信息、根据预先设定的不同场景对应的终端设备的音量大小来确定当前场景信息、以及根据预先设定的不同场景对应的时间信息来确定当前场景信息的方式中的至少一个方式，

和/或，

其中，强噪声场景为周围环境的声音强度值大于一定阈值时的场景，

和/或，

其中，噪声敏感场所包括工作地点、学习场所和休息场所，

和/或，

其中，文本操作选项包括以下中的至少一个：文本选择、文本复制、文本剪切、文本搜索、文本翻译、文本删除，

和/或，

其中，调整文本显示参数的步骤包括以下至少一个步骤：

将文本信息显示在当前界面中的空白位置；

依据背景色自动调整文本信息的颜色和亮度；

将文本信息的字体显示为当前用户经常使用的字体；

根据当前用户的视力来调整文本信息的字体大小和对比度；

对文本信息中的敏感信息进行加密显示和/或不显示，

和/或，

其中，画面信息包括画面空白区域颜色和画面背景颜色中的至少一个，

和/或，

其中，用户信息包括用户类型信息、用户习惯信息和用户状态信息中的至少一个，

和/或，

其中，文本显示参数包括以下中的至少一个：显示位置、显示效果、显示亮度、显示颜色、显示字体、加密显示、隐藏显示。

5.一种显示语音文本的装置，包括：

场景信息获取单元，被配置为获取当前场景信息；

语音文本转换单元，被配置为基于获取的当前场景信息将语音数据转换为文本信息；和

文本输出单元，被配置为输出转换得到的文本信息。

6.如权利要求5所述的装置，其中，当前场景信息包括当前位置信息、周围环境信息、时间信息和设定的终端的模式信息中的至少一个，

和/或，

其中，语音文本转换单元被配置为：

和/或，

其中，语音文本转换单元被配置为：基于获取的当前场景信息来确定是否自动将语音数据转换为文本信息，

和/或，

其中，文本输出单元被配置为：将文本信息进行自适应显示和/或为文本信息提供文本操作选项，

和/或，

其中，文本输出单元被配置为：提取文本信息中的关键词并输出提取的关键词。

7.如权利要求6所述的方法，其中，语音文本转换单元还被配置为：

通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否提供语音转文本选项：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况，

和/或，

其中，语音文本转换单元还被配置为：

通过判断当前场景信息是否满足以下多个触发条件中的至少一个触发条件来确定是否自动将语音数据转换为文本信息：周围环境为静音场景或者强噪声场景、当前位置为特定的噪声敏感场所、当前时间段为工作时间或休息时间、当前位置为公共场合、当前设定的终端的模式为静音模式、夜间模式和会议模式之一、在通话模式下检测到的用户远离话筒且没有使用耳机的情况、在通话模式下检测到用户目光注视屏幕的情况，

和/或，

其中，用户对语音转文本选项的选择操作包括点击操作、滑动操作和长按操作，

和/或，

其中，语音文本转换单元还被配置为：通过本地语音数据转文本引擎和/或在线语音数据转文本引擎将语音数据转换为文本信息，

和/或，

其中，文本输出单元还被配置为：根据画面信息、用户信息和文本信息中的至少一个调整文本显示参数。

8.如权利要求7所述的方法，其中，获取当前场景信息的方式包括检测周围环境的音量来确定当前场景信息、检测当前位置信息来确定当前场景信息、根据当前接入的wifi信息来确定当前场景信息、根据预先设定的不同场景对应的终端设备的音量大小来确定当前场景信息、以及根据预先设定的不同场景对应的时间信息来确定当前场景信息的方式中的至少一个方式，

和/或，

其中，噪声敏感场所包括工作地点、学习场所和休息场所，

和/或，

其中，文本输出单元还被配置为执行以下至少一个步骤：

将文本信息显示在当前界面中的空白位置；

依据背景色自动调整文本信息的颜色和亮度；

将文本信息的字体显示为当前用户经常使用的字体；

根据当前用户的视力来调整文本信息的字体大小和对比度；

对文本信息中的敏感信息进行加密显示和/或不显示，

和/或，

9.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现权利要求1至4中任一项所述的显示语音文本的方法。

10.一种计算装置，包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求1至4中任一项所述的显示语音文本的方法。