CN111326142A

CN111326142A - 基于语音转文本的文本信息提取方法、系统和电子设备

Info

Publication number: CN111326142A
Application number: CN202010071172.3A
Authority: CN
Inventors: 蒲庆; 陈浩; 高靖; 崔岩; 卢述奇; 张宵
Original assignee: Qingwutong Co ltd
Current assignee: Qingwutong Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-23

Abstract

本发明公开了一种基于语音转文本的文本信息提取方法、系统、电子设备及可读存储介质，其中，该方法包括：获取用户音频信息中的多个关键信息；将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；根据所述预测结果生成用于用户信息标签化的用户画像。该方法先获取用户音频信息中的多个关键信息；之后，将多个关键信息分别输入至对应的训练模型中进行单独预测得到预测结果，并根据预测结果确定用户画像，通过多个模型单独训练和单独预测，提高了多个关键信息的准确性，从而提高了语音信息识别的准确定。

Description

基于语音转文本的文本信息提取方法、系统和电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及到一种基于语音转文本的文本信息提取方法、系统、电子设备及可读存储介质。

背景技术

语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。随着互联网技术的快速发展，语音识别广泛应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在房屋地产领域中，很多客户信息都需要客服与客户进行通话确认，之后，将客服与客户的语音对话转写成文字的形式，便于后续整理记录并存入档案。然而，在语音转文本的过程中很难避免错别字的产生，这些错别字影响到关键字提取的准确性，导致信息识别准确性低。

发明内容

有鉴于此，本发明实施例提供了一种基于语音转文本的文本信息提取方法、系统、电子设备及可读存储介质，以解决现有技术中语音信息识别准确性低的问题。

为此，本发明实施例提供了如下技术方案：

根据第一方面，本发明实施例提供了一种基于语音转文本的文本信息提取方法，包括：获取用户音频信息中的多个关键信息；将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；根据所述预测结果生成用于用户信息标签化的用户画像。

可选地，将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果的步骤之前，还包括：获取样本数据；对所述样本数据进行标签标注，并对标注后的所述样本数据进行模型训练得到多个训练模型。

可选地，获取用户音频信息中的多个关键信息，包括：获取用户的音频信息；将所述音频信息转换成文本信息；对所述文本信息进行关键词提取，得到多个关键信息。

可选地，将所述音频信息转换成文本信息的步骤之前，还包括：对所述音频信息进行预处理以消除所述音频信息中的干扰信息。

可选地，根据所述预测结果生成用于用户信息标签化的用户画像的步骤之后，还包括：根据所述用户画像确定用户标签，并对所述用户标签进行存储。

可选地，获取用户音频信息中的多个关键信息的步骤之后，还包括：识别所述关键信息中用于表征用户个人信息的隐私信息。

可选地，根据所述预测结果生成用于用户信息标签化的用户画像的步骤之前，还包括：根据预测结果和所述隐私信息对用户进行隐私保护。

根据第二方面，本发明实施例提供了一种基于语音转文本的文本信息提取系统，包括：第一获取模块，用于获取用户音频信息中的多个关键信息；第一处理模块，用于将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；第二处理模块，用于根据所述预测结果生成用于用户信息标签化的用户画像。

可选地，还包括：第二获取模块，用于获取样本数据；第三处理模块，用于对所述样本数据进行标签标注，并对标注后的所述样本数据进行模型训练得到多个训练模型。

可选地，所述第一获取模块包括：第一获取单元，用于获取用户的音频信息；第一处理单元，用于将所述音频信息转换成文本信息；第二处理单元，用于对所述文本信息进行关键词提取，得到多个关键信息。

可选地，所述第一获取模块还包括：第三处理单元，用于对所述音频信息进行预处理以消除所述音频信息中的干扰信息。

可选地，还包括：第四处理模块，用于根据所述用户画像确定用户标签，并对所述用户标签进行存储。

可选地，还包括：第五处理模块，用于识别所述关键信息中用于表征用户个人信息的隐私信息。

可选地，还包括：第六处理模块，用于根据预测结果和所述隐私信息对用户进行隐私保护。

根据第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行上述第一方面任意一项所述的基于语音转文本的文本信息提取方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面任意一项所述的基于语音转文本的文本信息提取方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种基于语音转文本的文本信息提取方法、系统、电子设备及可读存储介质，其中，该方法包括：获取用户音频信息中的多个关键信息；将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；根据所述预测结果生成用于用户信息标签化的用户画像。该方法先获取用户音频信息中的多个关键信息；之后，将多个关键信息分别输入至对应的训练模型中进行单独预测得到预测结果，并根据预测结果确定用户画像，通过多个模型单独训练和单独预测，提高了多个关键信息的准确性，从而提高了语音信息识别的准确定。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于语音转文本的文本信息提取方法的一个具体示例的流程图；

图2为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图3为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图4为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图5为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图6为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图7为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图8为本发明实施例的基于语音转文本的文本信息提取方法的另一个具体示例的流程图；

图9为本发明实施例的基于语音转文本的文本信息提取系统的一个具体示例的框图；

图10为本发明实施例的基于语音转文本的文本信息提取系统的另一个具体示例的框图；

图11为本发明实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于语音转文本的文本信息提取方法，应用于房产领域，如图1所示，该方法可以包括步骤S1-S3。

步骤S1：获取用户音频信息中的多个关键信息。

作为示例性的实施例，获取用户的音频信息，可以是数据仓库中预先存储的音频信息，也可以是实时的音频信息，具体地，音频信息可以是语音信息，也可以是视频信息。之后，从上述音频信息中提取多个关键信息，关键信息用于表征用户音频信息中的有价值的信息，是对音频信息的信息提炼，通过关键信息来表示用户的用户特征和/或用户需求。具体地，可以采用自然语言处理(Natural Language Processing，缩写为NLP)技术对音频信息转换成文字，并基于语义分析进行关键词的提取，得到多个关键词，关键词构成关键信息；例如关键词可以是手机号、户型、朝向、临近地铁、价格需求、卫生间等信息。

步骤S2：将多个关键信息分别输入到与多个关键信息一一对应的多个训练模型中进行单独预测，得到多个关键信息所对应的预测结果。

作为示例性的实施例，预先通过样本集中的大量样本数据进行模型训练，得到多个训练模型，将多个关键信息分别输入对应的训练模型中进行预测，一个模型预测一个关键信息，从而得到多个关键信息所对应的预测结果。

步骤S3：根据预测结果生成用于用户信息标签化的用户画像。

作为示例性的实施例，根据模型的预测结果对用户信息进行标签化，标签通常是对用户相关信息的高度精炼的特征标识，如年龄、性别、地域、兴趣等，这些标签集合可以抽象出一个用户的信息全貌，最终得到用户画像。

通过上述步骤，先获取用户音频信息中的多个关键信息；之后，将多个关键信息分别输入至对应的训练模型中进行单独预测得到预测结果，并根据预测结果确定用户画像，通过多个模型单独训练和单独预测，提高了多个关键信息的准确性，从而提高了信息识别的准确定。尤其是在房屋地产中对特定语句及词汇的提取检测识别，以提高人工分析的准确率，将语音识别和模型训练这两者结合起来，实现了一种高效的成熟的语音处理方法。

作为示例性的实施例，步骤S2将多个关键信息分别输入到与多个关键信息一一对应的多个训练模型中进行单独预测，得到多个关键信息所对应的预测结果的步骤之前，如图2所示，还包括步骤S4-S5。

步骤S4：获取样本数据。

作为示例性的实施例，可以从样本集中获取大量的样本数据，根据样本数据进行模型的训练得到训练模型。

步骤S5：对样本数据进行标签标注，并对标注后的样本数据进行模型训练得到多个训练模型。

作为示例性的实施例，可以采用RNN(循环神经网络)来对语音文本或其他具有时间序列的特点的数据，进行端到端的标签预测。具体来说，根据房屋地产公司的业务，对样本数据标注标签，并送入神经网络。神经网络拥有强大的学习能力，通过标签，能学习出样本数据和标签之间潜在的联系，得到训练模型，之后就可以做预测了，根据预测结果，可以对用户进行隐私保护和构建画像。

通过样本数据确定每一个关键信息所对应的训练模型，提高训练模型的准确性。

作为示例性的实施例，步骤S1获取用户音频信息中的多个关键信息的步骤中，如图3所示，包括步骤S11-S13。

步骤S11：获取用户的音频信息。

作为示例性的实施例，音频信息可以是语音信息，具体地，上述语音信息可以是从数据仓库中读取的录音，也可以是获取的实时的语音信息；本实施例对此仅作示意性说明，不以此为限。

步骤S12：将音频信息转换成文本信息。

作为示例性的实施例，语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，可通过语音识别系统将语音信息转为文本信息，该文本信息具体可以是文字，仅以此为例，不以此为限。直接将语音转成文字避免了后续整理记录存入档案的过程，节省了大量的人力成本。另外，将客服与客户的语音对话转写成文字的形式，该过程节省了客服与客户通话时间，避免客服分心去手工记录通话内容，节省了大量的时间成本。

步骤S13：对文本信息进行关键词提取，得到多个关键信息。

作为示例性的实施例，可以采用NLP技术对由录音文件或者实时语音转写成文字，并对文字进行基于语义分析的关键字提取，关键词可以是手机号、户型等信息。在文本中蕴含了许多有价值的信息，如果能准确地提取并合适的利用，将产生可观的经济价值。例如，在房屋地产公司的业务中，需要知道用户对于房屋的要求，如户型，地理位置等，为信息的审核做准备。

具体地，关键词的提取方法可以是基于统计的算法如词袋模型和TF-IDF模型，但是这两种方法由于准确性和鲁棒性不够高，很难在实际生产中应用。关键词的提取方法还可以是基于机器学习或者深度学习的提取方法，本实施例对此仅作示意性说明，并不以此为限。

作为示例性的实施例，步骤S12将音频信息转换成文本信息的步骤之前，如图4所示，还包括步骤S14。

步骤S14：对音频信息进行预处理以消除音频信息中的干扰信息。

作为示例性的实施例，预处理的作用是消除音频信息中的干扰信息，获得有效信息，预处理具体可以是将首尾端的静音切除，降低对后续步骤造成的干扰，具体地，可以是将语音流中的无声段去除，只保留有声部分，这样可以减少后续计算量，同时还可以提高语音识别的正确率。

通过上述步骤，为了达到好的效果，对输入的语言信息进行预处理，消除干扰信息，故后续对语音信息的处理更加准确，处理效果更优。

作为示例性的实施例，步骤S3根据预测结果生成用于用户信息标签化的用户画像的步骤之后，如图5所示，还包括步骤S6。

步骤S6：根据用户画像确定用户标签，并对用户标签进行存储。

作为示例性的实施例，用户画像是由多个用户标签组合而成，根据用户画像得到用户标签，将用户标签存储起来，便于后面的算法读取。具体地，存储形式可以通过文本或者其它形式存储(如表格)，仅以此为例，不以此为限，在实际应用中，可根据需要合理设置用户标签的存储形式。

通过上述步骤，对用户标签进行存储，方便后续算法的读取和用户信息的展示；将语音转成文字保存下来，也便于对用户信息进行保管，方便后续其他人员调用，节省了大量的资金成本。

作为示例性的实施例，步骤S1获取用户音频信息中的多个关键信息的步骤之后，如图6所示，还包括步骤S7。

步骤S7：识别关键信息中用于表征用户个人信息的隐私信息。

具体地，隐私信息可以是手机号、用户名等信息，还可以是用户职业等。根据关键信息确定隐私信息，便于对涉及到用户隐私信息的敏感信息进行重点保护，保护用户隐私。

作为示例性的实施例，步骤S3根据预测结果生成用于用户信息标签化的用户画像的步骤之前，如图6所示，还包括步骤S8。

步骤S8：根据预测结果和隐私信息对用户进行隐私保护。

作为示例性的实施例，将隐私信息所对应的预测结果筛选出来，对其进行隐私保护，使得其它用户无法直接通过用户标签获得该用户的隐私信息。隐私保护可以是将隐私信息进行模糊化处理。如用户的手机号进行部分隐藏，具体地，可以将手机号中的某几位用*代替；还可以是用数字编码代表音频信息中是否包含手机号，并不显示手机号的任何具体数字，具体地，可以用数字1表示有手机号，用数字0表示没有手机号，这样设置也便于后续程序处理，减少存储空间和计算量。

以识别是否有手机号为例：

输入：[“private_video-20190902-Fg9Q9jDC3pgqdGNjP2BdTz5IUE-0.mp3”]

输出：{“filename”:“private_video-20190902-Fg9Q9jDC3pgqdGNjP2BdTz5IUE-0.mp3”,phone_num:“15645678654”,Have_phone:1}

输入：[“private_video-20190902-Fga26zbdOs23-b2Y3Ihpr_zT0bYf.mp3”]

输出：{“filename”:“private_video-20190902-Fg9Q9jDC3pgqdGNjP2BdTz5IUE-0.mp3”,phone_num:“”,Have_phone:0}

系统的输入为mp3文件，如果录音文件中有手机号，则Have_phone的值为1，否则为0，phone_num为对应的手机号，没有则为空。

下面以一个具体示例进行详细说明，如图7和8所示，该方法的具体步骤包括：1)语音数据进入，获取的语音数据具体可以是录音，也可以是实时语音；2)服务器分析处理，具体地，对语音数据进行预处理，去除语音数据中的噪声，之后，对预处理后的语音数据基于NLP技术进行语音转文本的处理；3)NLP文本逻辑判定，具体地，对语音转换成的文本信息采用提取算法进行关键信息(如关键词)的提取，并确定上述提取的关键信息中是否包含敏感信息；4)敏感信息提取，在上述关键信息中包含敏感信息时，对敏感信息进行提取，提取后对敏感信息进行隐私保护；5)数据库交互，显示和存储关键信息，具体地，将关键信息存储至数据库，该数据库可以与其它数据库进行数据交互，实现数据的读写。

在本实施例中还提供了一种基于语音转文本的文本信息提取系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种基于语音转文本的文本信息提取系统，如图9所示，包括：第一获取模块91、第一处理模块92和第二处理模块93。

第一获取模块91，用于获取用户音频信息中的多个关键信息；详细内容参考步骤S1所述。

第一处理模块92，用于将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；详细内容参考步骤S2所述。

第二处理模块93，用于根据所述预测结果生成用于用户信息标签化的用户画像；详细内容参考步骤S3所述。

作为示例性的实施例，上述基于语音转文本的文本信息提取系统还包括：第二获取模块，用于获取样本数据，详细内容参考步骤S4所述；第三处理模块，用于对所述样本数据进行标签标注，并对标注后的所述样本数据进行模型训练得到多个训练模型，详细内容参考步骤S5所述。

作为示例性的实施例，所述第一获取模块包括：第一获取单元，用于获取用户的音频信息，详细内容参考步骤S11所述；第一处理单元，用于将所述音频信息转换成文本信息，详细内容参考步骤S12所述；第二处理单元，用于对所述文本信息进行关键词提取，得到多个关键信息，详细内容参考步骤S13所述。

作为示例性的实施例，所述第一获取模块还包括：第三处理单元，用于对所述音频信息进行预处理以消除所述音频信息中的干扰信息，详细内容参考步骤S14所述。

作为示例性的实施例，上述基于语音转文本的文本信息提取系统还包括：第四处理模块，用于根据所述用户画像确定用户标签，并对所述用户标签进行存储，详细内容参考步骤S6所述。

作为示例性的实施例，上述基于语音转文本的文本信息提取系统还包括：第五处理模块，用于识别所述关键信息中用于表征用户个人信息的隐私信息，详细内容参考步骤S7所述。

作为示例性的实施例，上述基于语音转文本的文本信息提取系统还包括：第六处理模块，用于根据预测结果和所述隐私信息对用户进行隐私保护，详细内容参考步骤S8所述。

作为示例性的实施例，图10为本发明实施例的基于语音转文本的文本信息提取系统的一个具体示例的框图，如图10所示，该系统包括：1)语音数据进入模块，用于获取语音数据，语音数据具体可以是录音，也可以是实时语音；2)服务器分析处理模块，与语音数据进入模块连接，用于对语音数据进行预处理，去除语音数据中的噪声，并对预处理后的语音数据基于NLP技术进行语音转文本的处理；3)NLP文本逻辑判定模块，与服务器分析处理模块连接，用于对语音转换成的文本信息采用提取算法进行关键信息(如关键词)的提取，并确定上述提取的关键信息中是否包含敏感信息；4)敏感信息提取模块，与NLP文本逻辑判定模块连接，用于在上述关键信息中包含敏感信息时，对敏感信息进行提取，并提取后对敏感信息进行隐私保护；5)数据库交互模块，与敏感信息提取模块连接，用于显示和存储关键信息，具体地，将关键信息存储至数据库，该数据库可以与其它数据库进行数据交互，实现数据的读写，例如，数据库A和数据库B之间进行数据交互，仅以此为例，不以此为限。

本实施例中的基于语音转文本的文本信息提取系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供了一种电子设备，如图11所示，该电子设备包括一个或多个处理器111以及存储器112，图11中以一个处理器111为例。

该控制器还可以包括：输入装置113和输出装置114。

处理器111、存储器112、输入装置113和输出装置114可以通过总线或者其他方式连接，图11中以通过总线连接为例。

处理器111可以为中央处理器(Central Processing Unit，CPU)。处理器111还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器112作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本实施例中的基于语音转文本的文本信息提取方法对应的程序指令/模块。处理器111通过运行存储在存储器112中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于语音转文本的文本信息提取方法。

存储器112可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器112可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器112可选包括相对于处理器111远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置113可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置114可包括显示屏等显示设备。

一个或者多个模块存储在存储器112中，当被一个或者多个处理器111执行时，执行如图1-8所示的基于语音转文本的文本信息提取方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，被执行的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述基于语音转文本的文本信息提取方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于语音转文本的文本信息提取方法，其特征在于，包括：

获取用户音频信息中的多个关键信息；

将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；

根据所述预测结果生成用于用户信息标签化的用户画像。

2.如权利要求1所述的基于语音转文本的文本信息提取方法，其特征在于，将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果的步骤之前，还包括：

获取样本数据；

对所述样本数据进行标签标注，并对标注后的所述样本数据进行模型训练得到多个训练模型。

3.如权利要求1所述的基于语音转文本的文本信息提取方法，其特征在于，获取用户音频信息中的多个关键信息，包括：

获取用户的音频信息；

将所述音频信息转换成文本信息；

对所述文本信息进行关键词提取，得到多个关键信息。

4.如权利要求3所述的基于语音转文本的文本信息提取方法，其特征在于，将所述音频信息转换成文本信息的步骤之前，还包括：

对所述音频信息进行预处理以消除所述音频信息中的干扰信息。

5.如权利要求1所述的基于语音转文本的文本信息提取方法，其特征在于，根据所述预测结果生成用于用户信息标签化的用户画像的步骤之后，还包括：

根据所述用户画像确定用户标签，并对所述用户标签进行存储。

6.如权利要求1-5中任一所述的基于语音转文本的文本信息提取方法，其特征在于，获取用户音频信息中的多个关键信息的步骤之后，还包括：

识别所述关键信息中用于表征用户个人信息的隐私信息。

7.如权利要求6所述的基于语音转文本的文本信息提取方法，其特征在于，根据所述预测结果生成用于用户信息标签化的用户画像的步骤之前，还包括：

根据预测结果和所述隐私信息对用户进行隐私保护。

8.一种基于语音转文本的文本信息提取系统，其特征在于，包括：

第一获取模块，用于获取用户音频信息中的多个关键信息；

第一处理模块，用于将多个所述关键信息分别输入到与多个所述关键信息一一对应的多个训练模型中进行单独预测，得到多个所述关键信息所对应的预测结果；

第二处理模块，用于根据所述预测结果生成用于用户信息标签化的用户画像。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任意一项所述的基于语音转文本的文本信息提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于语音转文本的文本信息提取方法。