CN113257253B

CN113257253B - 一种文本提取方法、系统、设备及介质

Info

Publication number: CN113257253B
Application number: CN202110723349.8A
Authority: CN
Inventors: 姚娟娟; 钟南山; 樊代明
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-11-19
Anticipated expiration: 2041-06-29
Also published as: CN113257253A

Abstract

本发明提供一种文本提取方法、系统、设备及介质，通过采集录制的音频数据，然后对所录制的音频数据进行声纹识别，获取对应的声纹信息；再然后将所获取的声纹信息与标准声纹信息同时输入至神经网络中进行声纹比对识别，确定所录制的音频数据中是否存在目标对象的声纹信息，如果存在，则从所录制的音频数据中截取出目标对象的音频数据，然后对目标对象的音频数据进行语音识别，得到对应的语音识别文本；再获取预先确定的关键词，然后从语音识别文本中提取出与这些关键词相关联的文本，从而得到目标对象在会议中所陈述的文本内容。本发明可以直接提取目标对象的发言内容，极大地提高了工作人员对录制音频数据的整理速度和整理效率。

Description

一种文本提取方法、系统、设备及介质

技术领域

本发明涉及数据识别技术领域，特别是涉及一种文本提取方法、系统、设备及介质。

背景技术

目前，传统会议一般是由会议组织方将多个与会人员聚集在某个会议室中，然后由主讲人员在会议室内讲解会议内容，并在会议室内的显示设备上实时播放其所讲解的会议内容，从而方便与会人员对会议内容进行沟通和讨论。而工作人员为了方便记录会议内容，一般是预先采用录音设备对与会人员的沟通和讨论结果进行录制，然后再根据所录制的音频来整理会议内容，形成对应的文字记载。但是，在同一会议中存在多个会议主题时，与会人员可能会在同一时间对多个会议主题进行发言，导致工作人员在整理不同的会议主题内容时，会重复听取音频，然后再从音频中选取与不同会议主题内容关联的发言内容。而这种整理方式不仅会使工作人员耗费大量的时间来听取一些非关键性的会议内容，同时还降低了工作人员的整理速度和整理效率。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种文本提取方法、系统、设备及介质，用于解决现有技术中根据录制音频整理会议内容时速度慢和效率低的问题。

为实现上述目的及其他相关目的，本发明提供一种文本提取方法，包括以下步骤：

获取在目标区域形成的第一音频数据；

对所述第一音频数据进行声纹识别，获取对应的目标声纹信息；

将所述目标声纹信息与标准声纹信息进行比对识别，判断所述目标声纹信息中是否存在目标对象的声纹信息；其中，所述标准声纹信息仅包含所述目标对象的声纹信息；

若所述目标声纹信息中存在所述目标对象的声纹信息，则从所述第一音频数据中截取出包括有所述目标对象的第二音频数据，并对所述第二音频数据进行语音识别，获取第二语音识别文本；

获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

可选地，若所述目标声纹信息中不存在所述目标对象的声纹信息，则还包括：

判断所述第一音频数据中是否存在不同的音频特征；所述音频特征包括：音调、响度和音色；

若不存在不同的音频特征，则对所述第一音频数据进行语音识别，获取第一语音识别文本，以及按照预先确定的关键词从所述第一语音识别文本中提取出与所述关键词关联的文本，作为目标文本；

若存在不同的音频特征，则按照存在的音频特征的数量将所述第一音频数据分割为多个第三音频数据，并对多个所述第三音频数据进行语音识别，获取对应的多个第三语音识别文本，以及按照预先确定的关键词从多个所述第三语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

可选地，在对所述第一音频数据进行声纹识别前，还包括：

确定出所述第一音频数据中仅包含有人声的音频片段和不包含人声的音频片段；

计算每个仅包含人声的音频片段的音频能量值，并对所有的音频能量值进行求和，得到第一音频能量值；

计算每个不包含人声的音频片段的音频能量值，并对所有的音频能量值进行求和，得到第二音频能量值；

根据所述第一音频能量值和所述第二音频能量值计算所述第一音频数据的信噪比，并判断所述信噪比是否大于预设阈值；

若所述信噪比大于所述预设阈值，则从所述第一音频数据中分别截取出所有仅包含有人声的音频片段和所有不包含人声的音频片段，并对所有仅包含有人声的音频片段进行降噪处理，以及对所有不包含人声的音频片段进行噪声抑制处理；

若所述信噪比小于等于预设阈值，则直接对所述第一音频数据进行降噪处理。

可选地，对仅包含有人声的音频片段进行降噪处理的过程包括：

对仅包含有人声的音频片段进行分帧、加窗和傅里叶变换，获取对应的频谱；

获取所述频谱的幅度特征序列和相位特征序列，并将所述幅度特征序列和相位特征序列输入至循环网络中，获取对应的幅度循环特征序列和相位循环特征序列；

分别将所述幅度循环特征序列和相位循环特征序列输入至池化网络中，获取对应的池化幅度特征向量序列和池化相位特征向量序列；

将所述池化幅度特征向量序列和所述池化相位特征向量序列进行融合，生成融合池化频谱特征向量序列；所述融合包括：相加、相减和/或拼接；

将所述融合池化频谱特征向量序列输入至全连接网络中，并对所述全连接网络的输出进行傅里叶逆变换，获取降噪后的仅包含人声的音频片段。

可选地，对所有不包含人声的音频片段进行噪声抑制处理的过程包括：

将所有不包含人声的音频片段输入至预设的神经网络模型中进行分类，获取每个不包含人声的音频片段的置信度；

判断每个不包含人声的音频片段的置信度是否大于或等于目标音频类型的预设置信度阈值，并根据判断结果确定每个不包含人声的音频片段的音频类型；

获取与所述音频类型对应的噪声跟踪方法，并根据所述噪声跟踪方法对所述不包含人声的音频片段进行噪声跟踪，获取每个不包含人声的音频片段的噪声能量；

获取每个不包含人声的音频片段的音频能量值，并利用所述音频能量值减去所述噪声能量，完成对所述不包含人声的音频片段的噪声抑制处理。

可选地，还包括：获取所述目标文本；

按照目标字典对所述目标文本进行分词处理，获取多个文本字段；

核对当前文本字段与上一文本字段、下一文本字段之间的关联度，并根据核对结果合并或拆分当前文本字段；

对合并或拆分后的所有文本字段添加标点符号。

本发明还提供一种文本提取系统，包括有：

采集模块，用于获取在目标区域形成的第一音频数据；

声纹识别模块，用于对所述第一音频数据进行声纹识别，获取对应的目标声纹信息；

声纹比对模块，用于将所述目标声纹信息与标准声纹信息进行比对识别，判断所述目标声纹信息中是否存在目标对象的声纹信息；其中，所述标准声纹信息仅包含所述目标对象的声纹信息；

音频截取模块，用于在所述目标声纹信息中存在所述目标对象的声纹信息时，从所述第一音频数据中截取出包括有所述目标对象的第二音频数据；

音频识别模块，用于对所述第二音频数据进行语音识别，获取第二语音识别文本；

文本提取模块，用于获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

本发明还提供一种文本提取设备，包括：

处理器；和

存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如上述中任意一项所述的方法。

本发明还提供一种计算机可读介质，其上存储有指令，所述指令由处理器加载并执行如上述中任意一项所述的方法。

如上所述，本发明提供一种文本提取方法、系统、设备及介质，具有以下有益效果：工作人员根据录制的音频数据整理某些目标对象的发言内容时，可以先对所录制的音频数据进行声纹识别，获取对应的声纹信息；然后再将所获取的声纹信息与标准声纹信息同时输入至神经网络中进行声纹比对识别，确定所录制的音频数据中是否存在这些目标对象的声纹信息，如果存在，则从所录制的音频数据中截取出这些目标对象的音频数据，然后对这些目标对象的音频数据进行语音识别，得到对应的语音识别文本；再获取预先确定的关键词，然后从语音识别文本中提取出与这些关键词相关联的文本，从而得到这些目标对象在会议中所陈述的文本内容。与现有技术相比，本发明在采集多个目标对象对多个会议主题的发言内容时，不需要工作人员重复听取录制的音频数据来整理每个目标对象的发言内容，也不需要工作人员耗费大量时间来听取一些非关键性的音频数据，而是可以直接提取到多个目标对象的发言内容，使得本发明极大地提高了工作人员对录制音频数据的整理速度和整理效率，解决了现有技术中工作人员在整理录制音频时效率低和速度慢的问题。

附图说明

图1为一实施例提供的文本提取方法的流程示意图。

图2为另一实施例提供的文本提取方法的流程示意图。

图3为一实施例提供的文本提取系统的硬件结构示意图。

图4为一实施例提供的文本提取设备的硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种文本提取方法，包括以下步骤：

S10，获取在目标区域形成的第一音频数据；

S20，对所述第一音频数据进行声纹识别，获取对应的目标声纹信息；

S30，将所述目标声纹信息与标准声纹信息进行比对识别，判断所述目标声纹信息中是否存在目标对象的声纹信息；其中，所述标准声纹信息仅包含所述目标对象的声纹信息；

S40，若所述目标声纹信息中存在所述目标对象的声纹信息，则从所述第一音频数据中截取出包括有所述目标对象的第二音频数据，并对所述第二音频数据进行语音识别，获取第二语音识别文本；

S50，获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

本实施例中的目标区域是会议室，第一音频数据是在通过录音设备在会议室录取的原始音频数据；本实施例中的关键词可以根据工作人员整理的录音内容进行确定，例如工作人员在整理关于处方药品采购数量的会议内容时，可以将数量单位作为关键词；再例如工作人员在整理关于医疗设备采购数量的会议内容时，可以将对应的医疗设备名称作为关键词。

作为一示例，如果某会议是由医疗机构中的负责人A、主任B和药品供货商C组成的采购治疗流行疾病的药品采购会议，工作人员需要整理出负责人A和主任B同意采购的药品；则可以先获取录音设备录制的当前会议的原始音频数据，记为第一音频数据；然后对第一音频数据进行声纹识别，获取第一音频数据所对应的声纹信息；再将第一音频数据所对应的声纹信息与仅包含负责人A的声纹信息进行比对识别，判断第一音频数据所对应的声纹信息是否存在负责人A的声纹信息，以及将第一音频数据所对应的声纹信息与仅包含主任B的声纹信息进行比对识别，判断第一音频数据所对应的声纹信息是否存在主任B的声纹信息；若存在第一音频数据的声纹信息中存在负责人A和/或主任B的声纹信息，则分别从第一音频数据中截取出包含有负责人A和/或主任B的音频数据，记为第二音频数据；并对第二音频数据进行语音识别，得到对应的第二语音识别文本；将“盒”、“瓶”、“箱”、“剂量”、“毫升”、“升”和“粒”等数量单位作为关键词，并根据确定出的关键词从第二语音识别文本中提取出与这些关键词关联的文本，作为目标文本。同时，在得到目标文本后，工作人员还可以根据目标文本的内容，选择性地听取部分片段的原始音频数据，从而不需要听取整个原始音频数据，所以，与现有技术相比，工作人员在根据原始音频数据整理当前医疗机构所要采购的药品时，通过找出并整理负责人A和主任B同意采购的药品，能够极大地提高录音整理效率和整理速度。

作为一示例，如果某会议是由医疗机构中的耳鼻喉医生D、眼科医生E、化验科医生F和医疗设备供货商G组成的采购治疗流行疾病的药品采购会议，工作人员需要整理出耳鼻喉医生D和化验科医生F同意采购的医疗设备；则可以先获取录音设备录制的当前会议的原始音频数据，记为第一音频数据；然后对第一音频数据进行声纹识别，获取第一音频数据所对应的声纹信息；再将第一音频数据所对应的声纹信息与仅包含耳鼻喉医生D的声纹信息进行比对识别，判断第一音频数据所对应的声纹信息是否存在耳鼻喉医生D的声纹信息，以及将第一音频数据所对应的声纹信息与仅包含化验科医生F的声纹信息进行比对识别，判断第一音频数据所对应的声纹信息是否存在化验科医生F的声纹信息；若存在第一音频数据的声纹信息中存在耳鼻喉医生D和/或化验科医生F的声纹信息，则分别从第一音频数据中截取出包含有耳鼻喉医生D和/或化验科医生F的音频数据，记为第二音频数据；并对第二音频数据进行语音识别，得到对应的第二语音识别文本；将“台”、“个”、“助听器”、“离心机”和“振荡器”等数量单位和医疗设备名称作为关键词，并根据确定出的关键词从第二语音识别文本中提取出与这些关键词关联的文本，作为目标文本。同时，在得到目标文本后，工作人员还可以根据目标文本的内容，选择性地听取部分片段的原始音频数据，从而不需要听取整个原始音频数据，所以，与现有技术相比，工作人员在根据原始音频数据整理当前医疗机构所要采购的医疗设备时，通过找出并整理耳鼻喉医生D和化验科医生F同意采购的医疗设备，能够极大地提高录音整理效率和整理速度。

在一示例性实施例中，若所述目标声纹信息中不存在所述目标对象的声纹信息，则还包括：

S400，判断所述第一音频数据中是否存在不同的音频特征；所述音频特征包括：音调、响度和音色；

S400-1，若不存在不同的音频特征，则对所述第一音频数据进行语音识别，获取第一语音识别文本，以及按照预先确定的关键词从所述第一语音识别文本中提取出与所述关键词关联的文本，作为目标文本；

S400-2，若存在不同的音频特征，则按照存在的音频特征的数量将所述第一音频数据分割为多个第三音频数据，并对多个所述第三音频数据进行语音识别，获取对应的多个第三语音识别文本，以及按照预先确定的关键词从多个所述第三语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

在本实施例中，若原始音频数据所对应的声纹信息中不存在目标对象的声纹信息，则可能存在对目标对象的声纹信息识别失败，或者原始音频数据中不存在目标对象的声纹信息。对于识别失败的情形，本实施例可以通过判断原始音频数据中是否存在不同的音频特征，如果存在，则按照音频特征的数量将原始音频数据分割为多个音频数据，记为第三音频数据；然后对第三音频数据进行语音识别，获取对应的第三语音识别文本。同时，从第三语音识别文本中提取出与预先确定的关键词相关联的文本，并作为目标文本。由于不同的人在说话时的音频特征不同，所以本实施例在对原始音频数据进行声纹信息识别后，可以按照音频特征来对原始音频数据进行分割和语音识别，然后从对应的语音识别文本中提取出与预先确定的关键词相关联的文本，并作为目标文本。相当于在对目标对象的声纹信息识别失败后，本申请可以按照人的音频特征来对原始音频数据进行分割，保证分割后的每个第三音频数据都属于同一个人，从而既可以确定原始音频数据是否存在目标对象，也可以根据分割后的第三语音识别文本来确定目标文本，从而提高了工作人员整理录音音频时的效率和速度。同时，若第一音频数据中不存在不同的音频特征，则说明第一音频数据中仅是一个人的录音数据，则只需要提取当前这个人的录音识别文本中与关键词相关联的文本来作为目标文本即可。

根据上述记载，在一示例性实施例中，在对所述第一音频数据进行声纹识别前，还包括：

计算每个仅包含人声的音频片段的音频能量值E1，并对所有的仅包含人声的音频片段的音频能量值E1进行求和，得到第一音频能量值E1n；

计算每个不包含人声的音频片段的音频能量值E2，并对所有的不包含人声的音频片段的音频能量值E2进行求和，得到第二音频能量值E2n；

根据所述第一音频能量值E1n和所述第二音频能量值E2n计算所述第一音频数据的信噪比，并判断所述信噪比是否大于预设阈值；

作为示例，本实施例中第一音频数据的信噪比SNR=10log（E1n/E2n），预设的信噪比阈值可以为70dB。若第一音频数据的信噪比大于等于70dB，则说明第一音频中的噪声较小，声音回放的音质高；若第一音频数据的信噪比小于70dB，则说明第一音频中的噪声较大，声音回放的音质低。

根据上述记载，在一示例性实施例中，对仅包含有人声的音频片段进行降噪处理的过程包括：

作为示例，本实施例中的池化幅度特征向量序列可以是：{ [0.5，0，0，0，0]，[0，0.5，0，0，0] }，池化相位特征向量序列可以是：{ [1，0，0，0，0]，[0，1，0，0，0] }；则得到的融合池化频谱特征向量序列可以是：{ [0.5，0，0，0，0，1，0，0，0，0]，[0，0.5，0，0，0，0，1，0，0，0] }；其中，本实施例中的融合为拼接。同理，对第一音频数据进行降噪的过程同上所述，此处不再进行赘述。

根据上述记载，在一示例性实施例中，对所有不包含人声的音频片段进行噪声抑制处理的过程包括：

在本实施例中，预设的目标音频类型包括：喷麦、碰麦、啸叫和小杂音等，其对应的置信度为：喷麦为0.3，碰麦为0.2，啸叫为0.1，小杂音为0.4。如果某个不包含人声的音频片段的置信度为0.34，则认定该噪声是由喷麦产生的；如果某个不包含人声的音频片段的置信度为0.28，则认为该噪声是由碰麦产生的。本实施例在确定完噪声的音频类型后，再根据对应的噪声跟踪方法来对不包干人声的音频片段进行噪声跟踪，以及获取对应的噪声能量，然后利用当前不包含人声的音频片段的音频能量值E2来减去对应的噪声能量，从而完成对当前不包含人声的音频片段的噪声抑制处理

在一示例性实施例中，还包括：获取所述目标文本；按照目标字典对所述目标文本进行分词处理，获取多个文本字段；核对当前文本字段与上一文本字段、下一文本字段之间的关联度，并根据核对结果合并或拆分当前文本字段；对合并或拆分后的所有文本字段添加标点符号。其中，本实施例中的目标字典是根据现有的字词进行拆分和组合形成的。本实施例通过对目标文本进行分词处理，得到初始的文本字段；然后再核对分词后每个文本字段与上一个文本字段和下一个文本字段之间的关联度，并根据核对结果来对初始的文本字段进行合并或拆分，形成最终的与说话人对应的文本字段，然后再对最终的文本字段添加标点符号，从而可以辅助工作人员提高会议文本稿的整理效率和整理速度。

综上所述，本发明提供一种文本提取方法，通过采集录制的音频数据，然后对所录制的音频数据进行声纹识别，获取对应的声纹信息；再然后将所获取的声纹信息与标准声纹信息同时输入至神经网络中进行声纹比对识别，确定所录制的音频数据中是否存在这些目标对象的声纹信息，如果存在，则从所录制的音频数据中截取出这些目标对象的音频数据，然后对这些目标对象的音频数据进行语音识别，得到对应的语音识别文本；再获取预先确定的关键词，然后从语音识别文本中提取出与这些关键词相关联的文本，从而得到这些目标对象在会议中所陈述的文本内容。与现有技术相比，本发明在采集多个目标对象对多个会议主题的发言内容时，不需要工作人员重复听取录制的音频数据来整理每个目标对象的发言内容，也不需要工作人员耗费大量时间来听取一些非关键性的音频数据，而是可以直接提取到多个目标对象的发言内容，使得本发明极大地提高了工作人员对录制音频数据的整理速度和整理效率，解决了现有技术中工作人员在整理录制音频时效率低和速度慢的问题。

如图3所示，本发明还提供一种文本提取系统，包括有：

采集模块M10，用于获取在目标区域形成的第一音频数据；

声纹识别模块M20，用于对所述第一音频数据进行声纹识别，获取对应的目标声纹信息；

声纹比对模块M30，用于将所述目标声纹信息与标准声纹信息进行比对识别，判断所述目标声纹信息中是否存在目标对象的声纹信息；其中，所述标准声纹信息仅包含所述目标对象的声纹信息；

音频截取模块M40，用于在所述目标声纹信息中存在所述目标对象的声纹信息时，从所述第一音频数据中截取出包括有所述目标对象的第二音频数据；

音频识别模块M50，用于对所述第二音频数据进行语音识别，获取第二语音识别文本；

文本提取模块M60，用于获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本。

综上所述，本发明提供一种文本提取系统，通过采集录制的音频数据，然后对所录制的音频数据进行声纹识别，获取对应的声纹信息；再然后将所获取的声纹信息与标准声纹信息同时输入至神经网络中进行声纹比对识别，确定所录制的音频数据中是否存在这些目标对象的声纹信息，如果存在，则从所录制的音频数据中截取出这些目标对象的音频数据，然后对这些目标对象的音频数据进行语音识别，得到对应的语音识别文本；再获取预先确定的关键词，然后从语音识别文本中提取出与这些关键词相关联的文本，从而得到这些目标对象在会议中所陈述的文本内容。与现有技术相比，本发明在采集多个目标对象对多个会议主题的发言内容时，不需要工作人员重复听取录制的音频数据来整理每个目标对象的发言内容，也不需要工作人员耗费大量时间来听取一些非关键性的音频数据，而是可以直接提取到多个目标对象的发言内容，使得本发明极大地提高了工作人员对录制音频数据的整理速度和整理效率，解决了现有技术中工作人员在整理录制音频时效率低和速度慢的问题。

本申请实施例还提供了一种文本提取设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。图4示出了一种文本提取设备1000的结构示意图。参阅图4所示，电子设备1000包括：处理器1010、存储器1020、电源1030、显示单元1040、输入单元1060。

处理器1010是电子设备1000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器1020内的软件程序和/或数据，执行电子设备1000的各种功能，从而对电子设备1000进行整体监控。本申请实施例中，处理器1010调用存储器1020中存储的计算机程序时执行如图1所述的方法。可选的，处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据电子设备1000的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

电子设备1000还包括给各个部件供电的电源1030（比如电池），电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及电子设备1000的各种菜单等，本发明实施例中主要用于显示电子设备1000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元1040可以包括显示面板1050。显示面板1050可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置。

输入单元1060可用于接收用户输入的数字或字符等信息。输入单元1060可包括触控面板1070以及其他输入设备1080。其中，触控面板1070，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板1070上或在触控面板1070附近的操作）。

具体的，触控面板1070可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器1010，并接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1070。其他输入设备1080可以包括但不限于物理键盘、功能键（比如音量控制按键、开关机按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板1070可覆盖显示面板1050，当触控面板1070检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板1050上提供相应的视觉输出。虽然在图4中，触控面板1070与显示面板1050是作为两个独立的部件来实现电子设备1000的输入和输出功能，但是在某些实施例中，可以将触控面板1070与显示面板1050集成而实现电子设备1000的输入和输出功能。

电子设备1000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备1000还可以包括摄像头等其它部件。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有指令，当一个或多个处理器执行所述指令时，使得上述设备能够执行本申请中如图1所述的方法。

本领域技术人员可以理解的是，图4仅仅是文本提取设备的举例，并不构成对该设备的限定，该设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时，可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。本领域内的技术人员应明白，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的，应理解为可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。这些计算机程序指令可应用至通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器中以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种文本提取方法，其特征在于，包括以下步骤：

获取在目标区域形成的第一音频数据；

获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本；

若所述目标声纹信息中不存在所述目标对象的声纹信息，则还包括：

2.根据权利要求1所述的文本提取方法，其特征在于，在对所述第一音频数据进行声纹识别前，还包括：

3.根据权利要求2所述的文本提取方法，其特征在于，对仅包含有人声的音频片段进行降噪处理的过程包括：

4.根据权利要求2所述的文本提取方法，其特征在于，对所有不包含人声的音频片段进行噪声抑制处理的过程包括：

5.根据权利要求1所述的文本提取方法，其特征在于，还包括：

获取所述目标文本；

对合并或拆分后的所有文本字段添加标点符号。

6.一种文本提取系统，其特征在于，包括有：

采集模块，用于获取在目标区域形成的第一音频数据；

文本提取模块，用于获取预先确定的关键词，并从所述第二语音识别文本中提取出与所述关键词关联的文本，作为目标文本；

7.一种文本提取设备，其特征在于，包括：

处理器；和

存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如权利要求1至5中任意一项所述的方法。

8.一种计算机可读介质，其特征在于，其上存储有指令，所述指令由处理器加载并执行如权利要求1至5中任意一项所述的方法。