CN108885614A

CN108885614A - 一种文本和语音信息的处理方法以及终端

Info

Publication number: CN108885614A
Application number: CN201780005101.XA
Authority: CN
Inventors: 李小娟; 郜文美
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-02-06
Filing date: 2017-05-23
Publication date: 2018-11-23
Anticipated expiration: 2037-05-23
Also published as: US11308952B2; WO2018141144A1; CN108885614B; US20200027454A1

Abstract

一种文本和语音信息的处理方法，用于改善现有技术中存在的文本内容与语音内容不同步的情况，包括：识别目标图片中的文本信息；提取所述文本信息的第一关键信息，所述第一关键信息包括文本关键词集合和各文本关键词对应的词频；获取所述文本信息对应的语音文件；若所述文本关键词对应的词频大于阈值，则将所述语音文件映射至所述目标图片中的第一预设坐标位置处。本方法改善现有技术中存在的文本内容与语音内容不同步的情况。

Description

一种文本和语音信息的处理方法以及终端

本申请要求于2017年2月06日提交中国专利局、申请号为201710067355.6、发明名称为“一种文字和语音信息的处理方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，尤其涉及一种文本和语音信息的处理方法以及终端。

背景技术

目前，在参加会议的很多场合，与会人员为了更好的记录会议内容，通常需要对进行演讲的演示文档(power point，PPT)进行拍摄，同时，为了更加完整的记录会议信息，还会对演讲者针对PPT内容的演讲进行录音。

现有技术中，采用拍摄有声照片的方式记录会场内容，即对PPT进行拍照，并录制当前的环境音或者给拍照生成的照片添加语音标注。

然而，现有技术中，需要对文档拍照完成后才开始录制指定时长的音频，可能会导致错失有用的会议信息，不能做到文档和音频的同步。

发明内容

本申请实施例提供了一种文本和语音信息的处理方法以及终端，用于改善现有技术中存在的文本内容与语音内容不同步的情况。

本申请实施例的第一方面提供一种文本和语音信息的处理方法，包括：识别获得的目标图片中的文本信息，其中获得所述目标图片的方式可以为对文档进行拍照以生成目标图片，或者接收其他终端发送的所述目标图片；识别到文本信息后，提取所述文本信息的第一关键信息，所述第一关键信息包括文本关键词集合和各文本关键词对应的词频，且所述文本关键词为所述文本信息中按照预置规则提取得到的关键词，例如提取名词等；并获取得到与所述文本信息对应的语音文件，其中获得所述语音文件的方式也有多种，可以为进行录音操作以得到所述语音文件，或者接受其他终端发送的所述语音文件；若所述文本关键词对应的词频大于阈值，且所述阈值为预设的数值，则将所述语音文件映射至第一预设坐标位置处，所述第一预设坐标位置包含于所述目标图片中。本申请实施例中，识别目标图片中的文本信息并获取与所述文本信息对应的语音文件，且将语音文件映射到至第一预设坐标位置处，改善了现有技术中存在的文本内容与语音内容不同步的情况。

在一种可能的设计中，在本申请实施例第一方面的第一种实现方式中，若所述文本关键词对应的词频不大于所述阈值，则对所述语音文件中的第二关键信息进行提取，该第二关键信息包括语音关键词集合和各语音关键词对应的语音片段，并将提取到的该第二关键信息进行保存；若所述语音关键词集合中存在与所述文本关键词匹配的第一语音关键词，则将所述第一语音关键词对应的第一语音片段映射至所述文本关键词在所述目标图片中的坐标位置处。本申请实施例增加了文本关键词对应的词频不大于所述阈值时的处理方法，增加了本申请实施例的实现方式。

在一种可能的设计中，在本申请实施例第一方面的第二种实现方式中，所述提取并保存所述语音文件中的第二关键信息后，所述方法还包括：若在所述文本关键词集合中不存在与第二语音关键词匹配的关键词，则将所述第二语音关键词对应的第二语音片段映射至所述目标图片中的第二预设坐标位置处，其中，所述第二语音关键词为所述语音关键词集合中的关键词。本申请实施例增加了文本关键词集合中不存在匹配关键词的情况，增加了本申请实施例的实现方式。

在一种可能的设计中，在本申请实施例第一方面的第三种实现方式中，所述识别目标图片得到文档中的文本信息包括：校正所述目标图片；并对所述校正后的目标图片进行识别，从而获得所述文档中的文本信息。本申请实施例对提取第一关键信息的过程进行了细化，增加了本申请实施例的可实现性和可操作性。

在一种可能的设计中，在本申请实施例第一方面的第四种实现方式中，所述将所述语音文件映射至所述目标图片中的第一预设坐标位置处后，所述方法还包括：生成所述目标图片并进行保存，其中所述目标图片显示有播放按钮，所述播放按钮用于播放所述语音文件。本申请实施例增加了保存文档校正图片的步骤，使本申请实施例在步骤上更完善。

在一种可能的设计中，在本申请实施例第一方面的第五种实现方式中，所述生成并保存所述目标图片后，所述方法还包括：接收针对所述播放按钮的点击操作，响应于所述点击操作，播放所述语音文件。本申请实施例增加了接收用户的点击操作并播放语音文件的过程，使本申请实施例在步骤上更完善。

在一种可能的设计中，在本申请实施例第一方面的第六种实现方式中，所述将所述语音文件映射至所述目标图片中的第一预设坐标位置处之前，所述识别目标图片得到文本信息之后，所述方法还包括：获取在所述目标图片中，所述文本关键词的坐标位置。本申请实施例提供了提供了获取文本关键词在目标图片中的坐标位置的步骤，使本申请实施例更加具有逻辑性。

在一种可能的设计中，在本申请实施例第一方面的第七种实现方式中，所述文本关键词集合包括一个或者多个所述文本关键词。本申请实施例对文本关键词集合进行了限定，是本申请实施例在步骤上更完善。

本申请实施例的第二方面提供一种终端，包括：识别单元，用于识别目标图片中的文本信息；第一提取单元，用于提取所述文本信息的第一关键信息，所述第一关键信息包括文本关键词集合和各文本关键词对应的词频；第一获取单元，用于获取所述文本信息对应的语音文件；第一映射单元，若所述文本关键词对应的词频大于所述阈值，则用于将所述语音文件映射至所述目标图片中的第一预设坐标位置处。本申请实施例中，识别目标图片中的文本信息并获取与所述文本信息对应的语音文件，且将语音文件映射到至第一预设坐标位置处，改善了现有技术中存在的文档内容与语音内容不同步的情况。

在一种可能的设计中，在本申请实施例第二方面的第一种实现方式中，所述终端还包括：第二提取单元，若所述文本关键词对应的词频不大于所述阈值，则用于提取并保存所述语音文件中的第二关键信息，所述第二关键信息包括语音关键词集合和各语音关键词对应的语音片段；第二映射单元，若所述语音关键词集合中存在与所述文本关键词匹配的第一语音关键词，则用于将所述第一语音关键词对应的第一语音片段映射至所述文本关键词在所述目标图片中的坐标位置处。本申请实施例增加了文本关键词对应的词频不大于所述阈值时的处理方法，增加了本申请实施例的实现方式。

在一种可能的设计中，在本申请实施例第二方面的第二种实现方式中，所述终端还包括：第三映射单元，若在所述文本关键词集合中不存在与第二语音关键词匹配的关键词，则用于将所述第二语音关键词对应的第二语音片段映射至所述目标图片中的第二预设坐标位置处，所述第二语音关键词包含于所述语音关键词集合。本申请实施例增加了文本关键词集合中不存在匹配关键词的情况，增加了本申请实施例的实现方式。

在一种可能的设计中，在本申请实施例第二方面的第三种实现方式中，所述识别单元包括：校正模块，用于校正所述目标图片；识别模块，用于识别所述目标图片以获得所述文本信息。本申请实施例对提取第一关键信息的过程进行了细化，增加了本申请实施例的可实现性和可操作性。

在一种可能的设计中，在本申请实施例第二方面的第四种实现方式中，所述终端还包括：生成单元，用于生成并保存所述目标图片，所述目标图片显示有播放按钮，所述播放按钮用于播放所述语音文件。本申请实施例增加了保存文档校正图片的步骤，使本申请实施例在步骤上更完善。

在一种可能的设计中，在本申请实施例第二方面的第五种实现方式中，所述终端还包括：接收单元，用于接收针对所述播放按钮的点击操作，并播放所述语音文件。本申请实施例增加了接收用户的点击操作并播放语音文件的过程，使本申请实施例在步骤上更完善。

在一种可能的设计中，在本申请实施例第二方面的第六种实现方式中，所述终端还包括：第二获取单元，用于获取所述文本关键词在所述目标图片中的坐标位置。本申请实施例提供了提供了获取文本关键词在文档中的坐标位置的步骤，使本申请实施例更加具有逻辑性。

在一种可能的设计中，在本申请实施例第二方面的第七种实现方式中，所述文本关键词集合包括至少一个所述文本关键词。本申请实施例对文本关键词集合进行了限定，是本申请实施例在步骤上更完善。

本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请实施例的第四方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

附图说明

图1为本申请实施例提供的一种可能的文本和语音信息的处理方法一个实施例示意图；

图2为本申请实施例提供的一种可能的文本和语音信息的处理方法的对比示意图；

图3为本申请实施例提供的一种可能的文本和语音信息的处理方法的显示界面图；

图4为本申请实施例提供的一种终端的实施例示意图；

图5为本申请实施例提供的另一种终端的实施例示意图；

图6为本申请实施例提供的另一种终端的实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，提供了一种文本和语音信息的处理方法以改善现有技术中存在的文本内容与语音内容不同步的情况，请参阅图1，介绍本申请实施例文本和语音信息的处理方法的实施例。

101、获取目标图片。

在一些特定的场合，例如某些会议中，用户为了更好的记录会议的内容，通常会通过终端对文档进行拍照，进而获取到目标图片。需要说明的是，实际应用中，用户通过终端所拍摄的文档可以为PPT、word或者会议资料书等，其中，终端获取到目标图片的方式有多种，除了终端对文档进行拍照以得到目标图片，还可以为终端接收其他终端发送的目标图片等，故终端获取目标图片的方式具体此处不做限定。

另外，本申请实施例中的终端可以是通信终端、上网终端，例如可以是PDA、移动互联网设备(mobile internet device，MID)、平板电脑或移动电话等，具体此处不做限定。

102、校正目标图片。

由于实际情况中，用户可能通过终端从不同角度对文档进行拍照，因此拍照得到的目标图片所显示的文档的图像可能会产生角度变形的情况，影响到文档中文本信息的识别率，故终端在获取到目标图片后，对目标图片进行校正处理，以将拍摄角度不佳时得到的角度变形的文档图像进行校正，以提高文档中文字识别的精度，其中该文档图像包含于目标图片。例如，如图2所示，为图片在校正前和校正后的对比图，在校正前图片显示的文档存在扭曲变形的情况，进行校正处理后，去除了除文档以外的其他部分，且将图片显示的文档校正为矩形，更有利于终端对文本信息的识别以及用户查看文档。

其中，校正目标图片的过程可以分为三个阶段，包括：(1)预处理；(2)倾斜角检测；(3)文档校正。预处理的目的是为了得到图像上内容的大致编排形式；倾斜角检测的目的是得到文档倾斜的角度；文档校正阶段，即利用检测得到的倾斜角度，将图像沿着旋转校正，经过校正后的图像，水平文字行与水平线一致。由于校正图片为已存在的现有技术，具体此处不再赘述。

需要说明的是，校正目标图片时，可以由终端自动检测文本信息以进行校正，也可以接收用户发送的选择指令，该选择指令用于向终端指示用户在目标图片中自定义需要校正的范围，终端再对该范围进行校正，故具体此处不做限定。

103、识别目标图片以获得文本信息。

终端对目标图片进行校正后，识别目标图片以获得目标图片中的文本信息，即将目标图片中的文本信息转换为可编辑的文本信息。

具体地，对该目标图片进行文本信息扫描，当确定该目标图片中包含文本信息时，提取该文本信息；其中，本申请实施例中的文本信息具体可以是文字、符号等信息，确定目标图片中是否包含文本信息的方式有多种，可以获取该文本信息的文字特征，通过判断数据库中是否存在对应文字特征的文字，以确定该目标图片中是否包含文本信息。

可选的，对目标图片中的文本信息进行特征提取，通过对应的数据库中的预设的特征信息，提取对应的文本信息，以使得该文本信息处于可编辑的状态。

其中，提取文档中文本信息的方式可以是文字识别的方式，比如光学字符识别(optical character recognition，OCR)。可以通过扫描将文本信息进行预处理，如二值化、噪声去除、倾斜校正等，通过字符切割将该文本信息分割成一个个字符，以提高字符识别的效率。

104、根据文本信息提取文本关键词集合并统计各文本关键词对应的词频，以获得第一关键信息。

终端获得了文档中的文本信息后，可以通过自然语言处理操作将该文本信息中的每一句话拆分成不同的文本关键词，以得到文本关键词集合，并统计出每个文本关键词对应的词频，词频即为各文本关键词在该文档中出现的次数，故终端得到第一关键信息，其中该第一关键信息包括文本关键词集合和各文本关键词对应的词频。另外，文本关键词可以为中文词组或者英文单词等，在文本关键词的提取过程中，可以结合上下文将语义相似的至少两个文本关键词作为一个词，例如以“苹果手机”和“IPHONE”为文本关键词为例，假设“苹果手机”的词频为13，“IPHONE”词频为5，则进行词频统计时，可以将该两者作为一个词，即“苹果手机”或者“IPHONE”的词频为18，实际应用中，也可以将语义相似的文本关键词作为不同的词分开进行统计，具体此处不做限定。

105、获取文本信息对应的语音文件。

参加会议时，为了更好的记录会议内容，用户不仅可以通过终端获得目标图片，还可以获取目标图片中文本信息所对应的语音文件，该语音文件与文本信息一一对应，例如文本信息中的描述信息、上下文或者题目等与语音文件相关联。其中，终端获取文本信息对应的语音文件的方式有多种，例如在会议中演讲者对文档讲解时，用户可通过终端录制音频来获取到对应的语音文件，或者终端接收其他终端发送的对应的语音文件，需要说明的是，该语音文件的时长可以为30分钟或者1小时，具体此处不做限定。

需要注意的是，本申请实施例中，终端通过步骤105获取对应的语音文件，通过步骤101获取目标图片，而这两个过程之间并不存在步骤的先后顺序，可以先执行步骤101，也可以先执行步骤105，或者同时执行，具体此处不做限定。

106、判断文本关键词对应的词频是否大于阈值；若是，则执行步骤107；若否，则执行步骤109。

终端获取到第一关键信息后，判断第一关键信息中各文本关键词对应的词频是否大于阈值，若文本关键词对应的词频大于阈值，则执行步骤107；若文本关键词对应的词频不大于阈值，则执行步骤109，其中，该文本关键词可以为一个或者多个关键词。

107、获取第一预设坐标位置。

终端校正目标图片后，终端可以在该校正后的目标图片上预设二维坐标系，在该二维坐标系中目标图片上的各部分都有坐标点或者坐标范围，使得终端可以获取到第一预设坐标位置，其中该第一预设坐标位置可以为对应的词频大于阈值的文本关键词在目标图片中的坐标位置，也可以为目标图片中的预设位置，例如目标图片中的某个空白处等，具体此处不做限定。

108、将语音文件映射至第一预设坐标位置。

当文本关键词对应的词频大于阈值时，终端将获得的语音文件映射至第一预设坐标位置，需要说明的是，对应的词频大于阈值的文本关键词可能有一个或者多个，当第一预设坐标位置为该文本关键词在目标图片中的坐标位置时，对应的第一预设坐标位置也有一个或者多个；当第一预设坐标位置为目标图片中的预设位置时，该第一预设坐标位置也可以为一个，具体此处不做限定。

109、获取文本关键词在目标图片中的坐标位置。

当文本关键词对应的词频不大于阈值时，终端获取文本关键词在目标图片中的坐标位置。另外，本申请实施例中，终端通过步骤109获取文本关键词在目标图片中的坐标位置的方式与终端通过步骤107获取第一预设坐标位置的方式类似，此处不再赘述。

110、提取并保存语音文件中的第二关键信息。

终端将获取到的语音文件分割成多个语音片段，且每个语音片段与一个语音关键词对应，使得终端得到第二关键信息，其中该第二关键信息包括语音关键词集合和各语音关键词对应的语音片段。例如，终端可以由语音文件中语音的各中断处提取出相邻两个中断处之间的预定类型的音频段，并从各音频段中提取语音关键词，且将提取出的各语音关键词对应的音频段进行整合得到各语音关键词对应的语音片段。

111、将第一语音关键词对应的第一语音片段映射至文本关键词在目标图片中的坐标位置处。

本申请基于这样的认识，由于文本信息与语音文件对应，语音文件中的语音关键词反映了文本信息的内容，并且很可能出现在文本信息中，故文本信息中的文本关键词很可能出现在语音关键词集合中。故终端获取到第二关键信息后，若第二关键信息中的语音关键词集合中，存在第一语音关键词与对应的词频小于阈值的某个文本关键词匹配，则将第一语音关键词对应的第一语音片段映射至该文本关键词在目标图片中的坐标位置处，需要说明的是，实际应用中，判断语音关键词和文本关键词之间是否匹配可以是判断两者是否为相同的词，或者两者是否语义相似，例如“photo”和“照片”，还可以是两者为包含关系，即语音关键词中包括文本关键词，或文本关键词中包括语音关键词，例如文本关键词为“12MP Photo”，语音关键词为“Photo”，则终端可以判断两个关键词匹配，故关键词的匹配规则具体此处不做限定。

另外，若语音关键词集合中存在第二语音关键词，在文本关键词集合中没有关键词与该第二语音关键词匹配，则终端将该第二语音关键词对应的语音片段映射至文档中的第二预设坐标位置处。

112、生成并保存目标图片。

终端将语音文件映射至第一预设坐标位置和/或将第一语音片段映射至文本关键词在文档中的坐标位置处后，生成并在本地保存目标图片，可以理解的是，本申请实施例中，终端通过步骤112生成并保存的目标图片的格式与步骤101终端获得的目标图片的格式可以相同，也可以不同，即终端可以在生成目标图片时对其格式进行转换，具体此处不做限定。另外，目标图片可以以bmp、gif或者jpg等格式保存，具体此处不做限定。

其中，该目标图片中可以包括播放按钮，该播放按钮用于播放对应的语音文件，即当文本关键词对应的词频大于阈值时，在第一预设位置映射有播放按钮，用于播放语音文件；当文本关键词对应的词频不大于阈值时，则该文本关键词在目标图片中的坐标位置处映射有播放按钮，用于播放第一语音片段，如图3所示，文档中的文本关键词处均对应有一个播放按钮，该播放按钮的形状可以为喇叭状或者耳朵状，例如当播放按钮被单击一次时，播放按钮可以由静态变为动态，以向用户提示对应的语音文件或者第一语音片段正在播放中。其中，在图3所示的图片的右下角部分有一个特定播放按钮，该特定播放按钮对应的坐标位置可以是第一预设坐标位置或者第二预设坐标位置，即该特定播放按钮被点击时，终端播放获得的语音文件或者第二语音关键词对应的第二语音片段。

113、接收针对播放按钮的点击操作，并播放语音文件。

终端生成目标图片后，接收用户针对目标图片上播放按钮的点击操作，响应该点击操作，终端播放该播放按钮对应的语音片段，该语音片段可以为终端获得的语音文件或者某个语音关键词对应的语音片段。

本申请实施例中，能够改善现有技术中存在的文本内容与语音内容不同步的情况，有利于后续用户的浏览和整理；并且还可以根据文本信息中的文本关键词，映射对应的语音信息，功耗较小，节省了存储空间。

上面对本申请实施例中文本和语音信息的处理方法进行了描述，下面对本申请实施例中的终端进行描述，请参阅图4，本申请实施例中终端一个实施例包括：

识别单元401，用于识别目标图片中的文本信息；

第一提取单元402，用于提取文本信息的第一关键信息，第一关键信息包括文本关键词集合和各文本关键词对应的词频；

第一获取单元403，用于获取文本信息对应的语音文件；

第一映射单元404，若文本关键词对应的词频大于阈值，则用于将语音文件映射至目标图片中的第一预设坐标位置处。

为便于理解，下面对本申请实施例中的终端进行详细描述，在上述图4所示的基础上，请参阅图5，为本申请实施例中终端的另一个实施例示意图，终端还包括：

第二提取单元505，若文本关键词对应的词频不大于阈值，则用于提取并保存语音文件中的第二关键信息，第二关键信息包括语音关键词集合和各语音关键词对应的语音片段；

第二映射单元506，若语音关键词集合中存在与文本关键词匹配的第一语音关键词，则用于将第一语音关键词对应的第一语音片段映射至文本关键词在目标图片中的坐标位置处。

可选的，本申请实施例中终端的另一实施例中，终端还可包括：

第三映射单元507，若在文本关键词集合中不存在与第二语音关键词匹配的关键词，则用于将第二语音关键词对应的第二语音片段映射至目标图片中的第二预设坐标位置处，第二语音关键词包含于语音关键词集合。

可选的，本申请实施例中终端的另一实施例中，识别单元501可以包括：

校正模块5011，用于校正目标图片；

识别模块5012，用于识别目标图片以获得文本信息。

生成单元508，用于生成并保存目标图片，目标图片显示有播放按钮，播放按钮用于播放语音文件。

第二获取单元509，用于获取文本关键词在目标图片中的坐标位置。

上面图4和图5从模块化功能实体的角度对本申请实施例中的终端进行描述，下面从硬件处理的角度对本申请实施例中的终端进行详细描述，请参阅图6，本申请实施例中的终端包括：

终端包括处理器680和触摸屏，在实际应用中触摸屏可进一步具体包括触控面板631和显示面板641。为了便于说明，在图6中仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)等任意终端设备。

参考图6，终端包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对终端的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access，WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器1120的软件程序以及模块，从而执行本申请实施例中的图形的显示方法。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632(例如鼠标，键盘等)。可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及终端的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现终端的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现终端的输入和输出功能。

终端还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在终端移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与终端之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一终端，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，终端通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行本申请实施例中的图形的显示方法。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

终端还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器680具有以下功能：

识别目标图片中的文本信息；提取文本信息的第一关键信息，第一关键信息包括文本关键词集合和各文本关键词对应的词频；获取文本信息对应的语音文件；若文本关键词对应的词频大于阈值，则将语音文件映射至目标图片中的第一预设坐标位置处。

可选的，该终端所包括的处理器680还具有以下功能：

若文本关键词对应的词频不大于阈值，则提取并保存语音文件中的第二关键信息，第二关键信息包括语音关键词集合和各语音关键词对应的语音片段；若语音关键词集合中存在与文本关键词匹配的第一语音关键词，则将第一语音关键词对应的第一语音片段映射至文本关键词在目标图片中的坐标位置处。

可选的，该终端所包括的处理器680还具有以下功能：

若在文本关键词集合中不存在与第二语音关键词匹配的关键词，则将第二语音关键词对应的第二语音片段映射至目标图片中的第二预设坐标位置处，第二语音关键词包含于语音关键词集合。

可选的，该终端所包括的处理器680具体可执行以下功能：

校正目标图片；识别目标图片以获得文本信息。

可选的，该终端所包括的处理器680还具有以下功能：

生成并保存目标图片，目标图片显示有播放按钮，播放按钮用于播放语音文件。

可选的，该终端所包括的触控面板631还具有以下功能：

接收针对播放按钮的点击操作，处理器680播放语音文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种文本和语音信息的处理方法，其特征在于，包括：

识别目标图片中的文本信息；

提取所述文本信息的第一关键信息，所述第一关键信息包括文本关键词集合和各文本关键词对应的词频；

获取所述文本信息对应的语音文件；

若所述文本关键词对应的词频大于阈值，则将所述语音文件映射至所述目标图片中的第一预设坐标位置处。
根据权利要求1所述的处理方法，其特征在于，所述获取所述文本信息对应的语音文件之后，所述方法还包括：

若所述文本关键词对应的词频不大于所述阈值，则提取并保存所述语音文件中的第二关键信息，所述第二关键信息包括语音关键词集合和各语音关键词对应的语音片段；

若所述语音关键词集合中存在与所述文本关键词匹配的第一语音关键词，则将所述第一语音关键词对应的第一语音片段映射至所述文本关键词在所述目标图片中的坐标位置处。
根据权利要求2所述的处理方法，其特征在于，所述提取并保存所述语音文件中的第二关键信息后，所述方法还包括：

若在所述文本关键词集合中不存在与第二语音关键词匹配的关键词，则将所述第二语音关键词对应的第二语音片段映射至所述目标图片中的第二预设坐标位置处，所述第二语音关键词包含于所述语音关键词集合。
根据权利要求1至3中任一项所述的处理方法，其特征在于，所述识别目标图片得到文档中的文本信息包括：

校正所述目标图片；

识别所述目标图片以获得所述文本信息。
根据权利要求4所述的处理方法，其特征在于，所述将所述语音文件映射至所述文档中的第一预设坐标位置处后，所述方法还包括：

生成并保存所述目标图片，所述目标图片显示有播放按钮，所述播放按钮用于播放所述语音文件。
根据权利要求5所述的处理方法，其特征在于，所述生成并保存所述目标图片后，所述方法还包括：

接收针对所述播放按钮的点击操作，并播放所述语音文件。
根据权利要求1至6中任一项所述的处理方法，其特征在于，所述将所述语音文件映射至所述目标图片中的第一预设坐标位置处之前，所述识别目标图片的文本信息之后，所述方法还包括：

获取所述文本关键词在所述目标图片中的坐标位置。
根据权利要求1至7中任一项所述的处理方法，其特征在于，所述文本关键词集合包括至少一个所述文本关键词。
一种终端，其特征在于，包括：

识别单元，用于识别目标图片中的文本信息；

第一提取单元，用于提取所述文本信息的第一关键信息，所述第一关键信息包括文本关键词集合和各文本关键词对应的词频；

第一获取单元，用于获取所述文本信息对应的语音文件；

第一映射单元，若所述文本关键词对应的词频大于阈值，则用于将所述语音文件映射至所述目标图片中的第一预设坐标位置处。
根据权利要求9所述的终端，其特征在于，所述终端还包括：

第二提取单元，若所述文本关键词对应的词频不大于所述阈值，则用于提取并保存所述语音文件中的第二关键信息，所述第二关键信息包括语音关键词集合和各语音关键词对应的语音片段；

第二映射单元，若所述语音关键词集合中存在与所述文本关键词匹配的第一语音关键词，则用于将所述第一语音关键词对应的第一语音片段映射至所述文本关键词在所述目标图片中的坐标位置处。
根据权利要求10所述的终端，其特征在于，所述终端还包括：

第三映射单元，若在所述文本关键词集合中不存在与第二语音关键词匹配的关键词，则用于将所述第二语音关键词对应的第二语音片段映射至所述目标图片中的第二预设坐标位置处，所述第二语音关键词包含于所述语音关键词集合。
根据权利要求9至11中任一项所述的终端，其特征在于，所述识别单元包括：

校正模块，用于校正所述目标图片；

识别模块，用于识别所述目标图片以获得所述文本信息。
根据权利要求12所述的终端，其特征在于，所述终端还包括：

生成单元，用于生成并保存所述目标图片，所述目标图片显示有播放按钮，所述播放按钮用于播放所述语音文件。
根据权利要求13所述的终端，其特征在于，所述终端还包括：

接收单元，用于接收针对所述播放按钮的点击操作，并播放所述语音文件。
根据权利要求9至14中任一项所述的终端，其特征在于，所述终端还包括：

第二获取单元，用于获取所述文本关键词在所述目标图片中的坐标位置。
根据权利要求9至15中任一项所述的终端，其特征在于，所述文本关键词集合包括至少一个所述文本关键词。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任意一项所述的方法。
一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1-8任意一项所述的方法。