CN112581965A

CN112581965A - 转写方法、装置、录音笔和存储介质

Info

Publication number: CN112581965A
Application number: CN202011463659.2A
Authority: CN
Inventors: 王志军; 陈佳智; 李传刚
Original assignee: Tianjin Xunfeiji Technology Co ltd
Current assignee: Tianjin Xunfeiji Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-30

Abstract

本发明实施例提供一种转写方法、装置、录音笔和存储介质，其中方法包括：确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；确定每一图像的识别文本以及所述音频的转写文本；对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。本发明实施例提供的转写方法、装置、录音笔和存储介质，利用图像的识别文本对音频的转写文本进行扩充，丰富了转写文本的内容，提高了转写的全面性，可以满足更加多样化的场景需求。

Description

转写方法、装置、录音笔和存储介质

技术领域

本发明涉及语音处理和图像识别技术领域，尤其涉及一种转写方法、装置、录音笔和存储介质。

背景技术

录音笔具备小巧、携带方便以及操作简单等优点，被广泛应用于会议、演讲记录、新闻采访和课堂等场合。

然而，目前市面上的主流录音笔只具备录音功能，功能较单一，难以满足多样化的场景需求。

发明内容

本发明实施例提供一种转写方法、装置、录音笔和存储介质，用以解决现有技术中录音笔转写功能单一，难以满足多样化场景需求的缺陷。

本发明实施例提供一种转写方法，包括：

确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；

确定每一图像的识别文本以及所述音频的转写文本；

对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。

根据本发明一个实施例的转写方法，所述对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本，包括：

基于所述音频的采集时间信息和所述每一图像的拍摄时间信息，确定时间融合顺序；

和/或，基于所述转写文本和所述每一图像的识别文本之间的内容相关性，确定内容融合顺序；

基于所述时间融合顺序和/或所述内容融合顺序，对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到所述融合转写文本。

根据本发明一个实施例的转写方法，所述基于所述转写文本和所述每一图像的识别文本之间的内容相关性，确定内容融合顺序，包括：

基于所述转写文本中任一单位文本的关键信息，以及任一图像的识别文本的关键信息，确定所述任一单位文本和所述任一图像的识别文本之间的内容相关性；

基于所述转写文本中每一单位文本与每一图像的识别文本之间的内容相关性，确定若干个内容匹配对；

基于每一内容匹配对，确定所述内容融合顺序。

根据本发明一个实施例的转写方法，所述确定每一图像的识别文本以及所述音频的转写文本，包括：

确定每一图像的识别文本；

基于每一图像的识别文本更新语音转写词库；

基于所述语音转写词库，对所述音频进行语音转写，得到所述转写文本。

根据本发明一个实施例的转写方法，所述基于所述语音转写词库，对所述音频进行语音转写，得到所述转写文本，包括：

对所述音频进行语音转写，得到所述音频的每个时段对应的若干个候选转写分词，以及每个候选转写分词的转写概率；

基于所述语音转写词库，对所述音频的每个时段对应的若干个候选转写分词的转写概率进行校正；

基于校正后的每个时段对应的若干个候选转写分词的转写概率，确定所述转写文本。

根据本发明一个实施例的转写方法，所述确定每一图像的识别文本，包括：

对任一图像进行图像分类，得到所述任一图像的分类结果；

若所述分类结果为文本类，则对所述任一图像进行文本识别，得到所述任一图像的识别文本。

根据本地文本识别和/或本地语音转写所需的能耗，确定用于本地文本识别的计算资源和/或用于本地语音转写的计算资源；

基于用于本地文本识别的计算资源确定每一图像的识别文本，和/或基于用于本地语音转写的计算资源确定所述音频的转写文本。

本发明实施例还提供一种转写装置，包括：

音频图像确定单元，用于确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；

识别转写单元，用于确定每一图像的识别文本以及所述音频的转写文本；

融合单元，用于对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。

本发明实施例还提供一种录音笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述转写方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述转写方法的步骤。

本发明实施例提供的转写方法、装置、录音笔和存储介质，通过确定待转写音频的转写文本，以及该音频采集过程中拍摄的若干图像的识别文本，并对转写文本和每一图像的识别文本进行融合，或对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，利用图像的识别文本对音频的转写文本进行扩充，丰富了转写文本的内容，提高了转写的全面性，可以满足更加多样化的场景需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的转写方法的流程示意图；

图2为本发明实施例提供的融合方法的流程示意图；

图3为本发明实施例提供的内容融合顺序确定方法的流程示意图；

图4为本发明实施例提供的识别转写方法的流程示意图；

图5为本发明实施例提供的语音转写方法的流程示意图；

图6为本发明实施例提供的麦克风的结构示意图；

图7为本发明实施例提供的转写装置的结构示意图；

图8为本发明实施例提供的录音笔的结构示意图。

附图标记：

601：定向麦克风；602：全向麦克风；603：摄像头。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

录音笔凭借携带方便、操作简单等优点，被广泛应用于会议、演讲记录、采访和课堂等场合。

然而，目前市面上的主流录音笔只具备录音功能，功能较单一，难以满足多样化的场景需求。尤其是在讲座、培训等讲授者边讲解边PPT演示或黑板板书的场景下，传统录音笔难以进行全面记录。

对此，本发明实施例提供了一种转写方法。图1为本发明实施例提供的转写方法的流程示意图，如图1所示，该方法的执行主体可以是任何电子设备如录音笔、手机等，本实施例以主体为录音笔为例进行说明，具体可以是录音笔内部的处理单元，该方法包括：

步骤110，确定待转写的音频，以及在音频的采集过程中拍摄的若干图像。

具体地，可以调用录音笔中的音频采集模块采集音频数据，作为待转写的音频。其中，音频采集模块可以包括全向麦克风和定向麦克风两部分。此处，全向麦克风和定向麦克风的数量和安装位置可以根据实际应用场景进行设置，本发明实施例对此不作具体限定。由于定向麦克风的定向收音效果好，可以远距离收音，而全向麦克风适合近场收音，降噪处理能力好，因此本发明实施例将全向麦克风和定向麦克风进行组合，以优势互补，从而提高录音效果。此处，可以利用全向麦克风和定向麦克风分别进行录音，然后对全向麦克风采集的音频数据和定向麦克风采集的音频数据进行处理，得到两路音频数据。其中一路是采集的无损音频，用于进行录音转写，以提高录音转写的准确率；另一路是采集的有损音频，用于播放。两路录音在保证转写效率和准确率的同时，还可以保证人耳的录音听感，还原最真实、高保真的现场声音。

另外，在培训、讲座等场景下，讲授者通常会一边进行讲解，一边在屏幕上展示演示文稿或在黑板上进行板书，以辅助听众理解其讲解的内容，因而演示文稿或板书的内容与讲授者讲解的内容关联度较高，可以用于补充和丰富讲解的内容。因此，录音笔还内设图像采集模块，在音频采集过程中，用户可以手持录音笔进行拍照，利用图像采集单元拍摄若干个图像。

步骤120，确定每一图像的识别文本以及音频的转写文本。

具体地，对每一图像进行OCR(Optical Character Recognition，光学字符识别)，得到每一图像的识别文本。其中，任一图像的识别文本中包含了该图像中的文字内容。对待转写的音频进行语音转写，得到音频的转写文本。此处，对图像的OCR操作和音频的语音转写操作均可以在录音笔本地进行，也可以将每一图像和/或待转写的音频上传到服务器，利用服务器上的计算资源对图像进行识别，和/或对音频进行语音转写，然后接收服务器下发的每一图像的识别文本和/或音频的转写文本，本发明实施例对此不作具体限定。

步骤130，对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本。

具体地，考虑到待转写的音频的内容与该音频采集过程中拍摄的图像内容相关度较高，因此可以对音频的转写文本和每一图像的识别文本进行融合，得到融合转写文本。此处，利用图像的识别文本对音频的转写文本进行扩充，丰富了转写文本的内容，提高了转写的全面性，可以满足更加多样化的场景需求。此外，也可以将转写文本、每一图像的识别文本，连同音频和/或每一图像融合成一个整体，方便用户根据音频和/或图像进行对比查看和编辑，提高融合转写文本的编辑效率。

本发明实施例提供的方法，通过确定待转写音频的转写文本，以及该音频采集过程中拍摄的若干图像的识别文本，并对转写文本和每一图像的识别文本进行融合，或对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，利用图像的识别文本对音频的转写文本进行扩充，丰富了转写文本的内容，提高了转写的全面性，可以满足更加多样化的场景需求。

基于上述实施例，图2为本发明实施例提供的融合方法的流程示意图，如图2所示，步骤130包括：

步骤131，基于音频的采集时间信息和每一图像的拍摄时间信息，确定时间融合顺序。

具体地，考虑到拍摄或采集的时间相近的图像和音频，其内容的相关性通常较高，故可以直接基于音频的采集时间信息和每一图像的拍摄时间信息，将音频的转写文本中的各个单位文本和每一图像的识别文本按照时间先后顺序进行排列，或者将音频的转写文本中的各个单位文本、每一图像的识别文本、该音频和/或每一图像按照时间先后顺序进行排列，得到时间融合顺序。其中，音频的采集时间信息包括但不限制为该音频内各个单位音频的采集时间，单位音频可以为音频中的预设数量个分段，或者预设数量个分句等，本发明实施例对此不作具体限定。单位文本可以为转写文本中的预设数量个分段，或者预设数量个分句等，本发明实施例对此也不作具体限定。根据各个单位音频的采集时间，以及每个图像的拍摄时间，可以确定各个单位音频转写得到的单位文本和每一图像的识别文本的时间融合顺序，或者确定各个单位音频转写得到的单位文本、每一图像的识别文本、该音频和/或每一图像的时间融合顺序。

和/或，步骤132，基于转写文本和每一图像的识别文本之间的内容相关性，确定内容融合顺序。

具体地，还可以分别确定转写文本和每一图像的识别文本的语义信息，并基于转写文本和任一图像的识别文本的语义信息，确定转写文本与该图像的识别文本之间的内容相关性。其中，转写文本与任一图像的识别文本之间的内容相关性用于表征转写文本与该图像的识别文本在语义上的相关程度。然后，基于转写文本和每一图像的识别文本之间的内容相关性，将音频的转写文本和每一图像的识别文本进行排列，或者将音频的转写文本、每一图像的识别文本、该音频和/或每一图像进行排列，使得每一图像或每一图像的识别文本与其相邻的转写文本片段内容相关性较高，从而得到内容融合顺序。

步骤133，基于时间融合顺序和/或内容融合顺序，对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本。

具体地，当仅执行步骤131时，可以基于时间融合顺序，对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本；当仅执行步骤132时，可以基于内容融合顺序，对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本；当既执行步骤131，又执行步骤132时，则基于时间融合顺序和内容融合顺序，确定最终的融合顺序，并据此对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本。

本发明实施例提供的方法，基于音频的采集时间信息和每一图像的拍摄时间信息，确定时间融合顺序，和/或，基于转写文本和每一图像的识别文本之间的内容相关性，确定内容融合顺序，从而对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，将相关的内容集中，便于用户进行对比查看和编辑。

基于上述任一实施例，图3为本发明实施例提供的内容融合顺序确定方法的流程示意图，如图3所示，步骤132包括：

步骤1321，基于转写文本中任一单位文本的关键信息，以及任一图像的识别文本的关键信息，确定该单位文本和该图像的识别文本之间的内容相关性；

步骤1322，基于转写文本中每一单位文本与每一图像的识别文本之间的内容相关性，确定若干个内容匹配对；

步骤1323，基于每一内容匹配对，确定内容融合顺序。

具体地，将转写文本划分为多个单位文本，例如可以将预设数量个分段或预设数量个分句作为一个单位文本。提取每一单位文本的关键信息，以及每一图像的识别文本的关键信息。然后，基于任一单位文本的关键信息，以及任一图像的识别文本的关键信息，计算二者之间的语义相似度，从而得到该单位文本和该图像的识别文本之间的内容相关性。此处，单位文本的关键信息可以通过对单位文本进行关键词提取或摘要生成得到。根据每一单位文本与每一图像的识别文本之间的内容相关性，确定若干个内容匹配对。其中，任一内容匹配对中包括相互匹配的单位文本和图像的识别文本。此处，可以基于任一图像的识别文本，选取与其内容相关性最高的单位文本，共同构成一个内容匹配对；还可以基于任一单位文本，选取与其内容相关性最高的识别文本，共同构成一个内容匹配对，本发明实施例对此不作具体限定。需要说明的是，一个单位文本可以匹配多个图像的识别文本，相应地，一个图像的识别文本也可能匹配多个单位文本。基于每一内容匹配对，将任一内容匹配对中的识别文本，或识别文本以及对应图像排列在该内容匹配对中的单位文本的相邻位置，得到内容融合顺序。

基于上述任一实施例，图4为本发明实施例提供的识别转写方法的流程示意图，如图4所示，步骤120包括：

步骤121，确定每一图像的识别文本；

步骤122，基于每一图像的识别文本更新语音转写词库；

步骤123，基于语音转写词库，对音频进行语音转写，得到转写文本。

具体地，首先对每一图像进行文本识别，得到每一图像的识别文本。由于所拍摄的演示文稿或板书中的措辞相对更标准，尤其对于医学、生物学等专有名词较多的领域而言，从演示文稿或板书中能够学习到该领域的规范性表达，因此可以利用每一图像的识别文本，辅助进行语音转写，校正语音转写结果。一方面，根据学习到的规范性表达，可以从众多发音相同或相近的词语中选择出正确的结果，以提高语音转写的准确性，另一方面，还可以将转写文本中的非正式用语，例如口语化表达，转换为本领域的标准用语，使转写文本更规范。因此，可以基于每一图像的识别文本对语音转写词库进行更新，将识别文本中的规范性表达添加到语音转写词库中，使得可以基于该语音转写词库，对音频进行语音转写，得到更准确、更规范的转写文本。

本发明实施例提供的方法，基于每一图像的识别文本更新语音转写词库，并基于语音转写词库，对音频进行语音转写，得到转写文本，提高了转写的准确性和规范性。

基于上述任一实施例，图5为本发明实施例提供的语音转写方法的流程示意图，如图5所示，步骤123包括：

步骤1231，对音频进行语音转写，得到音频的每个时段对应的若干个候选转写分词，以及每个候选转写分词的转写概率；

步骤1232，基于语音转写词库，对音频的每个时段对应的若干个候选转写分词的转写概率进行校正；

步骤1233，基于校正后的每个时段对应的若干个候选转写分词的转写概率，确定转写文本。

具体地，对音频进行语音转写，提取音频的每个时段的发音序列，并根据发音序列确定每个时段对应的若干个候选转写分词，以及每个候选转写分词被选取作为对应时段的转写结果的转写概率。由于存在同音字和发音不标准的情况，得到的每个候选转写分词的转写概率可能不准确。因此，可以基于语音转写词库，对音频的每个时段对应的若干个候选转写分词的转写概率进行校正。其中，语音转写词库中包含有常用词，以及从每一图像的识别文本中学习到的规范性表达。然后，基于校正后的每个时段对应的若干个候选转写分词的转写概率，确定每个时段对应的转写结果，从而得到音频的转写文本。

基于上述任一实施例，确定每一图像的识别文本，包括：

对任一图像进行图像分类，得到该图像的分类结果；

若图像的分类结果为文本类，则对该图像进行文本识别，得到该图像的识别文本。

具体地，考虑到用户在使用录音笔的过程中可能存在误操作行为，导致录音笔对非文本内容进行图像采集。此时，若仍对拍摄的图像进行文本识别，将是一次无效的识别。为了避免无效的识别过程带来的资源浪费，本发明实施例在对任一图像进行文本识别前，先对该图像进行图像分类，得到该图像的分类结果，以判断该图像是否为文本类图像。其中，分类结果用于表征拼接图像是否为文本类图像，文本类图像是指包含文字内容的图像。

若该图像的分类结果为文本类，则可以对该图像进行文本识别，得到该图像的识别文本。否则，表明该图像中不存在文字内容，此时无需对其进行文本识别，以避免不必要的OCR处理，从而减少文本识别的运算量，节约系统资源。

本发明实施例提供的方法，通过对任一图像进行图像分类，仅当该图像的分类结果为文本类时，才对其进行文本识别，得到该图像的识别文本，避免了不必要的OCR处理，减少了文本识别的运算量，节约系统资源。

基于上述任一实施例，步骤120包括：

根据图像识别和/或语音转写所需的能耗，确定用于图像识别的计算资源和/或用于语音转写的计算资源；

基于用于本地文本识别的计算资源确定每一图像的识别文本，和/或基于用于本地语音转写的计算资源确定音频的转写文本。

具体地，图像的文本识别操作和/或音频的语音转写操作可以在录音笔本地进行。为了在保证本地文本识别和/或本地语音转写效果的同时，尽量降低录音笔的实时功耗，以尽可能地延长录音笔的续航时间，可以在进行本地文本识别和/或本地语音转写之前，根据各任务所需的能耗，为本地文本识别和/或本地语音转写动态分配合适的计算资源。例如，对于多核CPU而言，可以根据本地文本识别和/或本地语音转写所需的能耗，为其分配合适数量的CPU内核，分配时还可以优先为其分配占用率较低的CPU内核，本发明实施例对此不作具体限定。当同时执行本地文本识别任务和本地语音转写任务时，还可以根据各自所需的能耗，为各个任务分配合适的计算资源。例如，可以为所需能耗较大的任务分配更多的CPU内核，还可以为所需能耗较大的任务分配占用率较低的CPU内核，本发明实施例对此不作具体限定。然后，录音笔的文本识别模块和/或语音转写模块基于分配的计算资源执行本地文本识别任务和/或本地语音转写任务，得到每一图像的识别文本和/或音频的转写文本。此处，本地文本识别和/或本地语音转写所需的能耗所需的能耗可以预先统计得到。

本发明实施例提供的方法，根据图像识别和/或语音转写所需的能耗，确定用于图像识别的计算资源和/或用于语音转写的计算资源，并基于用于本地文本识别的计算资源确定每一图像的识别文本，和/或基于用于本地语音转写的计算资源确定音频的转写文本，在保证本地文本识别和/或本地语音转写效果的同时，降低了录音笔的实时功耗，延长了录音笔的续航时间。

基于上述任一实施例，本发明又一实施例提供了一种录音笔，用于执行上述任一实施例提供的转写方法。该录音笔的硬件包括：全向麦克风、定向麦克风、摄像头模块、WIFI模块、4G模块、处理器、LCD屏、存储模块、编辑模块、电源管理模块和充电模块。

其中，终端拾音由全向麦克风和定向麦克风两部分分别录音，经算法处理后输出2路音频数据流：一路语音数据流用于识别转写；另一路是高保真录音，用于提升录音听感。两部分录音在保证转写效率和准确率的同时，又保证了人耳的录音听感，还原最真实高保真现场声音。

定向麦克风ECM(Electret Condenser Micphone，驻极体电容麦克风)体积较大，直径达到10mm，其录音音质听感及录音保真度远高于硅麦，加上采用高采样率高精度，例如≥96KHZ、24bit，进行拾音采集，收音距离可达到15米以上，能够提供高保真的录音存储数据，还原更真实更清晰的录音现场。

图6为本发明实施例提供的麦克风的结构示意图，如图6所示，定向麦克风601为两颗麦克风，放在产品顶部位置，确保无遮挡能自由定向拾音即可，还包括全向麦克风602，且全向麦克风602安装在全向麦克风柔性电路板(Flexible Printed Circuit，FPC)上。顶部两个定向麦克风601之间，可以放置摄像头603，以最优化结构空间的利用。定向麦克风601左右两侧的侧壁需要尽可能的露出，保证收音的出孔率，并且内侧的空间完全避让，以进一步保证出孔率。定向麦克风601之间放置摄像头603，可以节省空间，且让拍照更顺畅，同时也增加了结构强度，防止变形。摄像头603可以提供多种场景模式的拍照，如近距离、远距离、自然场景和办公场景等，针对不同的内容，如文字、图片和图文都可以进行拍照记录，并通过一定的拍照算法，提高照片的清晰度。录音笔还具备拍照和文字识别功能，拍照后，可以将图像的识别文本导出，并支持编辑、分享和导出操作。对于有表格的图像，还可以将其还原成带格式的文本。

音频编码将麦克风模拟音频(全向麦克风和定向麦克风采集的音频)转化为数字音频，同时将扬声器播放的模拟音频转化为数字信号作为回声消除参考信号，再由I2S/TDM、I2C等数字接口将所有数字音频数据传至处理器。为保证音频数据的同步性和及时性，每一路模拟音频均配置一路独立的ADC(Analog to Digital Converter，模数转换器)。视频解码可以将摄像头拍摄的图片或视频，进行噪点消除和畸变消除处理，并将处理后的图片或视频传输到处理器进行后续处理。

处理器接收全向麦克风和定向麦克风采集的音频数据后，进行全向麦克风、语音增强等语音算法运算、数据调度传输、外设协同逻辑控制及系统应用的交互管理。另外，处理器含有足够运算力，可以提供本地语音识别及转写服务。该处理器支持LTE通信，同时支持蓝牙、WI-FI无线传输，满足GPS定位功能。LTE或者Wi-Fi将全向麦克风的6路原始录音数据流、定向麦克风的录音数据流及降噪处理后的识别转写录音数据流和听感录音数据流全部无缝实时或定时传输到云端和无线设备上，用于云端识别、转写、编辑、分享、导出和存档。

麦克风拾音的同时，可以进行拍照，处理器的运算能力可以支持同时进行录音和拍照两个功能同步进行。另外，在转写过程中，处理器起到了统筹调度和计算的作用。对于采集的音频，处理器可以对音频进行调度转写，或是实时将音频上传到云端服务器进行转写，并调用存储模块存储音频及其转写文本；对于拍摄的图像，处理器可以对图像进行调度识别，或是将图像上传到云端服务器进行识别，并调用存储模块存储图像及其识别文本。

在设备端，可以通过编辑器模块将音频的转写文本和图像的识别文本，以及音频和图像融合在一起展示，此处可以根据音频和图像的时间信息或二者的内容相关性进行融合，具体融合方式可采用上述任一实施例提供的融合方法，在此不再赘述。用户可以通过编辑器模块对照音频和图像对融合转写文本进行查看和编辑。

LCD屏采用HD 1080*720分辨率，满足音频的转写文本和图像的识别文本的显示。同时，LCD屏还可作为交互的操控界面以及设备状态的显示界面，让录音设备更加智能。录音、场景选择、转写文字显示、翻译和设置等操作都可通过屏幕进行交互，使交互更加便捷。

存储模块用于存储系统代码、音频、图像、转写文本、识别文本、编辑数据和个人设置信息等，还可通过TYPE-C接口或无线模块将音频数据导出或上传至云空间。

电源管理模块和充电模块构成了系统的供电管理部分，其中加入5V2A充电协议，可以标准模式充电，既能提升效率，又能保证安全。

电源管理模块在在线转写和离线转写的切换过程中，可以为不同的转写模式提供不同的功率输出，保证了功能的正常运转。同时，通过转写模式的切换，可以最大限度的保证续航。

由于安全是录音系统的重要保障，因此录音笔提供密码设定功能和安全认证功能。同时，开机状态按录音键，可以一键录音。同时，还可对文件和文件夹进行加密，实现文件的安全保护。

录音笔还具备SIM托，可以插入4G卡开启网络，进行实时在线转写，音频数据上传。录音笔在录音时，还可以将音频数据同步上传到云空间，进行转写保存。其他终端可以同步听到或看到音频数据及其对应的转写文本，实现了实时同步、实时分享。

另外，录音笔还包括智能文件管理系统，通过对文件增加多维度的标签，如时间、地点、标签、场景或名称等，通过语音或文字搜索等方式搜索任意的标签，都可以推荐相关的文件。

录音笔整体采用了更科学的麦克风布局。设备主体采用铝合金材质，采用喷砂+阳极工艺；背部使用了曲面3D陶瓷，提升了设备的整体美观度。

下面对本发明实施例提供的转写装置进行描述，下文描述的转写装置与上文描述的转写方法可相互对应参照。

基于上述任一实施例，图7为本发明实施例提供的转写装置的结构示意图，如图7所示，该装置包括音频图像确定单元710、识别转写单元720和融合单元730。

其中，音频图像确定单元710用于确定待转写的音频，以及在音频的采集过程中拍摄的若干图像；

识别转写单元720用于确定每一图像的识别文本以及音频的转写文本；

融合单元730用于对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本。

本发明实施例提供的装置，通过确定待转写音频的转写文本，以及该音频采集过程中拍摄的若干图像的识别文本，并对转写文本和每一图像的识别文本进行融合，或对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，利用图像的识别文本对音频的转写文本进行扩充，丰富了转写文本的内容，提高了转写的全面性，可以满足更加多样化的场景需求。

基于上述任一实施例，融合单元730包括：

时间融合顺序确定单元，用于基于音频的采集时间信息和每一图像的拍摄时间信息，确定时间融合顺序；

和/或，内容融合顺序确定单元，用于基于转写文本和每一图像的识别文本之间的内容相关性，确定内容融合顺序；

融合转写文本确定单元，用于基于时间融合顺序和/或内容融合顺序，对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，得到融合转写文本。

本发明实施例提供的装置，基于音频的采集时间信息和每一图像的拍摄时间信息，确定时间融合顺序，和/或，基于转写文本和每一图像的识别文本之间的内容相关性，确定内容融合顺序，从而对转写文本和每一图像的识别文本进行融合，或者对转写文本、每一图像的识别文本，以及音频和/或每一图像进行融合，将相关的内容集中，便于用户进行对比查看和编辑。

基于上述任一实施例，内容融合顺序确定单元用于：

基于转写文本中任一单位文本的关键信息，以及任一图像的识别文本的关键信息，确定该单位文本和该图像的识别文本之间的内容相关性；

基于转写文本中每一单位文本与每一图像的识别文本之间的内容相关性，确定若干个内容匹配对；

基于每一内容匹配对，确定内容融合顺序。

基于上述任一实施例，识别转写单元720包括：

文本识别单元，用于确定每一图像的识别文本；

词库更新单元，用于基于每一图像的识别文本更新语音转写词库；

音频转写单元，用于基于语音转写词库，对音频进行语音转写，得到转写文本。

本发明实施例提供的装置，基于每一图像的识别文本更新语音转写词库，并基于语音转写词库，对音频进行语音转写，得到转写文本，提高了转写的准确性和规范性。

基于上述任一实施例，音频转写单元用于：

对音频进行语音转写，得到音频的每个时段对应的若干个候选转写分词，以及每个候选转写分词的转写概率；

基于语音转写词库，对音频的每个时段对应的若干个候选转写分词的转写概率进行校正；

基于校正后的每个时段对应的若干个候选转写分词的转写概率，确定转写文本。

基于上述任一实施例，确定每一图像的识别文本，包括：

对任一图像进行图像分类，得到该图像的分类结果；

若分类结果为文本类，则对该图像进行文本识别，得到该图像的识别文本。

本发明实施例提供的装置，通过对任一图像进行图像分类，仅当该图像的分类结果为文本类时，才对其进行文本识别，得到该图像的识别文本，避免了不必要的OCR处理，减少了文本识别的运算量，节约系统资源。

基于上述任一实施例，识别转写单元720用于：

本发明实施例提供的装置，根据图像识别和/或语音转写所需的能耗，确定用于图像识别的计算资源和/或用于语音转写的计算资源，并基于用于本地文本识别的计算资源确定每一图像的识别文本，和/或基于用于本地语音转写的计算资源确定音频的转写文本，在保证本地文本识别和/或本地语音转写效果的同时，降低了录音笔的实时功耗，延长了录音笔的续航时间。

图8示例了一种录音笔的实体结构示意图，如图8所示，该录音笔可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行转写方法，该方法包括：确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；确定每一图像的识别文本以及所述音频的转写文本；对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的转写方法，该方法包括：确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；确定每一图像的识别文本以及所述音频的转写文本；对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的转写方法，该方法包括：确定待转写的音频，以及在所述音频的采集过程中拍摄的若干图像；确定每一图像的识别文本以及所述音频的转写文本；对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种转写方法，其特征在于，包括：

确定每一图像的识别文本以及所述音频的转写文本；

2.根据权利要求1所述的转写方法，其特征在于，所述对所述转写文本和所述每一图像的识别文本进行融合，或者对所述转写文本、所述每一图像的识别文本，以及所述音频和/或所述每一图像进行融合，得到融合转写文本，包括：

3.根据权利要求2所述的转写方法，其特征在于，所述基于所述转写文本和所述每一图像的识别文本之间的内容相关性，确定内容融合顺序，包括：

基于每一内容匹配对，确定所述内容融合顺序。

4.根据权利要求1所述的转写方法，其特征在于，所述确定每一图像的识别文本以及所述音频的转写文本，包括：

确定每一图像的识别文本；

基于每一图像的识别文本更新语音转写词库；

5.根据权利要求4所述的转写方法，其特征在于，所述基于所述语音转写词库，对所述音频进行语音转写，得到所述转写文本，包括：

6.根据权利要求1至5中任一项所述的转写方法，其特征在于，所述确定每一图像的识别文本，包括：

对任一图像进行图像分类，得到所述任一图像的分类结果；

7.根据权利要求1至5任一项所述的转写方法，其特征在于，所述确定每一图像的识别文本以及所述音频的转写文本，包括：

8.一种转写装置，其特征在于，包括：

9.一种录音笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述转写方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述转写方法的步骤。