CN112562687A

CN112562687A - 音视频处理方法、装置、录音笔和存储介质

Info

Publication number: CN112562687A
Application number: CN202011460220.4A
Authority: CN
Inventors: 王志军; 任晓宁; 李传刚
Original assignee: Tianjin Xunfeiji Technology Co ltd
Current assignee: Tianjin Xunfeiji Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-26
Anticipated expiration: 2040-12-11
Also published as: CN112562687B

Abstract

本发明实施例提供一种音视频处理方法、装置、录音笔和存储介质，该方法包括：确定同步采集的音频数据和视频数据；对音频数据进行语音识别，得到转写文本，并提取转写文本中的关键信息；基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。本发明实施例提供的音视频处理方法、装置、录音笔和存储介质，实现了视频数据中信息的自动添加，提高了信息传达的效率、信息传达的准确性以及信息传达的丰富性。

Description

音视频处理方法、装置、录音笔和存储介质

技术领域

本发明涉及音视频技术领域，尤其涉及一种音视频处理方法、装置、录音笔和存储介质。

背景技术

随着人工智能技术的快速发展，智能录音笔得到了广泛的应用，多功能化的智能录音笔可以兼具录音和拍摄的功能。

现有的音视频处理方法应用于智能录音笔时，通常分别对录音笔采集的音频数据和视频数据进行处理，当需要在视频数据中添加信息时，只能依靠用户手动将待添加的信息整合到视频数据中，操作繁琐，效率较低，而且视频数据中信息传达的内容不丰富，信息传达的效率较低。

发明内容

本发明实施例提供一种音视频处理方法、装置、录音笔和存储介质，用以解决现有技术中操作繁琐、信息传达的内容不丰富且信息传达的效率较低的缺陷。

本发明实施例提供一种音视频处理方法，包括：

确定同步采集的音频数据和视频数据；

对所述音频数据进行语音识别，得到转写文本，并提取所述转写文本中的关键信息；

基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，并将所述关键信息整合到所述视频数据中的关联位置处。

根据本发明一个实施例的音视频处理方法，所述基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，包括：

确定所述音频数据对应的说话人；

对所述视频数据进行人脸识别，得到所述说话人的人脸区域；

基于所述说话人的人脸区域，确定所述关键信息在所述视频数据中的关联位置。

对所述视频数据进行图像实体识别，得到所述视频数据中包含的若干个图像实体；

对所述转写文本和/或所述关键信息进行命名实体识别，得到若干个命名实体；

基于所述若干个图像实体和所述若干个命名实体之间的关联性，确定所述关键信息在所述视频数据中的关联位置。

根据本发明一个实施例的音视频处理方法，所述基于所述若干个图像实体和所述若干个命名实体之间的关联性，确定所述关键信息在所述视频数据中的关联位置，包括：

基于每一图像实体的文本编码向量与每一命名实体的文本编码向量之间的相似度，从所述若干个图像实体中选取所述关键信息的关联图像实体；

基于所述关联图像实体在所述视频数据中的位置，确定所述关键信息在所述视频数据中的关联位置。

根据本发明一个实施例的音视频处理方法，所述将所述关键信息整合到所述视频数据中的关联位置处，包括：

对所述音频数据和/或所述转写文本进行情绪识别，得到所述关键信息的情绪识别结果；

基于所述关键信息的情绪识别结果，确定所述关键信息的展示方式；

基于所述展示方式将所述关键信息整合到所述视频数据中的关联位置处。

根据本发明一个实施例的音视频处理方法，所述对所述音频数据和/或所述转写文本进行情绪识别，得到所述关键信息的情绪识别结果，包括：

基于所述音频数据的噪声水平，确定所述音频数据的语音特征和所述转写文本的文本特征分别对应的权重；

基于所述语音特征和所述文本特征分别对应的权重，对所述语音特征和所述文本特征进行加权融合，并基于融合后的特征，确定所述关键信息的情绪识别结果。

根据本发明一个实施例的音视频处理方法，所述提取所述转写文本中的关键信息，之后还包括：

基于所述转写文本和/或所述关键信息，确定所述关键信息的扩展信息，并将所述扩展信息整合到所述视频数据中。

本发明实施例还提供一种音视频处理装置，包括：

采集单元，用于确定同步采集的音频数据和视频数据；

关键信息确定单元，用于对所述音频数据进行语音识别，得到转写文本，并提取所述转写文本中的关键信息；

关键信息整合单元，用于基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，并将所述关键信息整合到所述视频数据中的关联位置处。

本发明实施例还提供一种录音笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述音视频处理方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述音视频处理方法的步骤。

本发明实施例提供的一种音视频处理方法、装置、录音笔和存储介质，通过提取音频数据的转写文本中的关键信息，并基于关键信息在视频数据中的关联位置，将关键信息整合到视频数据中的关联位置处，实现了视频数据中信息的自动添加，提高了信息传达的效率、信息传达的准确性以及信息传达的丰富性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的音视频处理方法的流程示意图；

图2为本发明实施例提供的关联位置的确定方法的流程示意图；

图3为本发明另一实施例提供的关联位置的确定方法的流程示意图；

图4为本发明实施例提供的关键信息的整合方法的流程示意图；

图5为本发明实施例提供的录音笔的结构示意图；

图6为本发明实施例提供的音视频处理装置的结构示意图；

图7是本发明另一实施例提供的录音笔的结构示意图。

附图标记：

510：摄像头；520：定向麦克风；530：全向麦克风。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的音视频处理方法应用于智能录音笔时，通常分别对录音笔采集的音频数据和视频数据进行处理，当需要在视频数据中添加信息时，只能依靠用户手动将待添加的信息整合到视频数据中，例如，当需要生成视频数据的字幕时，只能通过用户手动将同步采集的音频数据的转写文本整合到视频数据中，操作繁琐，效率较低。而且视频数据中信息传达的内容不丰富，信息传达的效率较低。

对此，本发明实施例提供一种音视频处理方法，本发明实施例提供的音视频处理方法可以应用于智能录音笔，也可以应用于兼具录音和拍摄功能的其他智能设备，例如智能手机、平板电脑等。图1为本发明实施例提供的音视频处理方法的流程示意图，如图1所示，该方法包括：

步骤110，确定同步采集的音频数据和视频数据。

具体地，智能设备的图像采集模块在采集视频数据的同时，智能设备的音频采集模块可以同步采集音频数据。由此得到的音频数据和视频数据具有相同的时间轴。

进一步地，智能设备的音频采集模块可以包括全向麦克风和定向麦克风两部分。此处，全向麦克风和定向麦克风的数量和安装位置可以根据实际应用场景进行设置，本发明实施例对此不作具体限定。由于定向麦克风的定向收音效果好，可以远距离收音，而全向麦克风适合近场收音，降噪处理能力好，因此本发明实施例将全向麦克风和定向麦克风进行组合，以优势互补，从而提高录音效果。例如，可以利用全向麦克风和定向麦克风分别进行录音，然后对全向麦克风录制的音频数据和全向麦克风录制的音频数据进行处理，得到两路音频数据。其中一路是录制的无损音频，用于进行录音转写，以提高录音转写的准确率；另一路是录制的有损音频，用于播放。两路录音在保证转写效率和准确率的同时，还可以保证人耳的录音听感，提升视频播放的音质。

步骤120，对音频数据进行语音识别，得到转写文本，并提取转写文本中的关键信息。

具体地，在得到音频数据之后，可以对音频数据进行语音识别，得到音频数据对应的转写文本，并提取转写文本中关键信息。其中，转写文本中的关键信息用于反映转写文本中的主要内容，转写文本中的关键信息可以为转写文本的文本摘要，例如在多人会议的应用场景中，音频数据可以对应一个说话人的发言，转写文本中的关键信息可以为该说话人的发言内容的梗概；转写文本中的关键信息也可以为转写文本中的若干个关键词，例如在旅游景点介绍、教学等应用场景中往往需要对一个特定的场景进行描述，当转写文本为“河面上有一艘小船，一只鸟从河面飞过，天空中有一架飞机”，转写文本中的关键信息可以为“河”、“船”、“鸟”、“天空”和“飞机”等多个关键词。

此处，可以利用网络将音频数据和视频数据上传并在云端进行语音识别以及关键信息的提取，也可以基于智能设备内置的处理模块在本地进行语音识别以及关键信息的提取。在线音视频处理中语音识别以及关键信息提取的准确性较高，功耗低，但需要牺牲一定的网络传输时间，而本地音视频处理中语音识别以及关键信息提取的效率较高，实时性较强、且无需网络的支持，但准确性相较于在线音视频处理略低，功耗较高。

步骤130，基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。

具体地，为了更加直观地对关键信息进行展示，在得到关键信息之后，可以将关键信息整合到视频数据中与关键信息相关联的关联位置处，通过融合音频数据和视频数据进行音视频处理，实现了视频数据中信息的自动添加。此处，可以将关键信息添加至视频数据中的关联位置处，也可以将关键信息表示为气泡或其他形式的文本框，并将该文本框添加至视频数据中的关联位置的周围，本发明实施例对此不作具体限定。

其中，关键信息在视频数据中的关联位置可以为视频数据中与关键信息相关的对象的位置，例如，当关键信息为一个说话人的发言内容的摘要时，关键信息在视频数据中的关联位置可以为视频数据中该说话人的人脸区域，从而表征整合入视频数据中的关键信息与说话人之间的对应关系。又例如，当关键信息为描述特定场景的多个关键词时，关键信息在视频数据中的关联位置可以为关键信息中各个关键词对应的对象的目标区域，从而表征整合入视频数据中的关键信息与其所指代对象之间的对应关系。

此处，关键信息在视频数据中的关联位置可以是基于音频数据、转写文本和关键信息中的至少一种确定的。由于音频数据、转写文本和关键信息均包含与关键信息相关的对象的信息，例如音频数据可以反映对应说话人的身份信息，转写文本和/或关键信息均会提及场景中出现的各个对象的名称，基于音频数据、转写文本和关键信息中的任意一种或多种的组合，可以识别出与关键信息相关的对象的身份或类别，结合视频数据，进而可以得到视频数据中与关键信息相关的对象所在的区域，即关键信息在视频数据中的关联位置。

由于关键信息可以反映转写文本中的主要内容，通过提取转写文本中的关键信息并在视频数据中进行展示，用户能够更加快速、准确且直观地获取音频数据中的主要信息，提高了信息传达的效率以及信息传达的准确性。

通过将关键信息在与其对应的关联位置进行展示，不仅能够辅助用户更好地理解视频内容，提升了用户的观看体验，而且在一定程度上可以向用户传达除关键信息的文本内容之外的信息，例如用户可以通过在说话人的人脸区域展示的关键信息，获取视频数据中不同说话人的立场态度，又例如用户可以通过关键信息所指代对象在视频数据中的形状、颜色、大小等其他信息，更加立体全面地了解指代对象，进而提高了信息传达的丰富性。

本发明实施例提供的方法，通过提取音频数据的转写文本中的关键信息，并基于关键信息在视频数据中的关联位置，将关键信息整合到视频数据中的关联位置处，实现了视频数据中信息的自动添加，提高了信息传达的效率、信息传达的准确性以及信息传达的丰富性。

基于上述实施例，图2为本发明实施例提供的关联位置的确定方法的流程示意图，如图2所示，该方法包括：

步骤210，确定音频数据对应的说话人；

步骤220，对视频数据进行人脸识别，得到说话人的人脸区域；

步骤230，基于说话人的人脸区域，确定关键信息在视频数据中的关联位置。

具体地，由于音频数据的声纹特征可以反映对应说话人的身份信息，在得到音频数据之后，基于音频数据的声纹特征，以及事先确定的视频数据中每一说话人与其声纹特征的对应关系，确定音频数据对应的说话人。为得到该说话人在视频数据中的位置，对视频数据进行人脸识别，进而得到该说话人的人脸区域。此处，音频数据对应同一说话人，相应地，可以分别采集各个说话人的音频数据，也可以对采集得到的原始音频数据进行话者分离，进而得到各个说话人的音频数据。

在得到说话人的人脸区域之后，基于说话人的人脸区域，确定关键信息在视频数据中的关联位置。此处，可以直接将该人脸区域作为关键信息在视频数据中的关联位置，也可以基于说话人的人脸区域，确定该说话人的唇部区域，将该说话人的唇部区域作为关键信息在视频数据中的关联位置，本发明实施例对基于人脸区域确定关联位置的方式不作具体限定。

当视频数据中包含多个说话人时，对每一说话人的音频数据采用本发明实施例提供的方法，可以将每一说话人的主要发言内容分别对应显示在对应说话人的周围，对多个说话人的主要发言内容进行了有效区分，便于用户快速准确地获取每一说话人的主要发言内容。

在此基础上，还可以对各个说话人对应的关键信息通过不同的展示方式整合到视频数据中，例如，通过调整不同说话人对应的关键信息中各个文字的字体、颜色、大小等属性，或者将各个说话人的角色标签添加到各个说话人的关键信息中，并将包含角色标签的关键信息整合到视频数据中，以区分不同说话人对应的关键信息。

基于上述任一实施例，图3为本发明实施例提供的关联位置的确定方法的流程示意图，如图3所示，该方法包括：

步骤310，对视频数据进行图像实体识别，得到视频数据中包含的若干个图像实体；

步骤320，对转写文本和/或关键信息进行命名实体识别，得到若干个命名实体；

步骤330，基于若干个图像实体和若干个命名实体之间的关联性，确定关键信息在视频数据中的关联位置。

具体地，为确定关键信息中各个关键词对应的对象在视频数据中的位置，在得到视频数据之后，可以对视频数据进行图像实体识别，得到视频数据中包含的若干个图像实体，其中，图像实体可以为出现在图像中的具象事物，例如“船”、“河”、“飞机”等。进一步地，可以基于目标识别算法识别出视频数据中包含的若干个图像实体。

由于关键信息为转写文本中的主要信息，转写文本必定包含关键信息中的各个关键词，因此，可以对转写文本和/或关键信息进行命名实体识别，得到若干个命名实体，其中，命名实体可以为具象事物对应的名称。进一步地，可以基于词性标注，抽取出转写文本和/或关键信息中的若干个名词，作为若干个命名实体。

此处，当应用转写文本生成命名实体时，转写文本包含的信息更加完整，进而能够更加精细全面地提取出关键信息中涉及的命名实体；当应用关键信息生成命名实体时，关键信息的篇幅远小于转写文本，进而能够提高命名实体的提取效率。

在此基础上，基于若干个图像实体和若干个命名实体之间的关联性，确定出现在视频数据中的命名实体对应的图像实体的位置，进而确定关键信息在视频数据中的关联位置。

基于上述任一实施例，步骤330具体包括：

基于每一图像实体的文本编码向量与每一命名实体的文本编码向量之间的相似度，从若干个图像实体中选取关键信息的关联图像实体；

基于关联图像实体在视频数据中的位置，确定关键信息在视频数据中的关联位置。

具体地，在得到若干个图像实体和若干个命名实体之后，确定每一图像实体的文本编码向量，以及每一命名实体的文本编码向量，其中，图像实体的文本编码向量可以为图像实体的语义信息的向量表示，命名实体的文本编码向量可以为命名实体的语义信息的向量表示。

随即，计算每一图像实体的文本编码向量和每一命名实体的文本编码向量之间的相似度，此处，相似度可以为余弦相似度、欧氏距离或皮尔逊相关系数，本发明实施例对比不作具体限定。

若计算得到的任一图像实体的相似度大于相似度阈值，表示关键信息中存在对应该图像实体的命名实体，即该图像实体与一个关键词对应，则将该图像实体作为关键信息的关联图像实体，其中关联图像实体可以为与关键信息中关键词对应的图像实体。对计算得到的每一图像实体的相似度进行判断，从若干个图像实体中选取出所有关联图像实体。

假设一个关联图像实体对应一个关键词，基于关联图像实体在视频数据中位置，可以确定关键信息中各个关键词对应的对象的位置，进而确定关键信息在视频数据中的关联位置，此处，关联位置可以包括关键信息中的各个关键词在视频数据中对应的位置。

基于上述任一实施例，图4为本发明实施例提供的关键信息的整合方法的流程示意图，如图4所示，该方法包括：

步骤410，对音频数据和/或转写文本进行情绪识别，得到关键信息的情绪识别结果；

步骤420，基于关键信息的情绪识别结果，确定关键信息的展示方式；

步骤430，基于展示方式将关键信息整合到视频数据中的关联位置处。

具体地，在不同情绪状态下，说话人的音频数据中语速、语调和音量等存在显著的差别。例如，说话人在高兴时，往往语调较高；在生气时，往往语速较快，且音量较大。音频数据对应的转写文本的语义信息也可以反映说话人的情绪状态，例如当转写文本中出现“开心”、或“快乐”等词语时，表示说话人的情绪状态为高兴；当转写文本中出现“难过”或“痛苦”等词汇时，表示说话人的情绪状态为悲伤。

因此，为丰富关键信息在视频数据中的展示方式，基于音频数据和转写文本中的任意一种或两种的组合，进行情绪识别，得到关键信息的情绪识别结果。此处，当结合音频数据和转写文本进行情绪识别时，可以对音频数据的语音特征和转写文本的文本特征进行特征融合，并对融合后的特征进行情绪识别，例如，可以将音频数据的语音特征和转写文本的文本特征直接相加，或者将音频数据的语音特征和转写文本的文本特征进行特征拼接。

在得到关键信息的情绪识别结果之后，可以基于关键信息的情绪识别结果，确定关键信息在视频数据中的展示方式，并基于展示方式将关键信息整合在视频数据中的关联位置处。其中，关键信息的展示方式可以包括关键信息中各个文字的字体、颜色、大小等属性，以及关键信息在视频数据中出现和/或退出的方式，例如，当关键信息的情绪识别结果为高兴时，关键信息展示在视频数据中各个文字的颜色较鲜艳、字体较活泼，关键信息可以以弹跳的方式出现。

基于关键信息的情绪识别结果确定关键信息的展示方式，既可以丰富关键信息的展示方式，也可以迅速地吸引用户的注意力，便于用户快速、准确地获取关键信息的内容，提高了信息传达的效率以及信息传达的准确性。

此外，还可以基于关键信息的情绪识别结果，以及预先设定的情绪识别结果和表情符号之间的映射关系，将该情绪识别结果对应的表情符号添加至关键信息中，并将包含表情符号的关键信息进行展示。

本发明实施例提供的方法，对音频数据和/或转写文本进行情绪识别，得到关键信息的情绪识别结果，并基于关键信息的情绪识别结果，确定关键信息的展示方式，提高了关键信息的展示方式的丰富性，进而提高了信息传达的效率以及信息传达的准确性。

基于上述任一实施例，步骤410具体包括：

基于音频数据的噪声水平，确定音频数据的语音特征和转写文本的文本特征分别对应的权重；

基于语音特征和文本特征分别对应的权重，对语音特征和文本特征进行加权融合，并基于融合后的特征，确定关键信息的情绪识别结果。

具体地，可以预先评估音频数据的噪声水平，并根据噪声水平确定音频数据的语音特征和转写文本的文本特征进行加权融合时的权重大小。在确定加权融合的权重之后，对语音特征和文本特征进行加权融合，并对融合后的特征进行情绪识别，得到关键信息的情绪识别结果。其中，音频数据的噪声水平用于反映该音频数据中包含的环境噪声的大小，音频数据的噪声水平越高，表明环境噪声对音频数据的干扰越大，音频数据的质量越低，音频数据所反映的情绪的可信度越低。此处，噪声水平具体可以表示为信噪比。

加权融合的权重可以为语音特征的权重，也可以为文本特征的权重。例如，语音片段的噪声水平越高，则加权融合时语音特征的权重越小，文本特征的权重越大。

本发明实施例提供的方法，基于音频数据的噪声水平，确定音频数据的语音特征和转写文本的文本特征分别对应的权重，并基于语音特征和文本特征分别对应的权重，对语音特征和文本特征进行加权融合，保证了在不同的噪声环境下情绪识别结果的稳定性。

基于上述任一实施例，步骤120之后还包括：

基于转写文本和/或关键信息，确定关键信息的扩展信息，并将扩展信息整合到视频数据中。

具体地，为更好地辅助用户对关键信息的理解，在得到转写文本或关键信息之后，可以基于转写文本和关键信息中的任意一种或两种的组合，确定关键信息的扩展信息。其中，关键信息的扩展信息可以为与关键信息相关的其他信息，关键信息的扩展信息可以包括关键信息中专有名词的释义、关键信息对应的背景知识或与关键信息相关的延伸知识等。

在得到关键信息的扩展信息之后，可以将关键信息的扩展信息整合到视频数据中，此处，可以将关键信息的扩展信息展示在关键信息的周围，也可以将关键信息的扩展信息展示在不遮挡视频中主要内容的其他区域，还可以以不同的展示方式对关键信息及其扩展信息进行区分，例如将关键信息和扩展信息以不同的字体和/或颜色进行展示，以提示用户两种信息的区别。

基于上述任一实施例，本发明又一实施例提供了一种录音笔，用于执行上述任一实施例提供的录音转写方法。该录音笔的硬件包括：全向麦克风、定向麦克风、摄像头、WIFI模块、4G模块、处理器、LCD屏、存储模块、播放编辑模块、电源管理模块和充电模块。

其中，终端拾音由全向麦克风和定向麦克风两部分分别录音，经算法处理后输出2路音频数据流：一路语音数据流用于识别转写；另一路是高保真录音，用于提升录音听感。两部分录音在保证转写效率和准确率的同时，又保证了人耳的录音听感，还原最真实高保真现场声音。

定向麦克风ECM(Electret Condenser Micphone，驻极体电容麦克风)体积较大，直径达到10mm，其录音音质听感及录音保真度远高于硅麦，加上采用高采样率高精度，例如≥96KHZ、24bit，进行拾音采集，收音距离可达到15米以上，能够提供高保真的录音存储数据，还原更真实更清晰的录音现场。图5为本发明实施例提供的录音笔的结构示意图，如图5所示，摄像头510和两个定向麦克风520均置于产品顶部，摄像头510放置在两个定向麦克风520之间，全向麦克风530置于录音笔的两侧，以最优化结构空间的利用。

定向麦克风左右两侧的侧壁需要尽可能的露出，保证收音的出孔率，并且内侧的空间完全避让，以进一步保证出孔率。定向麦克风之间放置摄像头，可以节省空间，且让拍照更顺畅，同时也增加了结构强度，防止变形。

音频编码将麦克风模拟音频(全向麦克风和定向麦克风录制的音频)转化为数字音频，同时将扬声器播放的模拟音频转化为数字信号作为回声消除参考信号，再由I2S/TDM、I2C等数字接口将所有数字音频数据传至处理器。为保证音频数据的同步性和及时性，每一路模拟音频均配置一路独立的ADC(Analog to Digital Converter，模数转换器)。

摄像头用于进行视频的拍摄，录音笔为视频拍摄提供了多种场景模式，例如近距离、远距离、自然场景、办公场景等，针对不同适应性调整拍摄模式，以实现不同场景的高清视频拍摄。

处理器接收全向麦克风和定向麦克风录制的音频数据后，进行全向麦克风、语音增强等语音算法运算、视频画质优化算法、数据调度传输、外设协同逻辑控制及系统应用的交互管理。另外，处理器含有足够运算力，可以实现本地的音视频处理。该处理器支持LTE通信，同时支持蓝牙、WI-FI无线传输，满足GPS定位功能。LTE或者Wi-Fi将全向麦克风的4路原始录音数据流、定向麦克风的录音数据流及降噪处理后的识别转写录音数据流和听感录音数据流全部无缝实时或定时传输到云端和无线设备上，用于云端识别、转写、编辑、分享、导出和存档。

处理器在接收摄像头拍摄的视频数据后，可以基于同步采集的音频数据，将音频数据的转写文本以字幕的形式整合到视频数据中。处理器首先将音频数据单独拆分出来，可以经过WIFI模块或者4G模块上传至云端服务器，进行语音转写，得到转写文本并将其下发到设备端，也可以基于录音笔内置的离线转写模块进行离线语音转写，此种方式安全性更高，且可以适用于网络条件不好或没有网络的应用场景。

在得到转写文本之后，处理器按时间信息标签将转写文本整合到视频数据中，生成实时字幕。同时，处理器具备编解码的能力，可以对视频数据、音频数据和字幕进行编解码处理，生成视频流。用户还可以对视频和字幕可以查看，编辑，分享，导出等操作，极大的提升了视频编辑的效率。

生成字幕之后，用户在播放编辑模块可以对字幕进行查看和编辑，并通过处理器可以对字幕内容进行编辑、优化、美化等，并调整字幕的位置、大小、字体、颜色、效果等，按时间标签维度与视频保持同步。

处理器主要的功能在于将转写文本中的关键信息整合到视频数据中的关联位置处，以本地音视频处理为例，处理器接收到音频数据和视频数据后，对音频数据进行语音识别，得到音频数据的转写文本，并提取转写文本中的关键信息。然后，基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。

LCD屏采用HD 1080*720分辨率，满足录音转写内容和视频播放。同时，LCD屏还可作为交互的操控界面以及设备状态的显示界面，让录音设备更加智能。拍摄、场景选择、字幕显示、编辑优化等操作都可通过屏幕进行交互，使交互更加便捷。

存储模块用于存储系统代码、音频数据、视频数据、转写文本、关键信息和个人设置信息等，还可以通过TYPE-C接口或无线模块将音频数据导出或上传至云空间。

电源管理模块和充电模块构成了系统的供电管理部分，电源管理模块在拍摄过程中，提供不同功率输出，保证了功能的正常运转，同时也可以通过模式切换，最大限度的保证续航。

由于安全是录音系统的重要保障，因此录音笔提供密码设定功能和安全认证功能。同时，开机状态按录音键，可以一键录音。同时，还可对文件和文件夹进行加密，实现文件的安全保护。

录音笔还具备SIM托，可以插入4G卡开启网络，进行实时在线转写，音频数据上传。录音笔在录音时，还可以将音频数据同步上传到云空间，进行转写保存。其他终端可以同步听到或看到音频数据及其对应的转写文本，实现了实时同步、实时分享。

录音笔还包括智能文件管理系统，通过对文件增加多维度的标签，如时间、地点、标签、场景或名称等，通过语音或文字搜索等方式搜索任意的标签，都可以推荐相关的文件。

此外，录音笔还具有拍照和图片文字识别的功能，拍照后，录音笔可以生成并导出照片中的文字，用户还可以对导出的文字进行编辑。对于包含表格的照片。还可以还原成带格式的文档。在录音的同时，可以开启录音笔的拍照功能，结合语音转写和图片文字识别，使得转写更准确。

基于上述任一实施例，图6为本发明实施例提供的音视频处理装置的结构示意图，如图6所示，该装置包括：

采集单元610，用于确定同步采集的音频数据和视频数据；

关键信息确定单元620，用于对所述音频数据进行语音识别，得到转写文本，并提取所述转写文本中的关键信息；

关键信息整合单元630，用于基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，并将所述关键信息整合到所述视频数据中的关联位置处。

本发明实施例提供的装置，通过提取音频数据的转写文本中的关键信息，并基于关键信息在视频数据中的关联位置，将关键信息整合到视频数据中的关联位置处，实现了视频数据中信息的自动添加，提高了信息传达的效率、信息传达的准确性以及信息传达的丰富性。

基于上述任一实施例，所述关键信息整合单元630具体用于：

确定所述音频数据对应的说话人；

基于上述任一实施例，所述关键信息整合单元630具体包括：

图像实体识别模块，用于对所述视频数据进行图像实体识别，得到所述视频数据中包含的若干个图像实体；

命名实体识别模块，用于对所述转写文本和/或所述关键信息进行命名实体识别，得到若干个命名实体；

关联位置确定模块，用于基于所述若干个图像实体和所述若干个命名实体之间的关联性，确定所述关键信息在所述视频数据中的关联位置。

基于上述任一实施例，该装置中，所述关联位置确定模块具体用于：

基于上述任一实施例，该装置中，所述关键信息整合单元630具体用于：

情绪识别模块，用于对所述音频数据和/或所述转写文本进行情绪识别，得到所述关键信息的情绪识别结果；

展示方式确定模块，用于基于所述关键信息的情绪识别结果，确定所述关键信息的展示方式；

关键信息整合模块，用于基于所述展示方式将所述关键信息整合到所述视频数据中的关联位置处。

基于上述任一实施例，所述情绪识别模块具体用于：

基于上述任一实施例，该装置还包括：

扩展单元，用于基于所述转写文本和/或所述关键信息，确定所述关键信息的扩展信息，并将所述扩展信息整合到所述视频数据中。

图7示例了一种录音笔的实体结构示意图，如图7所示，该录音笔可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行音视频处理方法，该方法包括：确定同步采集的音频数据和视频数据；对音频数据进行语音识别，得到转写文本，并提取转写文本中的关键信息；基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的音视频处理方法，该方法包括：确定同步采集的音频数据和视频数据；对音频数据进行语音识别，得到转写文本，并提取转写文本中的关键信息；基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的音视频处理方法，该方法包括：确定同步采集的音频数据和视频数据；对音频数据进行语音识别，得到转写文本，并提取转写文本中的关键信息；基于音频数据、转写文本和关键信息中的至少一种，确定关键信息在视频数据中的关联位置，并将关键信息整合到视频数据中的关联位置处。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音视频处理方法，其特征在于，包括：

确定同步采集的音频数据和视频数据；

2.根据权利要求1所述的音视频处理方法，其特征在于，所述基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，包括：

确定所述音频数据对应的说话人；

3.根据权利要求1所述的音视频处理方法，其特征在于，所述基于所述音频数据、所述转写文本和所述关键信息中的至少一种，确定所述关键信息在所述视频数据中的关联位置，包括：

4.根据权利要求3所述的音视频处理方法，其特征在于，所述基于所述若干个图像实体和所述若干个命名实体之间的关联性，确定所述关键信息在所述视频数据中的关联位置，包括：

5.根据权利要求1-4中任一项所述的音视频处理方法，其特征在于，所述将所述关键信息整合到所述视频数据中的关联位置处，包括：

6.根据权利要求5所述的音视频处理方法，其特征在于，所述对所述音频数据和/或所述转写文本进行情绪识别，得到所述关键信息的情绪识别结果，包括：

7.根据权利要求1-4中任一项所述的音视频处理方法，其特征在于，所述提取所述转写文本中的关键信息，之后还包括：

8.一种音视频处理装置，其特征在于，包括：

采集单元，用于确定同步采集的音频数据和视频数据；

9.一种录音笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述音视频处理方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述音视频处理方法的步骤。