CN117812215A

CN117812215A - 结合声音信号的图像标记方法、终端装置及服务器

Info

Publication number: CN117812215A
Application number: CN202211175027.5A
Authority: CN
Inventors: 杜博仁; 方明峻; 张嘉仁; 曾凯盟; 杨朝光
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2024-04-02

Abstract

本发明提供一种结合声音信号的图像标记方法、终端装置及服务器。在方法中，显示第一图像。检测选择指令。将目标声音信号嵌入语音信号，以生成组合声音信号。传送组合声音信号。选择指令对应于第一图像中的目标区域，且选择指令是通过输入操作选择目标区域所生成的。目标声音信号对应于选择指令的目标区域，且语音信号是通过收音所得。由此，可让视频会议的所有参与者都可在分享画面中标记。

Description

结合声音信号的图像标记方法、终端装置及服务器

技术领域

本发明涉及一种信号处理技术，尤其是，还涉及一种结合声音信号的图像标记方法、终端装置及服务器。

背景技术

远程会议可让不同位置或空间中的多人进行对话，且会议相关设备、协议及应用程序也发展相当成熟。值得注意的是，在视频会议过程中，主讲人的计算机可分享/投影画面，以供其他参与者观看桌面、文件或特定应用程序。然而，根据目前市面上的视频会议软件所提供的设定，大家只能看到主讲人所投影的内容，但无法让其他使用者于主讲人的投影内容添加特别的提示。当其他使用者欲针对投影内容的特定部分进行说明时，还需要费力说明所针对的特定部分。

发明内容

本发明是针对一种结合声音信号的图像标记方法、终端装置及服务器，可通过声音信号夹带用于图像上的标记的指示，从而提升便利性。

根据本发明的实施例，结合声音信号的图像标记方法包括(但不仅限于)下列步骤：显示第一图像。检测选择指令。将目标声音信号嵌入语音信号，以生成组合声音信号。传送组合声音信号。选择指令对应于第一图像中的目标区域，且选择指令是通过输入操作选择目标区域所生成的。目标声音信号对应于选择指令的目标区域，且语音信号是通过收音所得。

根据本发明的实施例，终端装置包括(但不仅限于)显示器、通讯收发器、输入设备、存储器及处理器。存储器用以存储程序代码。处理器耦接显示器、通讯收发器、输入设备及存储器。处理器经配置用以加载程序代码以执行下列步骤：显示第一图像。检测选择指令。将目标声音信号嵌入语音信号，以生成组合声音信号。传送组合声音信号。选择指令对应于第一图像中的目标区域，且选择指令是通过输入操作选择目标区域所生成的。目标声音信号对应于选择指令的目标区域，且语音信号是通过收音所得。

根据本发明的实施例，服务器包括(但不仅限于)通讯收发器、存储器及处理器。存储器用以存储程序代码。处理器耦接通讯收发器及存储器。处理器经配置用以加载程序代码以执行下列步骤：接收组合声音信号。将组合声音信号区分成语音信号及目标声音信号。确定目标声音信号对应的目标区域。在一第二图像中的目标区域生成标记，以生成第一图像信号。传送第一图像信号。语音信号是通过收音所得。第一图像信号包括具有标记的第二图像。

基于上述，根据本发明实施例的结合声音信号的图像标记方法、终端装置及服务器，终端装置可将对应于图像中的目标区域的目标声音信号嵌入语音信号，且服务器可根据目标声音信号在图像中的目标区域加上标记。由此，可在符合视频软件的设定下，通过声音信号夹带图像标记的指示，从而提升便利性，进而改进视频会议的体验。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1是根据本发明一实施例的系统的组件方块图；

图2是根据本发明一实施例的终端装置的组件方块图；

图3是根据本发明一实施例的服务器的组件方块图；

图4是根据本发明一实施例的用于终端装置的结合声音信号的图像标记方法的流程图；

图5是根据本发明一实施例的视频软件的用户接口的示意图；

图6是根据本发明一实施例的区域分割的示意图；

图7是根据本发明一实施例的触发操作的指令生成的流程图；

图8是根据本发明一实施例的匹配、滤波及嵌入的流程图；

图9是根据本发明一实施例的取消操作的指令生成的流程图；

图10是根据本发明一实施例的用于服务器的结合声音信号的图像标记方法的流程图；

图11是根据本发明一实施例的滤波、匹配及标记的流程图；

图12是根据本发明一实施例的标记生成的示意图；

图13是根据本发明一实施例的标记取消的示意图。

附图标号说明

1:系统；

10:终端装置；

11:显示器；

12:通讯收发器；

13:输入设备；

14:存储器；

15:处理器；

16:麦克风；

30:服务器；

33:通讯收发器；

34:存储器；

35:处理器；

50:网络；

S410～S440、S710～S730、S810～S840、S910～S930、S101～S105、S111～S116:步骤；

SC:分享画面；

UI:用户接口；

C1、C2:游标；

A:区域；

C_A:选择指令；

目标声音信号；

S_mic、S_tx:原始声音信号；

语音信号；

x₁、x₂、…、x_N:组合声音信号；

x:合成语音信号；

y:第一图像信号；

M1、M2:标记。

具体实施方式

现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在附图和描述中用来表示相同或相似部分。

图1是根据本发明一实施例的系统1的组件方块图。请参照图1，系统1包括(但不仅限于)一台或更多台终端装置10及服务器30。

终端装置10可以是移动电话、网络电话、平板计算机、桌面计算机、笔记本电脑、智能助理或车载系统。

图2是根据本发明一实施例的终端装置的组件方块图。请参照图2，终端装置10包括(但不仅限于)显示器11、通讯收发器12、输入设备13、存储器14及处理器15。

显示器11可以是液晶显示器(Liquid-Crystal Display，LCD)、(Light-EmittingDiode，LED)显示器、有机发光二极管(Organic Light-Emitting Diode，OLED)、量子点显示器(Quantum dot display)或其他类型显示器。在一实施例中，显示器11用以显示图像。例如，用户接口、文件、图片或影片的图像。

通讯收发器12可以是支持诸如第四代(4G)、第五代(5G)或其他世代行动通讯、Wi-Fi、蓝芽、红外线、无线射频识别(Radio Frequency Identification，RFID)、以太网络(Ethernet)、光纤网络等通讯收发器、序列通讯接口(例如RS-232)，也可以是通用串行总线(Universal Serial Bus，USB)、Thunderbolt或其他通讯传输接口。在本发明实施例中，通讯收发器12用以与其他电子装置(例如，服务器30或其他终端装置10)经由网络50(例如，有线网络、无线网络或专用网)传送或接收数据。

输入设备13可以是鼠标、键盘、触控面板、轨迹球、按钮或开关。在一实施例中，输入设备13用以接收输入操作(例如，滑动、按压、触碰或扳动操作)，并据以生成对应指令。须说明的是，在输入设备13的复数组件上的输入操作可能生成不同指令。例如，按压鼠标左键可生成选择指令。又例如，点击鼠标右键两次可生成取消指令。而指令的内容及功能将待后续实施例说明。

存储器14可以是任何型态的固定或可移动随机存取内存(Radom Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(flash memory)、传统硬盘(Hard DiskDrive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似组件。在一实施例中，存储器14用以存储程序代码、软件模块、组态配置、数据(例如，图像、指令、声音信号等)或档案，并待后文详述其实施例。

处理器15耦接显示器11、通讯收发器12、输入设备13及存储器14。处理器15可以是中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processingunit，GPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可程序化控制器、现场可程序化逻辑闸阵列(Field Programmable Gate Array，FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit，ASIC)、神经网络加速器或其他类似组件或上述组件的组合。在一实施例中，处理器15用以执行终端装置10的所有或部份作业，且可加载并执行存储器14所存储的各程序代码、软件模块、档案及数据。在一些实施例中，处理器15的功能可通过软件或芯片实现。

在一实施例中，终端装置10还包括麦克风16。麦克风16可以是动圈式(dynamic)、电容式(Condenser)、或驻极体电容(Electret Condenser)等类型的麦克风，麦克风16也可以是其他可接收声波(例如，人声、环境声、机器运作声等)而转换为声音信号的电子组件、模拟至数字转换器、滤波器、及音频处理器的组合。在一实施例中，麦克风16用以对发话者收音/录音，以取得语音信号。在一些实施例中，这语音信号可能包括发话者的声音、扬声器所发出的声音和/或其他环境音。

图3是根据本发明一实施例的服务器30的组件方块图。请参照图3，服务器30包括(但不仅限于)通讯收发器33、存储器34及处理器35。

通讯收发器33、存储器34及处理器35的实施方式及功能可分别参照通讯收发器13、存储器14及处理器15的说明，于这不再赘述。在一实施例中，处理器35用以执行服务器30的所有或部份作业，且可加载并执行存储器34所存储的各程序代码、软件模块、档案及数据。

下文中，将搭配系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整，且并不仅限于此。

图4是根据本发明一实施例的用于终端装置10的结合声音信号的图像标记方法的流程图。请参照图4，处理器15通过显示器11显示第一图像(步骤S410)。在一实施例中，第一图像可以是视频软件(例如，Zoom、Webex、Teams或Meet)的用户接口。例如，图5是根据本发明一实施例的视频软件的用户接口UI的示意图。请参照图5，根据不同设计需求用户接口UI可呈现参与者的图示或实时图像、以及分享画面SC。分享画面SC的内容例如是投影片、文件、影片或图片。在另一实施例中，第一图像也可能是其他类型软件的用户接口、串流图像、影片、图片或文件的画面。

处理器15检测选择指令(步骤S420)。具体而言，选择指令对应于第一图像中的目标区域，且选择指令是通过输入设备13所接收的输入操作选择目标区域所生成的。换句而言，第一图像包括一个或更多个区域，且输入操作是用于选择第一图像的那些区域中的目标区域。

举例而言，图6是根据本发明一实施例的区域分割的示意图。请参照图6，图5的用户接口UI中的分享画面SC被分割成多个区域A。相邻区域A可能不重叠或有部分重叠。区域A上的“1”、“2”、…、“16”代表这区域的标识符。假设其他使用者(例如，作为次要的终端装置10)的光标C1位于标识符“1”的区域A。而主讲人(例如，作为主要的终端装置10)的光标C2位于标识符“6”的区域A。这些区域A包括目标区域。当次要的终端装置10还接收到鼠标点击两次的输入操作时，标识符“1”的区域A为目标区域。须说明的是，图6所示区域的分割方式及其标识符的命名方式仅是作为范例说明，且应用者可根据实际需求而变更分割方式及标识符。例如，标识符可以是二维坐标系的坐标。

图7是根据本发明一实施例的触发操作的指令生成的流程图。请参照图7，处理器15可比较输入操作与触发操作，以生成第一比较结果(步骤S710)。触发操作可以是一个或更多个预设的操作。例如，点击鼠标左键一次、在第一图像中的某一个区域上的触碰或特定按钮。又例如，键盘的16个按键分别对应于图6的16个区域，且触发操作可以是这16个按键中的任一个被按压。然而，触发操作的定义还可能有很多种变化，且应用者可根据实际需求而自行变更，本发明实施例不加以限制。处理器15确定输入操作是否为预设的触发操作。因此，第一比较结果包括输入操作符合/相同于触发操作、以及输入操作不符合/不相同于触发操作。

反应于输入操作符合/相同于触发操作，处理器15可确定输入操作所选择的目标区域(步骤S720)。例如，处理器15确定光标所处于区域、输入设备13的特定组件(例如，按键、按钮或感测组件)所对应的区域。以图6为例，其他用户的光标C1位于标识符“1”的区域A，因此这区域A为目标区域。

处理器15可根据目标区域生成选择指令(步骤S730)。由于已确认目标区域位于第一图像中的位置，因此选择指令是关于选择目标区域的指令，并据以检测到选择指令。而反应于输入操作不符合/不相同于触发操作，则禁能(disable)/停止/不确定目标区域和/或生成选择指令。

请参照图4，处理器15将目标声音信号嵌入语音信号，以生成组合声音信号(步骤S430)。具体而言，目标声音信号对应于选择指令的目标区域，且语音信号是通过收音所得。

图8是根据本发明一实施例的匹配、滤波及嵌入的流程图。请参照图8，处理器15可根据选择指令C_A自一个或更多个样本声音信号中确定与目标区域的标识符匹配的目标声音信号(步骤S810)。一个或更多个区域分别对应于一个或更多个标识符。例如，图6所示16个区域A分别对应于标识符“1”～“16”。一个或更多的标识符也分别对应于一个或更多个样本声音信号。样本声音信号可以是任何自定义的声音信号。例如，特定频带、编码、震幅、波形或旋律的声音信号。不同标识符对应于不同样本声音信号。也就是，区域与样本声音信号是一对一的对应关系。然而，在其他实施例中，区域与样本声音信号也可能是多对一或一对多的对应关系。以图6为例，处理器15可选择标识符“1”的样本声音信号作为目标声音信号。在一些实施例中，处理器15可直接根据区域与样本声音信号之间的对应关系，找到目标区域所匹配的目标声音信号。

另一方面，处理器15可通过麦克风16收音或接收来自其他录音设备的原始声音信号S_mic。也就是，原始声音信号S_mic是对声源(例如，使用者、动物或环境)收音/录音所生成的声音信号。处理器15可对原始声音信号S_mic进行回音消除、噪声抑制、功率增益和/或声音信号处理(步骤S820，可选地)，以生成原始声音信号S_tx。处理器15可将原始声音信号S_tx通过滤波器(步骤S830)，以生成语音信号这滤波器用于滤除第一频带以外的声音信号，且语音信号/>属于第一频带。例如，第一频带是5kHz以下的频率或2k～5k之间的频率。而目标声音信号/>属于高于第一频带的第二频带。例如，第二频带是5kHz至8kHz之间的频率或6kHz以上的频率。

接着，处理器15可将目标声音信号嵌入语音信号/>(步骤S840)。例如，处理器15可在时域或频域上直接迭加目标声音信号/>及语音信号/>从而输出组合声音信号x1。

请参照图4，处理器15通过通讯收发器12经由网络50传送组合声音信号(步骤S440)。具体而言，相较于现有技术直接传送语音信号，本发明实施例的组合声音信号中的目标声音信号可对应到第一图像中的目标区域，进而指示这目标区域受选择或需要被关注/强调/标记。此外，针对未有检测到选择指令的情况，终端装置10也可能仅直接传送语音信号。

图像标记作业可通过服务器30处理，并待后续实施例详述。接着，处理器15可接收来自服务器30或其他装置的图像信号。处理器15可通过显示器11显示图像信号中的第二图像。第二图像是分享画面(例如，视频图像、串流图像、影片、图片或文件的画面)。而这第二图像中的目标区域具有标记。标记可以是任何图案、形状、颜色、符号、透明度和/或纹理。例如，星星、爱心或方块。关于图像信号的详细说明也待后续实施例介绍。

除了指示选择或需要关注/强调/标记的目标区域，还可以进一步取消选择/关注/强调/标记。图9是根据本发明一实施例的取消操作的指令生成的流程图。请参照图9，处理器15可比较输入操作与取消操作，以生成第二比较结果(步骤S910)。相似地，取消操作可以是一个或更多个预设的操作。例如，点击右键鼠标一次、在具有标记的第二图像中的目标区域上的触碰或特定按钮。又例如，键盘的16个按键分别对应于图6的16个区域，且取消操作可以是这16个按键中的任一个被按压两次。然而，取消操作的定义还可能有很多种变化，且应用者可根据实际需求而自行变更，本发明实施例不加以限制。处理器15确定输入操作是否为预设的取消操作。因此，第二比较结果包括输入操作符合/相同于触发操作、以及输入操作不符合/不相同于触发操作。

反应于输入操作符合/相同于取消操作，处理器15可确定输入操作所选择的目标区域(步骤S920)。例如，处理器15确定光标所处于区域、输入设备13的特定组件(例如，按键、按钮或感测组件)所对应的区域。以图6为例，其他用户的光标C1位于标识符“1”的区域A，因此这区域A为目标区域。

处理器15可根据目标区域生成选择指令(步骤S930)。由于已确认目标区域位于第二图像中的位置，因此选择指令是生成关于选择目标区域的指令，并据以检测到选择指令。此外，与图7关于触发操作的实施例不同处在于，选择指令还附加取消指令，且这取消指令用于取消(具有标记的)第二图像中的目标区域的标记。而反应于输入操作不符合/不相同于取消操作，则禁能/停止/不确定目标区域和/或生成选择指令。

须说明的是，本发明实施例不限于未分享画面的其他使用者的(次要的)终端装置10传送标记指示的组合声音信号，分享画面的主讲人的(主要的)终端装置10也可视需求而传送标记指示的组合声音信号。

图10是根据本发明一实施例的用于服务器30的结合声音信号的图像标记方法的流程图。请参照图10，处理器35通过通讯收发器33经由网络50接收组合声音信号(步骤S101)。组合声音信号即是前述终端装置10经由网络50所传送的声音信号。

处理器35将组合声音信号区分成语音信号及目标声音信号(步骤S102)。由图4的实施例可知，组合声音信号是由对语音信号嵌入目标声音信号所生成的。因此，处理器35将语音信号及目标声音信号自组合声音信号中分离，以提供后续不同处理。

图11是根据本发明一实施例的滤波、匹配及标记的流程图。请参照图11，步骤S111所接收的组合声音信号x₁、x₂、…、x_N(N为正整数)分别代表不同终端装置10经由网络50所传送的声音信号。以组合声音信号x₁为例，处理器35可将组合声音信号x₁通过第一滤波器(步骤S112)，以生成语音信号(例如，图8的语音信号/>)。同样地，第一滤波器用于滤除第一频带以外的声音信号，且语音信号属于第一频带。例如，第一频带是5kHz以下的频率或2k～5k之间的频率。在一实施例中，处理器35可对不同组合声音信号x₁、x₂、…、x_N所分离/区别出的语音信号/>进行诸如合成、迭加、回音消除、噪声抑制和/或其他声音信号处理(步骤S113)，以生成合成语音信号x。

另一方面，目标声音信号属于高于第一频带的第二频带。例如，第二频带是5kHz至8kHz之间的频率或6kHz以上的频率。以组合声音信号x₁为例，处理器35可将组合声音信号x₁通过第二滤波器(步骤S114)，以生成目标声音信号/>(例如，图8的语音信号/>)。第二滤波器用于滤除第二频带以外的声音信号，因此第二滤波器的输出可保留目标声音信号/>

请参照图10，处理器35确定目标声音信号对应的目标区域(步骤S103)。具体而言，如图4的实施例所述，各样本声音信号对应于第一图像中一个或更多个区域。请参照图11，处理器35可确定一个或更多个样本声音信号中的第一样本声音信号匹配目标声音信号，并根据这第一样本声音信号的标识符确定目标区域(步骤S115)。例如，处理器35可利用交叉相关性(cross correlation)或其他比较声音信号的技术确定目标声音信号与任一个样本声音信号之间的相关性，并将相关性或相似性最高的样本声音信号作为第一样本声音信号。也就是，相关性/相似性最高的第一样本声音信号匹配于目标声音信号。

此外，一个或更多个区域分别对应于一个或更多个标识符。例如，图6所示16个区域A分别对应于标识符“1”～“16”。一个或更多的标识符也分别对应于一个或更多个样本声音信号。当第二图像是视频软件的用户接口时(例如，图5所示的用户接口UI)，这用户接口中的分享画面也可被分割成多个区域(如图6所示分享画面SC被分割成16个区域)。第二图像即是前述终端装置10的实施例所介绍的终端装置10所接收到的图像信号中的图像。也就是，第二图像后续即将通过服务器30生成和/或传送的图像信号中的图像，且第二图像也是所欲分享的画面。而若确认目标声音信号为一个或更多个样本声音信号中的哪一个，根据样本声音信号与区域的对应关系，处理器35也能得知目标区域为一个或更多个区域中的哪一个。举例而言，图12是根据本发明一实施例的标记生成的示意图。请参照图12，假设目标区域是标识符“1”的区域。

请参照图10，处理器35在第二图像中的目标区域生成标记，以生成第一图像信号(步骤S104)。第二图像是提供给参与相同视频会议的终端装置10的图像。处理器35可在第二图像中的目标区域绘制、添加或贴上标记。标记的变化于前述实施例说明，于这不再赘述。第一图像信号是一张第二图像或更多个第二图像的集合。例如，连续讯框(frame)的第二图像。

请参照图11，除了组合声音信号x₁所得出的目标区域。组合声音信号x₂、…、x_N也可能得出相同或不同的目标区域。处理器35可根据这些目标区域在第二图像中生成标记(步骤S116)，以输出第一图像信号y。以图12为例，标识符“1”及“3”都是目标区域。假设是不同终端装置10所指示的目标区域，因此处理器35分别加上星型的标记M1及心型图案的标记M2。

处理器35通过通讯收发器33经由网络50传送第一图像信号及语音信号(步骤S105)。同样地，当终端装置10接收来自服务器30的第一图像信号。处理器15可通过显示器11显示第一图像信号中的第二图像。此时，第二图像中的一个或更多个区域上有标记。如图12所示，两个区域A有标记M1及M2。此外，语音信号可能如图11所示合成多个终端装置10的合成语音信号x。

除了指示选择或需要关注/强调/标记的目标区域，还可以进一步取消选择/关注/强调/标记。在一实施例中，处理器35可在第二图像中的目标区域取消标记，以生成第二图像信号。也就是，不同于第一图像信号，第二图像信号未具有标记的第二图像。处理器35可通过移除标记或贴上这区域的原始图像来取消标记。而由于终端装置10所生成的选择指令还附加取消指令，因此选择指令也对应于特定的样本声音信号(作为目标声音信号)。这目标声音信号不仅指示目标区域，还进一步指示取消这目标区域上的标记。接着，处理器35可通过通讯收发器33传送第二图像信号，使特定终端装置10的标记自第二图像中移除。举例而言，图13是根据本发明一实施例的标记取消的示意图。请参照图12及图13，相较于图12，标记M1被取消，因此图13没有标记M1。

综上所述，在本发明实施例的结合声音信号的图像标记方法、终端装置及服务器中，终端设备可通过组合声音信号指示图像中的目标区域需要标记，且服务器可根据组合声音信号在图像中生成标记。由此，可所有参与者都在分享画面上标记，从而提升视频会议的便利性，进而助于多人会议的体验。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种结合声音信号的图像标记方法，包括：

显示第一图像；

检测选择指令，其中所述选择指令对应于所述第一图像中的目标区域，且所述选择指令是通过输入操作选择所述目标区域所生成的；

将目标声音信号嵌入语音信号，以生成组合声音信号，其中所述目标声音信号对应于所述选择指令的所述目标区域，且所述语音信号是通过收音所得；以及

传送所述组合声音信号。

2.根据权利要求1所述的结合声音信号的图像标记方法，其特征在于，将样本声音信号嵌入所述语音信号的步骤包括：

将原始声音信号通过滤波器，以生成所述语音信号，其中所述原始声音信号是收音所生成的，所述滤波器用于滤除第一频带以外的声音信号，所述语音信号属于所述第一频带，且所述目标声音信号属于高于所述第一频带的第二频带。

3.根据权利要求1所述的结合声音信号的图像标记方法，其特征在于，所述第一图像是视频软件的用户接口，所述用户接口中的分享画面被分割成多个区域，所述区域包括所述目标区域，所述区域分别对应于多个标识符，所述标识符分别对应于多个样本声音信号，且将所述目标声音信号嵌入所述语音信号的步骤包括：

自所述样本声音信号中确定与所述目标区域的标识符匹配的所述目标声音信号。

4.根据权利要求1所述的结合声音信号的图像标记方法，其特征在于，检测所述选择指令的步骤包括：

比较所述输入操作与触发操作，以生成第一比较结果；

反应于所述第一比较结果为所述输入操作符合所述触发操作，确定所述输入操作所选择的所述目标区域；以及

根据所述目标区域生成所述选择指令。

5.根据权利要求1所述的结合声音信号的图像标记方法，其特征在于，所述的结合声音信号的图像标记方法还包括：

接收图像信号；以及

显示所述图像信号中的第二图像，其中所述第二图像中的所述目标区域具有标记。

6.根据权利要求5所述的结合声音信号的图像标记方法，其特征在于，检测所述选择指令的步骤包括：

比较所述输入操作与取消操作，以生成第二比较结果；

反应于所述第二比较结果为所述输入操作符合所述取消操作，确定所述输入操作所选择的所述目标区域；以及

根据所述目标区域生成所述选择指令，其中所述选择指令还附加取消指令，且所述取消指令用于取消所述第二图像中的所述目标区域的所述标记。

7.根据权利要求1所述的结合声音信号的图像标记方法，其特征在于，所述的结合声音信号的图像标记方法还包括：

接收所述组合声音信号；

将所述组合声音信号区分成所述语音信号及所述目标声音信号，其中所述语音信号是通过收音所得；

确定所述目标声音信号对应的所述目标区域；

在第二图像中的所述目标区域生成标记，以生成第一图像信号，其中所述第一图像信号包括具有所述标记的所述第二图像；以及

传送所述第一图像信号及所述语音信号。

8.根据权利要求7所述的结合声音信号的图像标记方法，其特征在于，将所述组合声音信号区分成所述语音信号及所述目标声音信号的步骤包括：

将所述组合声音信号通过第一滤波器，以生成所述语音信号，其中所述第一滤波器用于滤除第一频带以外的声音信号，所述语音信号属于所述第一频带；以及

将所述组合声音信号通过第二滤波器，以生成所述目标声音信号，其中所述第二滤波器用于滤除第二频带以外的声音信号，所述目标声音信号属于所述第二频带，且所述第二频带高于所述第一频带。

9.根据权利要求7所述的结合声音信号的图像标记方法，其特征在于，所述第二图像是视频软件的用户接口，所述用户接口中的分享画面被分割成多个区域，所述区域包括所述目标区域，所述区域分别对应于多个标识符，所述标识符分别对应于多个样本声音信号，且确定所述目标声音信号对应的所述目标区域的步骤包括：

确定所述样本声音信号中的第一样本声音信号匹配所述目标声音信号；以及

根据所述第一样本声音信号的标识符确定所述目标区域。

10.根据权利要求7所述的结合声音信号的图像标记方法，其特征在于，所述的结合声音信号的图像标记方法还包括：

在所述第二图像中的所述目标区域取消所述标记，以生成第二图像信号，其中所述第二图像信号未具有所述标记的所述第二图像；以及

传送所述第二图像信号。

11.一种终端装置，其特征在于，所述终端装置包括：

显示器；

通讯收发器；

输入设备；

存储器，用以存储程序代码；以及

处理器，耦接所述显示器、所述通讯收发器、所述输入设备及所述存储器，经配置用以加载所述程序代码以执行：

通过所述显示器显示第一图像；

检测选择指令，其中所述选择指令对应于所述第一图像中的目标区域，且所述选择指令是通过所述输入设备所接收的输入操作选择所述目标区域所生成的；

通过所述通讯收发器传送所述组合声音信号。

12.根据权利要求11所述的终端装置，其特征在于，所述处理器还经配置用以：

13.根据权利要求11所述的终端装置，其特征在于，所述第一图像是视频软件的用户接口，所述用户接口中的分享画面被分割成多个区域，所述区域包括所述目标区域，所述区域分别对应于多个标识符，所述标识符分别对应于多个样本声音信号，且所述处理器还经配置用以：

14.根据权利要求11所述的终端装置，其特征在于，所述处理器还经配置用以：

比较所述输入操作与触发操作，以生成第一比较结果；

根据所述目标区域生成所述选择指令。

15.根据权利要求11所述的终端装置，其特征在于，所述处理器还经配置用以：

通过所述通讯收发器接收图像信号；以及

通过所述显示器显示所述图像信号中的第二图像，其中所述第二图像中的所述目标区域具有标记。

16.根据权利要求15所述的终端装置，其特征在于，所述处理器还经配置用以：

比较所述输入操作与取消操作，以生成第二比较结果；

17.一种服务器，其特征在于，所述服务器包括：

通讯收发器；

存储器，用以存储程序代码；以及

处理器，耦接所述通讯收发器及所述存储器，经配置用以加载所述程序代码以执行：

通过所述通讯收发器接收组合声音信号；

将所述组合声音信号区分成语音信号及目标声音信号，其中所述语音信号是通过收音所得；

确定所述目标声音信号对应的目标区域；

通过所述通讯收发器传送所述第一图像信号及所述语音信号。

18.根据权利要求17所述的服务器，其特征在于，所述处理器还经配置用以：

19.根据权利要求17所述的服务器，其特征在于，所述第二图像是视频软件的用户接口，所述用户接口中的分享画面被分割成多个区域，所述区域包括所述目标区域，所述区域分别对应于多个标识符，所述标识符分别对应于多个样本声音信号，且所述处理器还经配置用以：

根据所述第一样本声音信号的标识符确定所述目标区域。

20.根据权利要求17所述的服务器，其特征在于，所述处理器还经配置用以：

通过所述通讯收发器传送所述第二图像信号。