CN114467140A

CN114467140A - 基于语音来改变图像的系统

Info

Publication number: CN114467140A
Application number: CN202180005627.4A
Authority: CN
Inventors: 关根洁
Original assignee: Interactive Solutions Corp
Current assignee: Interactive Solutions Corp
Priority date: 2020-08-05
Filing date: 2021-02-12
Publication date: 2022-05-10
Also published as: WO2022030036A1; CA3150969C; JP6807621B1; US20230154469A1; US11568877B2; US20220335952A1; CA3150969A1; JP2022029864A

Abstract

本发明提供一种基于对话来实时改变共享图像的系统。基于语音来改变图像的系统(1)具有语音信息输入部(3)、语音分析部(5)和图像变化部(7)，其中，所述语音信息输入部(3)用于输入语音信息；所述语音分析部(5)用于分析由语音信息输入部(3)输入的语音信息；所述图像变化部(7)使用语音分析部(5)分析出的语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，来改变内容在表示内容的图像中的位置。

Description

基于语音来改变图像的系统

技术领域

本发明涉及一种基于语音来改变图像的系统。更具体地说，本发明涉及一种基于对话来实时改变共享图像(shared image)的系统。

背景技术

一般的网络会议系统使各终端显示讲话者准备的演示资料。并且，即使参加者进行有关该资料的发言，资料也不会发生变化。

在日本发明专利公开公报特开2020-089641号中记载了一种系统，其基于语音来进行指令操作。这样识别语音来进行各种操作的系统属于公知技术。然而，基于双向的对话来实时改变所显示的图像的系统则不为人们所知。

现有技术文献

专利文献

专利文献1：日本发明专利公开公报特开2020-089641号

发明内容

发明所要解决的技术问题

本发明的目的在于，提供一种例如基于对话来实时改变共享图像的系统。

用于解决技术问题的技术方案

本发明基本上基于以下发现：使用语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，来改变内容在表示内容的图像中的位置，据此能够基于对话来实时改变共享图像。

该系统1具有语音信息输入部3、语音分析部5和图像变化部7。

语音信息输入部3是用于输入语音信息的结构要素。

语音分析部5是用于分析由语音信息输入部3输入的语音信息的结构要素。图像变化部7是用于使用语音分析部5分析出的语音信息中所包含的与内容有关的信息和语音分析部5分析出的语音信息中所包含的与内容的变化有关的信息来改变表示内容的图像的位置的结构要素。

也可以为，该系统1的图像变化部7使改变位置后的内容的形状和颜色中的任一方或者双方发生变化。

该系统1的优选的方式为，还具有第1操作输入部21和第2操作输入部23，其中，所述第1操作输入部21用于输入作为第1参加者的操作信息的第1操作信息；所述第2操作输入部23用于输入作为第2参加者的操作信息的第2操作信息。

并且，图像变化部7根据语音分析部5分析出的语音信息中所包含的与内容有关的信息、语音分析部分析出的与内容的变动有关的信息、第1操作信息和第2操作信息来改变内容在图像中的位置。图像变化部7可以使改变位置后的内容的形状和颜色中的任一方或者双方发生变化。

该系统1提供一种使用具有计算机的系统基于语音来改变图像的方法。

该方法包括语音信息输入工序、语音分析工序和图像变化工序，其中，在所述语音信息输入工序中向系统1输入语音信息；

在所述语音分析工序中，系统1分析通过语音信息输入工序输入的语音信息；

在所述图像变化工序中，系统1使用在语音分析工序中分析出的语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，改变内容在表示内容的图像中的位置。

本说明书提供一种使计算机作为上述的系统发挥作用的程序和保存有该程序的信息存储介质。

发明效果

本发明能够提供一种例如能够基于对话来实时改变共享图像的系统等。

附图说明

图1是用于说明基于语音来改变图像的系统的框图。

图2是表示计算机的基本结构的框图。

图3是表示本发明的系统例的概念图。

图4是表示演示资料的例子的图。

图5是表示通过图像变化部使内容在表示内容的图像中的位置发生变化之后的图像的概念图。

图6是表示通过图像变化部使内容在表示内容的图像中的位置、形状和颜色发生变化之后的图像的概念图。

图7是表示根据操作信息使内容在表示内容的图像中的位置发生变化之后的图像的概念图。

具体实施方式

下面，使用附图对用于实施本发明的方式进行说明。本发明并不限定于以下说明的方式，还包括本领域技术人员根据以下方式在显而易见的范围内适宜地修改后的方式。

下面，对基于语音来改变图像的系统1进行说明。该系统是基于计算机的系统。

图1是用于说明基于语音来改变图像的系统的框图。如图1所示，该系统1具有语音信息输入部3、语音分析部5和图像变化部7。该系统1也可以还具有：演示资料存储部11，其存储有演示资料等；演示输出部13，其输出演示资料；操作信息输入部15，其用于输入各种操作信息；和语音输出部17，其输出语音信息。

图2是表示计算机的基本结构的框图。如该图所示，计算机具有输入部31、输出部33、控制部35、运算部37和存储部39，各结构要素通过总线41等来连接，由此能够进行信息的收发。例如，在存储部中可以存储控制程序，也可以存储各种信息。在从输入部输入规定的信息的情况下，控制部读出被存储在存储部中的控制程序。然后，控制部适宜地读出被存储在存储部中的信息，且将其传送给运算部。另外，控制部适宜地向运算部传送所输入的信息。运算部使用接收到的各种信息进行运算处理，且将运算结果存储在存储部中。控制部读出被存储在存储部中的运算结果，且将其从输出部输出。这样一来，执行各种处理。以下说明的各结构要素也可以与计算机的任一结构要素对应。

图3是表示本发明的系统例的概念图。如图3所示，本发明的系统(包括本发明的装置的系统)也可以是包括终端45和服务器47的系统，其中，终端45与因特网或内联网43相连接；服务器47与因特网或者内联网43相连接。当然，也可以是单个计算机或移动终端作为本发明的装置来发挥作用，也可以存在多个服务器。

语音信息输入部3是用于输入语音信息的结构要素(例如麦克风)。以系统由多个终端和与多个终端相连接的服务器构成的情况为例进行说明。在该情况下，语音信息输入部3例如服务器中的输入部输入从各终端的输入部(例如麦克风)输入的语音信息。此时既可以是服务器内的输入部作为语音信息输入部3发挥作用，也可以是各终端的输入部作为语音信息输入部3来发挥作用。不管在哪种情况下语音信息均被输入到服务器内。

下面，基于医药信息负责人(MR)和医疗工作者经由各自的计算机终端(终端)通过网络会议进行对话的例子进行说明。MR的终端和医疗工作者的终端被事先输入会议访问信息。会议访问信息的例子是确定会议的信息(URL)、会议的ID和会议的密码。

MR的终端45a和医疗工作者的终端45b使用会议访问信息来访问网络会议用的服务器。当MR的终端45a和医疗工作者的终端45b中输入会议访问信息时，这些终端访问会议用服务器。服务器具有输入部和输出部，因此能够通过服务器来交换各自的图像和语音信息。在该例子中，服务器具有演示资料存储部11。在该例子中，网络会议的参加者的各终端访问服务器，根据保存在服务器中的图像数据进行对话，图像数据反映该对话而进行更新。

例如，MR使用输入装置(鼠标)从演示资料存储部21读出作为讨论的对象的演示资料。读出的演示资料被从服务器的输出部输出到MR的终端45a和医疗工作者的终端45b。MR的终端45a和医疗工作者的终端45b中输入演示资料。MR的终端45a和医疗工作者的终端45b的作为输出部的显示器显示演示资料。另外，也可以将MR或者医疗工作者的对话信息输入服务器，分析对话信息，基于分析出的对话信息从演示资料存储部11中读出作为讨论的对象的演示资料。在该情况下，在演示资料存储部11中与各演示资料相关联来存储读出词语(read word)，在分析出的对话信息中所包含有读出词语的情况下，读出与该读出词语相关联的演示资料即可。

图4是表示演示资料的例子的图。在图4的例子中记作“医生，请告诉我您对下述降压药的效果和安全性的印象”。并且，在该图中示出纵轴表示药的效果(药效)，横轴表示安全性的图。

二者能够通过MR的终端45a和医疗工作者的终端45b进行各种对话。例如，MR说“图中示出了药剂A～D的药效和安全性，医生您感觉怎么样？”。于是，从MR的终端45a的麦克风向MR的终端45a输入语音信息。所输入的语音信息被暂时存储在MR的终端45a的存储部中。然后，从MR的终端45a的输出部向服务器47输出语音信息。服务器47接收语音信息，从服务器的输入部向服务器47输入语音信息，且将其存储在服务器47内的存储部中。这样一来，向系统1输入语音信息(语音信息输入工序)。

医疗工作者例如回答“我认为药剂C的药效比药剂B好且安全性也稍微高一点。”。于是，与上述同样，向系统1输入语音信息(语音信息输入工序)。

语音分析部5是用于分析由语音信息输入部3输入的语音信息的结构要素(例如公知的语音识别部)。

例如，服务器的存储部将内容(例如，药剂A、药剂B、药剂C和药剂D)和各个内容在图像中的位置(药剂A、药剂B、药剂C和药剂D的坐标)与演示资料相关联来进行存储。并且，语音分析部5能够获得“药剂C”、“药剂B”这些与内容有关的信息作为分析结果。另外，语音分析部5能够获得“药剂C的药效比药剂B好”这一与内容的变化有关的信息作为分析结果。并且，语音分析部5能够获得“药剂C的安全性稍微高一点”这一与内容的变化有关的信息作为分析结果。

这样一来，系统1分析通过语音信息输入工序输入的语音信息，得到分析结果(语音分析工序)。所得到的分析结果被适宜地存储在服务器的存储部中。分析结果也可以从服务器的输出部输出到MR的终端45a和医疗工作者的终端45b，且被存储在这些终端的存储部中。下面也同样地进行该处理。

图像变化部7使用语音分析部5分析出的语音信息中所包含的与内容有关的信息和语音分析部5分析出的语音信息中所包含的与内容的变化有关的信息，改变内容在表示内容的图像中的位置。例如，图像变化部7可以进行以下处理：根据与内容有关的信息来确定要改变的内容，根据与内容的变化有关的信息来改变该内容。改变后的图像被显示在显示部上。例如，服务器从服务器的存储部读出作为分析结果的“药剂C”、“药剂B”这些与内容有关的信息、“药剂C的药效比药剂B好”这一与内容的变化有关的信息、和“药剂C的安全性稍微高一点”这一与内容的变化有关的信息。然后，使用读出的分析结果，改变药剂C在内容的图像中的位置。然后，将内容的位置发生变化后的图像存储在服务器的存储部中。然后，也可以向MR的终端45a和医疗工作者的终端45b输出该图像。于是，在MR的终端45a和医疗工作者的终端45b的输出部(显示器)上显示变化后的图像。图像变化部7可以针对语音信息确定发出语音的人(发言者)，按照确定的发言者调整变化量。可以在输入终端的ID、网络会议访问信息时进行发言者的确定。另外，对于变化量的调整，可以与发言者的ID相关联，预先存储用于进行调整的系数，按照发言者的ID读出该系数。这样一来，能够根据发言者的个性自动地改变(不被发言者注意到)。不改变内容的位置而改变内容的形式和颜色的方式是与本说明书所记载的上述方式不同的方式。

图5是表示通过图像变化部改变了内容在表示内容的图像中的位置之后的图像的概念图。这样一来，系统1根据语音分析工序中分析出的语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，改变内容在表示内容的图像中的位置(图像变化工序)。

观看图5的医师使用医疗工作者的终端45b的输入装置(例如鼠标和触摸屏)，拖动图像中的药剂C。然后，医师讲到药剂C“在这附近”。与之前的说明同样该发言被输入系统内。另外，医疗工作者的终端45b的操作信息被从医疗工作者的终端45b的输出部输入服务器37。接收到操作信息的服务器37从服务器37的输入部向服务器37内输入操作信息。然后，服务器37根据操作信息来改变药剂C在内容的图像中的位置。

图6是表示通过图像变化部改变了内容在表示内容的图像中的位置、形状和颜色之后的图像的概念图。如图6所示，图像变化部7可以改变内容的形状和颜色中的任一方或者双方，以知道位置发生变化的内容。为了改变形状，可以改变其大小、使其消失、使其成为其他的内容图像、以及改变框的形状。如后述那样，可以使在根据操作信息改变内容的位置的情况下和根据语音改变内容的位置的情况下发生变化后的内容的形状和颜色中的任一方或者双方不同。

图7是表示根据操作信息使内容在表示内容的图像中的位置发生变化之后的图像的概念图。这样，该系统也可以根据操作信息来改变内容的位置。然后，内容的位置发生变化后的图像被存储在服务器的存储部中。然后，也可以向MR的终端45a和医疗工作者的终端45b输出该图像。于是，在MR的终端45a和医疗工作者的终端45b的输出部(例如显示器)上显示发生变化后的图像。该系统1的优选的方式为，还具有第1操作输入部21和第2操作输入部23，其中，所述第1操作输入部21用于输入作为第1参加者的操作信息的第1操作信息；所述第2操作输入部23用于输入作为第2参加者的操作信息的第2操作信息。在上述的例子中，例如，MR的终端45a的输入装置作为第1操作输入部21来发挥作用。另外，医疗工作者的终端45b的输入装置作为第2操作输入部23来发挥作用。例如，MR的终端45a接收到通过鼠标将药剂C拖到右侧的输入信息。接收到的输入信息被作为操作信息发送给服务器。接收到操作信息的服务器使图像变化部7根据操作信息来改变图像。将发生变化后的图像存储在服务器的存储部中。存储的图像被输出给MR的终端45a和医疗工作者的终端45b。于是，MR的终端45a和医疗工作者的终端45b将接收到的图像显示在各自的显示部。医疗工作者的终端45b的操作信息也同样。这样一来，图像变化部7根据语音分析部5分析出的语音信息中所包含的与内容有关的信息、语音分析部分析出的与内容的变动有关的信息、第1操作信息和第2操作信息来改变内容在图像中的位置。上述是使位置发生变化的操作信息的例子。在操作信息为改变内容的形状、颜色的情况下，图像变化部7可以使改变位置后的内容的形状和颜色中的任一方或者双方发生变化。

本说明书提供一种使计算机作为上述的系统发挥作用的程序和保存有该程序的信息存储介质。该程序被安装在计算机中，使计算机作为基于语音来改变图像的系统发挥作用，所述系统具有语音信息输入机构、语音分析机构和图像变化机构，其中，所述语音信息输入机构用于输入语音信息；所述语音分析机构用于分析由语音信息输入机构输入的语音信息；所述图像变化机构使用语音分析机构分析出的语音信息中所包含的与内容有关的信息和与内容的变化有关的信息，来改变内容在表示内容的图像中的位置。

[产业上的可利用性]

本发明被用于语音识别系统，因此能够在信息产业中使用。

附图标记说明

1：系统；3：语音信息输入部；5：语音分析部；7：图像变化部。

Claims

1.一种基于语音来改变图像的系统(1)，其特征在于，

具有语音信息输入部(3)、语音分析部(5)和图像变化部(7)，其中，

所述语音信息输入部(3)用于输入语音信息；

所述语音分析部(5)用于分析由所述语音信息输入部(3)输入的语音信息；

所述图像变化部(7)使用所述语音分析部(5)分析出的语音信息中所包含的与内容有关的信息和与所述内容的变化有关的信息，来确定所述内容并且改变所述内容在表示所述内容的图像中的位置，

所述图像变化部(7)确定发言者并且按照所述发言者来调整所述内容的位置的变化量，其中所述发言者是指发出所述语音信息的人。

2.根据权利要求1所述的系统，其特征在于，

所述图像变化部(7)使改变位置后的内容的形状和颜色中的任一方或者双方发生变化。

3.根据权利要求1所述的系统，其特征在于，

还具有第1操作输入部(21)和第2操作输入部(23)，其中，所述第1操作输入部(21)用于输入作为第1参加者的操作信息的第1操作信息；所述第2操作输入部(23)用于输入作为第2参加者的操作信息的第2操作信息，

所述图像变化部(7)根据所述语音分析部(5)分析出的语音信息中所包含的与内容有关的信息、所述语音分析部分析出的与所述内容的变动有关的信息、第1操作信息和第2操作信息来改变所述内容在所述图像中的位置。

4.一种方法，使用具有计算机的系统基于语音来改变图像，其特征在于，

包括语音信息输入工序、语音分析工序和图像变化工序，其中，

在所述语音信息输入工序中向所述系统输入语音信息；

在所述语音分析工序中，所述系统分析通过所述语音信息输入工序输入的语音信息；

在所述图像变化工序中，所述系统使用在所述语音分析工序中分析出的语音信息中所包含的与内容有关的信息和与所述内容的变化有关的信息，来确定所述内容并且改变所述内容在表示所述内容的图像中的位置，

在所述图像变化工序中，确定发言者并且按照所述发言者来调整所述内容的位置的变化量，其中所述发言者是指发出所述语音信息的人。

5.一种程序，用于使计算机作为基于语音来改变图像的系统发挥作用，其特征在于，

所述基于语音来改变图像的系统具有语音信息输入机构、语音分析机构和图像变化机构，其中，

所述语音信息输入机构用于输入语音信息；

所述语音分析机构用于分析由所述语音信息输入机构输入的语音信息；

所述图像变化机构使用所述语音分析机构分析出的语音信息中所包含的与内容有关的信息和与所述内容的变化有关的信息，来确定所述内容并且改变所述内容在表示所述内容的图像中的位置，

所述图像变化机构确定发言者并且按照所述发言者来调整所述内容的位置的变化量，其中所述发言者是指发出所述语音信息的人。

6.一种信息存储介质，其特征在于，

保存有权利要求5所述的程序。