CN113722423A

CN113722423A - 信息处理系统、信息处理方法及信息处理程序

Info

Publication number: CN113722423A
Application number: CN202110534035.3A
Authority: CN
Inventors: 西尾达也; 杉森文亮
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2020-05-20
Filing date: 2021-05-17
Publication date: 2021-11-30
Also published as: JP7489232B2; JP2021182091A; US20210366478A1; US11804223B2

Abstract

提供一种在与用户发出的语音对应的文本信息中产生错误的情况下，能够顺利地进行适当的文本信息的收发的信息处理系统、信息处理方法以及信息处理程序。信息处理系统具备:语音接收部，其接收第一信息处理装置的第一用户发出的第一语音；语音识别部，其识别由所述语音接收部接收的所述第一语音；显示控制部，其使与由所述语音识别部识别的所述第一语音对应的第一文本显示在所述第一信息处理装置以及所述第二信息处理装置的各自的第一显示区域以及所述第一信息处理装置的第二显示区域；以及修正受理部，其受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

Description

信息处理系统、信息处理方法及信息处理程序

技术领域

本发明涉及信息处理系统、信息处理方法以及信息处理程序。

背景技术

以往，已知有收发用户发出的语音、识别并文本转换该语音的文本信息、该用户的影像等的会议系统。此外，还提出了将所述语音翻译为期望的语言的文本信息来进行收发的技术。

在此，在以往的技术中，例如在对用户发出的语音进行转换后的文本发生了错误的情况下，会向该文本的发送目的地的用户提示错误的信息。此外，该情况下，也有可能发生对方侧的用户对错误的信息进行响应。这样，在以往的技术中，在与用户发出的语音对应的文本信息中产生错误的情况下，难以顺利进行适当的文本信息的收发。

发明内容

本发明的目的在于提供一种在与用户发出的语音对应的文本信息中产生错误的情况下，能够顺利地进行适当的文本信息的收发的信息处理系统、信息处理方法以及信息处理程序。

本发明的一方式所涉及的信息处理系统是能够在经由网络连接的第一信息处理装置以及第二信息处理装置中收发与用户发出的语音对应的文本信息的信息处理系统，具备:语音接收部，其接收所述第一信息处理装置的第一用户发出的第一语音；语音识别部，其识别由所述语音接收部接收的所述第一语音；显示控制部，其使与由所述语音识别部识别的所述第一语音对应的第一文本显示在所述第一信息处理装置的显示部以及所述第二信息处理装置的显示部分别所包含的第一显示区域以及所述第一信息处理装置的所述显示部所包含的第二显示区域；以及修正受理部，其受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

本发明的其他方式所涉及的信息处理方法是能够在经由网络连接的第一信息处理装置以及第二信息处理装置中收发与用户发出的语音对应的文本信息的信息处理方法，该方法中使一个或多个处理器执行如下步骤：语音接收步骤，接收所述第一信息处理装置的第一用户发出的第一语音；语音识别步骤，识别由所述语音接收步骤中接收的所述第一语音；显示步骤，使与由所述语音识别步骤中识别的所述第一语音对应的第一文本显示在所述第一信息处理装置的显示部以及所述第二信息处理装置的显示部分别所包含的第一显示区域以及所述第一信息处理装置的所述显示部所包含的第二显示区域；以及修正受理步骤，受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

本发明的其他方式所涉及的信息处理程序是能够在经由网络连接的第一信息处理装置以及第二信息处理装置中收发与用户发出的语音对应的文本信息的信息处理程序，所述信息处理程序用于使一个或多个处理器执行如下步骤:语音接收步骤，接收所述第一信息处理装置的第一用户发出的第一语音；语音识别步骤，识别由所述语音接收步骤中接收的所述第一语音；显示步骤，使与由所述语音识别步骤中识别的所述第一语音对应的第一文本显示在所述第一信息处理装置的显示部以及所述第二信息处理装置的显示部分别所包含的第一显示区域以及所述第一信息处理装置的所述显示部所包含的第二显示区域；以及修正受理步骤，受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

根据本发明，在与用户发出的语音对应的文本信息中发生了错误的情况下，能够顺利地进行适当的文本信息的收发。

本说明书适当地参照附图，通过使对以下详细说明中记载的概念进行总结的内容简略化的方式来进行介绍。本说明书的意图并不是限定权利要求中记载的主题的重要特征和本质特征，此外，意图也不是限定权利要求中记载的主题的范围。此外，在权利要求中记载的对象，并不限定于解决本发明中任意部分中记载的一部分或全部缺点的实施方式。

附图说明

图1是表示本发明的实施方式涉及的会议系统的概略构成的图。

图2是表示本发明的实施方式涉及的会议系统的构成的功能框图。

图3是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图4是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图5是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图6是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图7是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图8是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图9是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图10是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图11是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图12是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

图13是用于说明本发明的实施方式涉及的会议系统中的信息处理的流程的一例的流程图。

图14是用于说明本发明的实施方式涉及的会议系统中的信息处理的流程的一例的流程图。

图15是表示本发明的实施方式涉及的会议系统中信息处理装置所显示的显示画面的一例的图。

具体实施方式

以下参照附图说明本发明的实施方式。并且，以下的实施方式只是使本发明具体化的一例，并不具有限定本发明的技术范围的性质。

本发明涉及的信息处理系统能够应用于例如将多个据点(区域)网络连接而多个用户参加的远程会议等。例如，所述信息处理系统在经由网络而连接的第一据点及第二据点中收发用户发出的语音。此外，本发明所涉及的信息处理系统使与第一据点的用户发出的语音对应的文本信息显示在配置在第二据点的信息处理装置上，使与第二据点的用户发出的语音对应的文本信息显示在配置在第一据点的信息处理装置上。

在以下的实施方式中，举例说明信息处理系统应用于远程会议(会议系统)的情况。即，本实施方式所涉及的会议系统是本发明涉及信息处理系统的一例。例如，在本实施方式所涉及的会议系统中，信息处理装置配置于各个据点(会议室)中，一个会议室的信息处理装置接收用户发出的语音，并将与由服务器识别出的该语音对应的文本信息发送给另一个会议室的信息处理装置，从而能够进行各会议室的用户之间的对话。

[会议系统100]

图1是表示本发明的实施方式涉及的会议系统的概略构成的图。会议系统100具备配置于各据点(会议室)的信息处理装置1和服务器2。如图1所示，信息处理装置1A、1B分别由具备麦克风、扬声器以及显示部的一体型的设备构成。并且，信息处理装置1A、1B分别也可以是麦克风、扬声器和个人计算机(PC)分体构成的设备。在图1中，示出了设置于会议室X的信息处理装置1A和设置于会议室Y的信息处理装置1B。信息处理装置1A、信息处理装置1B和服务器2经由网络N1相互连接。网络N1是因特网、LAN、WAN或公共电话线等的通信网络。信息处理装置1A是本发明的第一信息处理装置的一例，信息处理装置1B是本发明的第二信息处理装置的一例。

在会议系统100中，例如信息处理装置1A接收会议室X的用户A发出的语音，服务器2执行该语音的识别处理、向其他语言的翻译处理等而转换为文本。信息处理装置1A将服务器2的语音识别的结果(与所述语音对应的文本信息)发送至会议室Y的信息处理装置1B。信息处理装置1B将从信息处理装置1A接收的所述文本信息显示于显示部，从扬声器输出所述语音。同样地，信息处理装置1B接收会议室Y的用户B发出的语音，服务器2执行该语音的识别处理、向其他语言的翻译处理等而转换为文本。信息处理装置1B将服务器2的语音识别的结果(与所述语音对应的文本信息)发送至会议室X的信息处理装置1A。信息处理装置1A将从信息处理装置1B接收的所述文本信息显示于显示部，从扬声器输出所述语音。这样，会议室X、Y各自的用户A、B能够进行对话。

在此，在会议系统100中，有时在对用户发出的语音进行转换而得到的文本中发生错误。在与用户发出的语音对应的文本信息中发生了错误的情况下，会议系统100能够顺利地进行适当的文本信息的收发。以下，对会议系统100的具体的构成进行说明。另外，在以下的说明中，在不区分信息处理装置1A、1B的情况下称为“信息处理装置1”。

[信息处理装置1]

配置于各据点(在此为会议室X，Y)的信息处理装置1具有相同的构成。在此，以配置于会议室X的信息处理装置1A为例进行说明。如图2所示，信息处理装置1A具备控制部11、存储部12、扬声器13、麦克风14、显示部15以及通信接口16等。信息处理装置1A例如是个人计算机。麦克风14可以配置在个人计算机的外部，通过通信电缆与个人计算机连接。信息处理装置1A例如配置在会议室X的桌子上，经由麦克风14获取参加会议的用户A的语音，或者从扬声器13向用户A输出(通知)语音。

通信接口16是用于通过有线或无线将信息处理装置1A连接到网络N1，并且经由网络N1在与其他的设备(例如信息处理装置1B、服务器2等)之间执行按照规定的通信协议的数据通信的通信接口。

显示部15是用于显示各种信息的液晶显示器、有机EL显示器等的显示面板。

存储部12是存储各种信息的HDD(Hard Disk Drive)或SSD(Solid State Drive)等的非易失性存储部。存储部12存储有用于使控制部11执行后述的信息处理(参照图13及图14)的信息处理程序等的控制程序。例如，从外部服务器分发并存储所述信息处理程序。此外，所述信息处理程序非临时性地被记录在CD或DVD等的计算机可读取记录介质上，并且能被信息处理装置1所具备的CD驱动器或DVD驱动器等的读取装置(未示出)读取，并可以存储在存储部12中。

控制部11具有CPU、ROM及RAM等的控制设备。所述CPU是执行各种运算处理的处理器。所述ROM预先存储有用于使所述CPU执行各种处理的BIOS及OS等的控制程序。所述RAM存储各种信息，被用作所述CPU执行的各种处理的临时存储器(工作区域)。然后，控制部11通过使所述CPU执行预先存储在所述ROM或存储部12中的各种控制程序来控制信息处理装置1A。

具体为，控制部11包括语音接收部111、处理请求部112、显示控制部113、修正受理部114、语音请求部115等的各种处理部。并且，控制部11通过在所述CPU中根据所述控制程序执行各种处理来发挥各种处理部的功能。此外，控制部11所包含的一部分或者全部的处理部也可以由电子电路构成。并且，所述信息处理程序也可以是用于使多个处理器作为所述各种处理部发挥功能的程序。

语音接收部111从麦克风14接收利用信息处理装置1A的用户A发出的语音(语音数据)。语音接收部111是本发明的语音接收部的一个示例。例如，信息处理装置1A的语音接收部111接收会议室X的用户A发出的语音，信息处理装置1B的语音接收部111接收会议室Y的用户B发出的语音。

此外，语音接收部111将表示用户A的所述语音处于接收中(即，用户A处于发话中)的状态信息发送给信息处理装置1B。

处理请求部112对服务器2进行各种处理的请求。具体为，处理请求部112请求由语音接收部111接收到的所述语音(语音数据)的识别处理。服务器2在从信息处理装置1A获取语音识别请求时，执行对所述语音的识别处理，将识别结果发送到信息处理装置1A。例如，在进行了将所述语音转换成文本(字符)的处理的情况下，服务器2将该文本信息作为所述识别结果发送到信息处理装置1A。

此外，处理请求部112请求由语音接收部111接收到的所述语音的翻译处理。服务器2在从信息处理装置1A获取到语音翻译请求时，执行与所述语音对应的所述文本的翻译处理，将翻译结果发送到信息处理装置1A。例如，在将与第一语言(例如日语)的所述语音对应的所述文本翻译为第二语言(英语)的文本的情况下，服务器2将第二语言的文本信息作为所述翻译结果发送到信息处理装置1A。

显示控制部113使显示部15显示各种信息。具体为，显示控制部113使显示部15显示与所述显示处理程序对应的显示画面D1。图3是表示显示画面D1的一例的图。在显示画面D1中，包括:按钮K1，用于开始以及结束用户A发出的语音的录音；按钮K2，选择发话语音的语言(例如日语)；按钮K3，选择该发话语音的语言的翻译目的地的语言(例如英语)；第二显示区域R2，实时显示与用户A发出的语音对应的文本；第一显示区域R1，显示与以规定的时间划分的期间的用户A的发话内容相对应的文本；以及按钮K4，用户A修正(手写修正)显示在第二显示区域R2的文本并向服务器2再次请求(重发)识别处理、翻译处理等。

例如，在用户A按下按钮K1并开始发话、语音接收部111开始语音的接收的情况下，如图4所示，信息处理装置1A的显示控制部113将表示用户A处于发话中的识别信息(发话中标记M1)显示在信息处理装置1A的显示画面D1上。此外，若信息处理装置1B的显示控制部113从信息处理装置1A获取到上述状态信息(发话中)，则如图4所示，使表示用户A为发话中的识别信息(发话中标记M1)显示在信息处理装置1B的显示画面D1上。并且，发话中标记M1既可以按照每个信息处理装置1而不同，也可以包含能够识别发话中的用户的信息(姓名、用户ID等)。

此外，信息处理装置1A的显示控制部113使与由服务器2的语音识别部211(后述)识别的用户A的语音(本发明的第一语音的一例)对应的文本(本发明的第一文本的一例)显示于信息处理装置1A的第一显示区域R1以及第二显示区域R2的每一个。此外，信息处理装置1B的显示控制部113使与由服务器2的语音识别部211识别的用户A的语音对应的文本显示在信息处理装置1B的第一显示区域R1。

例如，当用户A发出“こんにちは。”(日语，“你好”的意思)时，如图5中所示，信息处理装置1A的显示控制部113将与用户A的语音对应的文本“こんにちは。”显示在信息处理装置1A的第一显示区域R1及第二显示区域R2的每一个上。此外，信息处理装置1A的显示控制部113在识别到用户A所发出的“こ”(日文文字)的时刻，使第二显示区域R2显示“こ”，在接着识别到用户A所发出的“ん”(日文文字)的时刻，使第二显示区域R2显示“ん”。这样，显示控制部113根据用户的发话实时地在第二显示区域R2显示文本。然后，在用户A发出“は”(日文文字)之后在规定时间内未发话的情况下，如图5所示，信息处理装置1A的显示控制部113从服务器2获取对“こんにちは。”的识别处理以及翻译处理的结果并显示在第一显示区域R1。如上所述，显示控制部113根据用户A的发话实时地在第二显示区域R2中显示文本，并且在第一显示区域R1中显示与以规定的时间划分的期间的发话内容对应的文本。此外，显示控制部113根据用户A的第一语言的发话，实时地在第二显示区域R2显示第一语言的文本，在第一显示区域R1显示将与以规定的时间划分的期间的发话内容对应的文本转换(翻译)为第二语言的第二语言的文本。

并且，信息处理装置1A的显示控制部113也可以使第一显示区域R1显示用户A发话的时间(在此为“17:39:36”)(本发明的第一文本的一例)。

此外，信息处理装置1A的显示控制部113将所述识别处理及翻译处理的结果、以及状态信息(处理完成)发送到信息处理装置1B。若信息处理装置1B的显示控制部113从信息处理装置1A获取到所述识别处理及翻译处理的结果和状态信息(处理完成)，则如图5所示，将对“こんにちは。”的识别处理及翻译处理的结果显示于第一显示区域R1。并且，信息处理装置1B的显示控制部113也可以使第一显示区域R1显示用户A发话的时间(在此为“17:39:36”)(本发明的第一文本的一例)。并且，在信息处理装置1B的第二显示区域R2中，不显示与用户A的语音对应的文本。

修正受理部114受理用户A对第二显示区域R2所显示的文本的修正操作。例如，当用户A尽管发出“こんばんは。”(日语，“晚上好”的意思)而被识别为“こんにちは。”并显示在信息处理装置1A、1B上时，用户A可以在第二显示区域R2中修正文本。例如，当用户A删除“こんにちは。”的一部分(参照图6)并进行修正(参照图7)为“こんばんは。”的操作时，修正受理部114受理用户A的修正操作。

如上所述，第一显示区域R1主要是显示语音识别后的文本的交换(日志)的区域。例如，在第一显示区域R1中，除了文本以外，还显示发言者、时间戳、翻译后的结果。此外，第一显示区域R1的显示内容自己和对方双方都可以看到。第二显示区域R2是实时地以字符单位显示语音识别后的文本的区域。语音识别后的字符最初被显示于第二显示区域R2。当用户的发话中断时，在第一显示区域R1显示语音识别和翻译后的文本。即使第一显示区域R1显示语音识别的结果，只要不进行下一个语音识别，在第二显示区域R2继续显示上次语音识别的文本。用户能够通过键盘和鼠标操作来修正第二显示区域R2中显示的文本并重发。此外，第二显示区域R2的显示内容只能自己看到。

并且，若开始受理用户A的修正操作，则如图6所示，信息处理装置1A的显示控制部113使显示画面D1显示表示修正中的识别信息(修正中标记M2)。此外，显示控制部113将表示用户A正在修正文本的状态信息发送至信息处理装置1B。若信息处理装置1B的显示控制部113从信息处理装置1A获取到所述状态信息(修正中)，则如图6所示，使表示用户A为修正中的识别信息(修正中标记M2)显示在信息处理装置1B的显示画面D1上。并且，修正中标记M2既可以按照每个信息处理装置1而不同，也可以包含能够识别修正中的用户的信息(姓名、用户ID等)。修正中标记M2是本发明的修正操作信息的一例。

当用户A完成修正操作并按下按钮K4时，处理请求部112再次向服务器2请求翻译处理。服务器2在从信息处理装置1A获取到语音翻译请求时，执行针对修正后的所述文本的翻译处理，将翻译结果发送到信息处理装置1A。如图7所示，信息处理装置1A的显示控制部113在第一显示区域R1显示修正后的文本(“こんばんは。”)，从服务器2获取针对“こんばんは。”的翻译处理的结果并显示在第一显示区域R1。此外，信息处理装置1A的显示控制部113也可以在第一显示区域R1上显示用户A进行修正的时间(在此为“17:43:42”)。由此，用户B能够掌握用户A正在修正被错误地语音识别以及翻译后的文本，因此能够避免用户B对被错误地语音识别以及翻译后的文本进行响应(回信)，能够高效地推进会议。

此外，信息处理装置1A的显示控制部113将修正后的文本(“こんばんは。”)、修正后的翻译处理的结果、以及状态信息(处理完成)发送到信息处理装置1B。若信息处理装置1B的显示控制部113从信息处理装置1A获取所述文本(“こんばんは。”)、所述翻译处理的结果和状态信息(处理完成)，则如图7所示，在第一显示区域R1中显示修正后的文本(“こんばんは。”)和针对“こんばんは。”的翻译处理的结果。如上所述，信息处理装置1A、1B的显示控制部113使修正后的文本(“こんばんは。”)显示在第一显示区域R1。并且，信息处理装置1B的显示控制部113也可以使第一显示区域R1显示用户A进行修正的时间(在此为“17:43:42”)。并且，在信息处理装置1B的第二显示区域R2中，不显示与用户A的修正操作对应的文本。即，第二显示区域R2是从发话者受理文本的修正操作的区域。

此处，如图8所示，信息处理装置1B的显示控制部113在信息处理装置1B的第一显示区域R1中，可识别地显示被误识别的所述文本(“こんにちは。”)中用户A的修正部分(“ばんは。”)。例如，如图8所示，显示控制部113也可以对所述修正部分附加识别标记M3。例如，显示控制部113在信息处理装置1B的第一显示区域R1所显示的文本中的与信息处理装置1A的第二显示区域R2中删除的部分(“にちは。”)对应的部分进行网格显示。如上所述，显示控制部113在用户A进行文本修正中，在信息处理装置1B的第一显示区域R1中，实时地以可识别的方式显示该文本的修正部分。由此，用户B能够实时地掌握用户A的文本的修正部分。识别标记M3例如可列举网格(参照图8)、下线、字符颜色、字符字体等。由此，用户B能够掌握用户A正在修正的位置(部分)。

信息处理装置1A、1B的显示控制部113删除修正前的文本(“こんにちは。”)，并使第一显示区域R1显示修正后的文本(“こんばんは。”)。由此，由于能够仅将适当的信息显示于第一显示区域R1，因此能够防止用户B被修正前的信息混乱。此外，在该情况下，信息处理装置1A、1B的显示控制部113也可以如图9所示那样，将表示用户A已修正的识别信息(修正完毕标记M4)显示于第一显示区域R1。由此，用户A、B能够判断显示于第一显示区域R1的文本是否为被修正的文本。此外，如图10所示，信息处理装置1A、1B的显示控制部113也可以使修正前的文本的发话时间(“17:39:36”)和修正后的时间(“17:43:42”)显示在第一显示区域R1中。由此，用户A、B能够掌握第一显示区域R1中显示的文本被修正的时间。此外，信息处理装置1A、1B的显示控制部113也可以如图11所示那样，将修正前的文本的信息和修正后的文本的信息并排显示在第一显示区域R1中。由此，用户A、B能够掌握修正前后的文本，能够容易地掌握修正内容。如上所述，显示控制部113可以将修正后的文本覆盖在修正前的文本上，也可以将修正后的文本显示在与修正前的文本不同的场所。此外，在将修正后的文本覆盖在修正前的文本上的情况下，如图9～图11所示，显示控制部113优选显示表示被修正的信息(识别标记M4、发话时间以及修正时间、修正前后的文本等)，以使得用户能够掌握是否被修正。

另外，如图12所示，当用户A对误识别的文本进行了删除操作时，信息处理装置1A、1B的显示控制部113可以在第一显示区域R1中显示删除的时间和表示删除的识别信息(删除标记M5)。由此，不仅能够删除误识别，而且还能够删除自言自语等的本来就不打算发送给对方的发言，防止混乱。

语音请求部115向服务器2进行将识别处理及翻译处理的结果(文本)转换为语音的请求。具体而言，信息处理装置1B的语音请求部115向服务器2发送将从信息处理装置1A获取的识别处理及翻译处理的结果(文本)转换为语音的请求。服务器2在从信息处理装置1B获取语音转换请求时，执行对所述文本的语音转换处理，将转换结果发送到信息处理装置1B。例如，服务器2将文本“こんにちは。”的翻译结果“Hello”(英文)转换为语音数据并发送到信息处理装置1B。当从服务器2获取所述语音数据时，如图5中所示，信息处理装置1B的语音请求部115从信息处理装置1B的扬声器13输出(播放)“Hello”的语音。并且，当用户A将文本“こんにちは。”修改为“こんばんは。”时，如图7所示，信息处理装置1B的语音请求部115从服务器2获取翻译结果“Good evening”(英文)的语音数据，并且从信息处理装置1B的扬声器13输出“Good evening”的语音。由此，例如，使用日语的用户A和使用英语的用户B能够顺利进行对话。并且，控制部11也可以是如下构成:在由用户修正了文本的情况下，用户能够任意选择是否使修正后的文本语音输出。例如，控制部11也可以使信息处理装置1显示选择是否使修正后的文本语音输出的选择画面(未图示)，从用户受理选择操作。

[服务器2]

如图2所示，服务器2具备控制部21、存储部22以及通信接口23等。并且，服务器21并不限定于一台计算机，也可以是多台计算机共同动作的计算机系统。此外，服务器2可以是物理服务器，也可以是云服务器。此外，服务器2中执行的各种处理也可以由一个或多个处理器分散执行。

通信接口23是用于通过有线或无线将服务器2连接到网络N1，并且经由网络N1在与其他设备(例如信息处理啧装置1A、1B)之间执行按照规定的通信协议的数据通信的通信接口。

存储部22是存储各种信息的HDD(Hard Disk Drive)或SSD(Solid State Drive)等的非易失性存储部。存储部22存储有用于使控制部21执行后述的信息处理(参照图13及图14)的信息处理程序等的控制程序。例如，从外部服务器分发并存储所述信息处理程序。此外，所述信息处理程序非临时性地被记录在CD或DVD等的计算机可读取记录介质上，并且被服务器2所具备的CD驱动器或DVD驱动器等的读取装置(未示出)读取，并存储在存储部22中。

控制部21具有CPU、ROM及RAM等的控制设备。所述CPU是执行各种运算处理的处理器。所述ROM预先存储有用于使所述CPU执行各种处理的BIOS及OS等的控制程序。所述RAM存储各种信息，被用作所述CPU执行的各种处理的临时存储器(工作区域)。然后，控制部21通过使所述CPU执行预先存储在所述ROM或存储部22中的各种控制程序来控制服务器2。

具体为，控制部21包括语音识别部211、语音翻译部212、语音转换部213等的各种处理部。并且，控制部21通过在所述CPU中根据所述控制程序执行各种处理来发挥各种处理部的功能。另外，控制部21所包含的一部分或者全部的处理部也可以由电子电路构成。并且，所述信息处理程序也可以是用于使多个处理器作为所述各种处理部发挥功能的程序。

语音识别部211基于所述语音识别请求，执行识别由信息处理装置1的语音接收部111接收的用户的语音的识别处理。具体为，若语音识别部211从信息处理装置1A获取所述语音识别请求，则识别用户A发出的“こ”，并转换为文本信息的“こ”。此外，语音识别部211对用户A发出的“こんにちは。”进行识别，转换为文本信息的“こんにちは。”。在所述文本信息中包含能够进行汉字转换的词的情况下，语音识别部211转换为汉字的文本。语音识别部211将语音的识别结果(文本)发送到所述语音识别请求的请求源的信息处理装置1A。

语音翻译部212基于所述语音翻译请求，执行对从信息处理装置1获取的文本进行翻译的翻译处理。具体为，在用户A在显示画面D1(参照图3)中通过按钮K2选择“日语”、通过按钮K3选择“英语”的情况下，语音翻译部212从信息处理装置1A获取对文本“こんにちは。”的所述语音翻译请求时，将“こんにちは。”转换为“Hello”。语音翻译部212将所述文本的翻译结果(文本)发送到所述语音翻译请求的请求源的信息处理装置1A。

语音转换部213基于所述语音转换请求，执行将从信息处理装置1获取的文本转换为语音的语音转换处理。具体为，若语音转换部213从信息处理装置1A获取对文本“Hello”的所述语音转换请求，则转换为“Hello”的语音数据。语音转换部213将所述文本的转换结果(语音数据)发送到所述语音转换请求的请求源的信息处理装置1B。

[信息处理]

以下，参照图13说明由会议系统100执行的信息处理的流程的一个示例。例如由信息处理装置1A的控制部11、信息处理装置1B的控制部11以及服务器2的控制部21执行所述信息处理。例如，信息处理装置1A、1B的控制部通过启动会议系统来开始所述信息处理程序的执行，从而开始所述信息处理的执行。

并且，本发明也可以视为执行包含在所述信息处理中的一个或多个步骤的信息处理方法的发明。此外，可以适当地省略在此说明的所述信息处理中包含的一个或多个步骤。此外，所述信息处理中的各步骤可以以不同的顺序执行，只要获得相同的效果即可。进一步，这里，由信息处理装置1A的控制部11、信息处理装置1B的控制部以及服务器2的控制部21执行所述信息处理中的各步骤的情况为例进行说明，作为其他的实施方式，可以由一个或多个处理器分散执行所述信息处理中的各步骤。

在步骤S1中，信息处理装置1A的控制部11开始用户A发出的语音的录音。例如，当用户A按下显示画面D1的按钮K1，则信息处理装置1A的控制部11开始录音，从麦克风11接收用户A的所述语音。此外，信息处理装置1A的控制部11将表示用户A的所述语音处于接收中(即，用户A处于发话中)的状态信息发送给信息处理装置1B。

在步骤S2中，若信息处理装置1B的控制部11从信息处理装置1A获取到所述状态信息(发话中)，则如图4所示，使表示用户A为发话中的识别信息(发话中标记M1)显示在信息处理装置1B的显示画面D1上。

当用户A按下显示画面D1的按钮K1，则信息处理装置1A的控制部11结束录音(S3)，并向服务器2发送语音识别请求(S4)。例如，向服务器2发送与用户A的发话“こんにちは。”对应的语音识别请求。

在步骤S5中，当服务器2的控制部21从信息处理装置1A接收到所述语音识别请求时，执行识别用户A的语音的识别处理。例如，控制部21对用户A发出的“こんにちは。”进行识别，转换为文本信息的“こんにちは。”。控制部21将语音的识别结果(文本)发送到所述语音识别请求的请求源的信息处理装置1A。

当信息处理装置1A的控制部11从服务器2获取到所述识别结果(S6)，则向服务器2发送对应于该识别结果的语音翻译请求(S7)。例如，向服务器2发送对应于文本“こんにちは。”的语音翻译请求。

在步骤S8中，当服务器2的控制部21从信息处理装置1A接收到所述语音翻译请求时，执行翻译所述文本的翻译处理。例如，控制部21将日语的“こんにちは。”翻译文为英文“Hello”。控制部21将文本的翻译结果(文本)发送到所述语音翻译请求的请求源的信息处理装置1A。

当信息处理装置1A的控制部11从服务器2获取到所述翻译结果(S9)，则在第一显示区域R1(参照图5)中显示作为该翻译结果的“Hello”的文本(S10)。此外，信息处理装置1A的控制部11将所述识别处理及翻译处理的结果、以及状态信息(处理完成)发送到信息处理装置1B。

若信息处理装置1B的控制部11从信息处理装置1A获取到所述识别处理及翻译处理的结果和状态信息(处理完成)(S11)，则如图5所示，将对“こんにちは。”的识别处理及翻译处理的结果显示于第一显示区域R1(S12)。

在步骤S13中，信息处理装置1B的控制部11向服务器2发送语音转换请求。例如，当信息处理装置1B的控制部11向服务器2发送对应于翻译结果“Hello”的语音转换请求。

在步骤S14中，当服务器2的控制部21从信息处理装置1B接收到所述语音转换请求时，执行将从信息处理装置1B获取的文本转文为语音的语音转换处理。例如，若控制部21从信息处理装置1B获取对文本“Hello”的所述语音转换请求，则转换为“Hello”的语音数据。控制部21将所述文本的转换结果(语音数据)发送到所述语音转换请求的请求源的信息处理装置1B。

当信息处理装置1B的控制部11从服务器2获取到所述转换结果(语音数据)(S15)，则从扬声器13输出(播放)与该转换结果对应的语音。例如，控制部11使从信息处理装置1B的扬声器13输出(播放)“Hello”的语音。

这里，在信息处理装置1A的显示区域R1及第二显示区域R2中显示与用户A的发话对应的所述识别结果(文本)之后，受理了用户A对所述识别结果(文本)的修正操作(参照图6)的情况下(图14的步骤S21)，信息处理装置1A的控制部11在信息处理装置1A的显示画面D1中显示表示正在修正所述文本的识别信息(修正中标记M2)(S22)。此外，若信息处理装置1B的控制部11从信息处理装置1A获取到表示用户A正在修正所述文本的状态信息(S23)，则在信息处理装置1B的显示画面D1上显示修正中标记M2(S24)。

当用户A结束修正操作并按下重发的按钮K4(S25)，则信息处理装置1A的控制部11向服务器2发送针对修正后的所述文本的语音翻译请求(S26)。例如，向服务器2发送对应于文本“こんばんは。”的语音翻译请求。

在步骤S27中，当服务器2的控制部21从信息处理装置1A接收到所述语音翻译请求时，执行翻译所述文本的翻译处理。例如，控制部21将日语的“こんばんは。”翻译文为英文的“Good evening”。控制部21将修正后文本的翻译结果(文本)发送到所述语音翻译请求的请求源的信息处理装置1A。之后的处理(S28～S35)与图13所示的处理(S9～S16)相同。

如上所述，会议系统100执行所述信息处理。如上所述，本实施方式所涉及的会议系统100可以在经由网络N1连接的信息处理装置1A、1B中，收发与用户发出的语音相对应的文本信息。此外，在会议系统100中，接收信息处理装置1A的用户A发出的语音并识别所述语音。此外，会议系统100使信息处理装置1A、1B各自的第一显示区域R1和信息处理装置1A的第二显示区域R2显示与所识别出的所述语音对应的文本。进一步，会议系统100受理用户A对第二显示区域R2所显示的所述文本的修正操作。由此，例如在与用户A发出的语音对应的文本信息中发生了错误的情况下，用户能够修正该文本，因此，能够顺利地进行适当的文本信息的收发。此外，用户A正在进行修正操作的情况下，使信息处理装置1B显示表示正在修正所述文本的信息，因此，用户B能够掌握所述文本正在被修正。因此，能够防止用户B对错误的文本进行响应。

本发明的信息处理系统并不限定于上述构成。

会议系统100也可以不具备翻译功能。该情况下，会议系统100在信息处理装置1A、1B中收发相同语言的文本信息。

此外，在会议系统100中，如图15所示，信息处理装置1A的显示控制部113也可以使信息处理装置1A的第三显示区域R3显示与信息处理装置1B的用户B发出的语音(本发明的第二语音的一例)对应的文本(本发明的第二文本的一例)。即，显示画面D1中，在第二显示区域R2中实时地显示对用户A(本发明的第一用户的一例)的发话内容进行语音识别的结果，在第一显示区域R1中显示对以规定的时间划分的发话内容进行语音识别的结果，在第三显示区域R3实时地显示对用户B(本发明的第二用户的一例)的发话内容进行语音识别的结果。并且，第三显示区域R3中，显示用户B对与用户B的发话内容对应的文本的修正操作的内容。因此，用户A能够掌握用户B正在修正文本、所修正的位置等。

并且，在第一显示区域R1中，按时间从旧到新的顺序从上到下地显示发话内容。即，在第一显示区域R1中，最新的发话内容显示在最下方。因此，第二显示区域R2优选配置在第一显示区域R1的下方。由此，在第一显示区域R1显示的作为修正对象的发话内容显示在第二显示区域R2的附近，因此用户在第二显示区域R2中容易进行修正操作。此外，第三显示区域R3优选配置在第一显示区域R1上方。由此，由于第二显示区域R2与第三显示区域R3分开配置，因此用户容易区分自身的修正操作和对方的修正操作。并且，在第一显示区域R1中按照时间从旧到新的顺序从下到上地显示发话内容的情况下，即，在第一显示区域R1中最新的发话内容显示在最上面的情况下，优选第二显示区域R2配置在第一显示区域R1的上方，第三显示区域R3配置在第一显示区域R1的下方。

此外，在会议系统100中，信息处理装置1的显示控制部113及修正受理部114也可以包含在服务器2中。此外，在会议系统100中，服务器2的语音识别部211、语音翻译部212以及语音转换部213也可以包含在信息处理装置1中。

并且，在各权利要求中记载的范围内，可以自由地组合以上所示的各实施方式，或者可以也可以通过适当地修改或部分省略各实施方式来构成本发明涉及的信息处理系统。

本发明的范围并不限于上述内容，而是由权利要求的记载来定义，所以可以认为本说明书记载的实施方式只是举例说明，而并非进行限定。因此，所有不脱离权利要求的范围、界限的更改，以及等同于权利要求的范围、界限的内容都包含在权利要求的范围内。

Claims

1.一种信息处理系统，其能够在经由网络连接的第一信息处理装置以及第二信息处理装置中，收发与用户发出的语音对应的文本信息，所述信息处理系统的特征在于，具备：

语音接收部，其接收所述第一信息处理装置的第一用户发出的第一语音；

语音识别部，其识别由所述语音接收部接收的所述第一语音；

显示控制部，其使与由所述语音识别部识别的所述第一语音对应的第一文本显示在所述第一信息处理装置的显示部以及所述第二信息处理装置的显示部分别所包含的第一显示区域以及所述第一信息处理装置的所述显示部所包含的第二显示区域；以及

修正受理部，其受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

2.如权利要求1所述的信息处理系统，其特征在于，

所述显示控制部在所述第二信息处理装置上显示修正操作信息，所述修正操作信息表示所述第一用户对所述第一文本正在进行修正操作。

3.如权利要求2所述的信息处理系统，其特征在于，

所述修正操作信息包含所述第一用户的识别信息。

4.如权利要求1至3中任一项中所述的信息处理系统，其特征在于，

所述显示控制部在受理到所述第一用户对所述第一文本的修正操作的情况下，使修正后的所述第一文本显示于所述第一信息处理装置和所述第二信息处理装置各自的所述第一显示区域。

5.如权利要求1至4中任一项所述的信息处理系统，其特征在于，

所述显示控制部在所述第二信息处理装置的所述第一显示区域中，可识别地显示所述第一文本中的所述第一用户的修正部分。

6.如权利要求5所述的信息处理系统，其特征在于，

所述显示控制部在所述第一用户进行所述第一文本修正中，在所述第二信息处理装置的所述第一显示区域中，实时地可识别地显示所述第一文本的修正部分。

7.如权利要求1至4中任一项所述的信息处理系统，其特征在于，

所述显示控制部在所述第二信息处理装置的所述第一显示区域中，显示所述第一用户修正前的所述第一文本和所述第一用户修正后的所述第一文本的双方。

8.如权利要求1至7中任一项所述的信息处理系统，其特征在于，

所述显示控制部根据所述第一用户的发话实时地在所述第二显示区域中显示所述第一文本，在所述第一显示区域中显示与以规定的时间划分的期间的发话内容对应的所述第一文本。

9.如权利要求1至7中任一项所述的信息处理系统，其特征在于，

所述显示控制部根据所述第一用户的第一语言的发话实时地在所述第二显示区域中显示所述第一语言的所述第一文本，在所述第一显示区域中显示将与以规定的时间划分的期间的发话内容对应的所述第一文本转换为第二语言的所述第二语言的所述第一文本。

10.如权利要求1至9中任一项所述的信息处理系统，其特征在于，

所述显示控制部在所述第一信息处理装置的第三显示区域中显示与所述第二信息处理装置的第二用户发出的第二语音对应的第二文本。

11.一种信息处理方法，其能够在经由网络连接的第一信息处理装置以及第二信息处理装置中，收发与用户发出的语音对应的文本信息，所述信息处理方法的特征在于，使一个或多个处理器执行如下步骤：

语音接收步骤，接收所述第一信息处理装置的第一用户发出的第一语音；

语音识别步骤，识别由所述语音接收步骤中接收的所述第一语音；

显示步骤，使与由所述语音识别步骤中识别出的所述第一语音对应的第一文本显示在所述第一信息处理装置的显示部以及所述第二信息处理装置的显示部分别所包含的第一显示区域以及所述第一信息处理装置的所述显示部所包含的第二显示区域；以及

修正受理步骤，受理所述第一用户对所述第二显示区域所显示的所述第一文本的修正操作。

12.一种信息处理程序，其能够在经由网络连接的第一信息处理装置以及第二信息处理装置中，收发与用户发出的语音对应的文本信息，所述信息处理程序的特征在于，用于使一个或多个处理器执行如下步骤：