JP7489232B2

JP7489232B2 - 情報処理システム、情報処理方法、及び情報処理プログラム

Info

Publication number: JP7489232B2
Application number: JP2020087888A
Authority: JP
Inventors: 達也西尾; 文亮杉森
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2024-05-23
Anticipated expiration: 2040-05-20
Also published as: JP2021182091A; CN113722423A; US11804223B2; US20210366478A1

Description

本発明は、情報処理システム、情報処理方法、及び情報処理プログラムに関する。

従来、ユーザが発話した音声、当該音声を認識してテキスト変換したテキスト情報、当該ユーザの映像などを送受信して行う会議システムが知られている。また、前記音声を所望の言語のテキスト情報に翻訳して送受信する技術も提案されている（例えば特許文献１参照）。

特許第５３７４６２９号公報

ここで、従来の技術では、例えばユーザが発話した音声を変換したテキストに誤りが生じた場合に、当該テキストの送信先のユーザに誤った情報が提示されてしまう。また、この場合に、相手側のユーザが、誤った情報に応答してしまうことも考えられる。このように、従来の技術では、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが困難である。

本発明の目的は、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することにある。

本発明の一の態様に係る情報処理システムは、ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理システムであって、前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信部と、前記音声受信部より受信される前記第１音声を認識する音声認識部と、前記音声認識部により認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示制御部と、前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付部と、を備える。

本発明の他の態様に係る情報処理方法は、ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理方法であって、前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記第１音声を認識する音声認識ステップと、前記音声認識ステップにより認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示ステップと、前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付ステップと、を一又は複数のプロセッサにより実行する方法である。

本発明の他の態様に係る情報処理プログラムは、ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信させることが可能な情報処理プログラムであって、前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記第１音声を認識する音声認識ステップと、前記音声認識ステップにより認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示ステップと、前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付ステップと、を一又は複数のプロセッサにより実行させるためのプログラムである。

本発明によれば、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能である。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。図２は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。図３は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図４は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図５は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図６は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図７は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図８は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図９は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図１０は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図１１は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図１２は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。図１３は、本発明の実施形態に係る会議システムにおける情報処理の手順の一例を説明するためのフローチャートである。図１４は、本発明の実施形態に係る会議システムにおける情報処理の手順の一例を説明するためのフローチャートである。図１５は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る情報処理システムは、例えば複数の拠点（エリア）をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。例えば、前記情報処理システムは、ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する。また、本発明に係る情報処理システムは、第１拠点のユーザが発話した音声に対応するテキスト情報を第２拠点に配置された情報処理装置に表示させ、第２拠点のユーザが発話した音声に対応するテキスト情報を第１拠点に配置された情報処理装置に表示させる。

以下の実施形態では、情報処理システムがリモート会議（会議システム）に適用される場合を例に挙げて説明する。すなわち、本実施形態に係る会議システムは、本発明に係る情報処理システムの一例である。例えば本実施形態に係る会議システムでは、それぞれの拠点（会議室）に情報処理装置が配置され、一方の会議室の情報処理装置が、ユーザの発話した音声を受信し、サーバにより認識された当該音声に対応するテキスト情報を他方の会議室の情報処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。

［会議システム１００］
図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム１００は、各拠点（会議室）に配置される情報処理装置１と、サーバ２とを備えている。図１に示すように、情報処理装置１Ａ，１Ｂのそれぞれは、マイク、スピーカ及び表示部を備えた一体型の機器で構成される。なお、情報処理装置１Ａ，１Ｂのそれぞれは、マイク及びスピーカとパーソナルコンピュータ（ＰＣ）とが別体で構成された機器であってもよい。図１では、会議室Ｘに設置された情報処理装置１Ａと、会議室Ｙに設置された情報処理装置１Ｂとを示している。情報処理装置１Ａと情報処理装置１Ｂとサーバ２とは、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。情報処理装置１Ａは本発明の第１情報処理装置の一例であり、情報処理装置１Ｂは本発明の第２情報処理装置の一例である。

会議システム１００では、例えば情報処理装置１Ａが会議室ＸのユーザＡが発話した音声を受信し、サーバ２が当該音声の認識処理、他言語への翻訳処理などを実行してテキストに変換する。情報処理装置１Ａはサーバ２による音声認識の結果（前記音声に対応するテキスト情報）を会議室Ｙの情報処理装置１Ｂに送信する。情報処理装置１Ｂは、情報処理装置１Ａから受信する前記テキスト情報を表示部に表示させ、前記音声をスピーカから出力させる。同様に、情報処理装置１Ｂが会議室ＹのユーザＢが発話した音声を受信し、サーバ２が当該音声の認識処理、他言語への翻訳処理などを実行してテキストに変換する。情報処理装置１Ｂはサーバ２による音声認識の結果（前記音声に対応するテキスト情報）を会議室Ｘの情報処理装置１Ａに送信する。情報処理装置１Ａは、情報処理装置１Ｂから受信する前記テキスト情報を表示部に表示させ、前記音声をスピーカから出力させる。このようにして、会議室Ｘ，ＹのそれぞれのユーザＡ，Ｂは会話を行うことが可能となる。

ここで、会議システム１００では、ユーザが発話した音声を変換したテキストに誤りが生じることがある。会議システム１００は、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能である。以下、会議システム１００の具体的な構成について説明する。尚、以下の説明では、情報処理装置１Ａ，１Ｂを区別しない場合は「情報処理装置１」と称す。

［情報処理装置１］
各拠点（ここでは会議室Ｘ，Ｙ）に配置される情報処理装置１は同一の構成を備える。ここでは、会議室Ｘに配置される情報処理装置１Ａを例に挙げて説明する。図２に示すように、情報処理装置１Ａは、制御部１１、記憶部１２、スピーカ１３、マイク１４、表示部１５、及び通信インターフェース１６などを備える。情報処理装置１Ａは、例えばパーソナルコンピュータである。マイク１４は、パーソナルコンピュータの外部に配置され、通信ケーブルでパーソナルコンピュータに接続されてもよい。情報処理装置１Ａは、例えば会議室Ｘの机上に配置され、会議に参加するユーザＡの音声をマイク１４を介して取得したり、ユーザＡに対してスピーカ１３から音声を出力（報知）したりする。

通信インターフェース１６は、情報処理装置１Ａを有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば、情報処理装置１Ｂ、サーバ２など）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

表示部１５は、各種の情報を表示する液晶ディスプレイ、有機ＥＬディスプレイなどの表示パネルである。

記憶部１２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。記憶部１２には、制御部１１に後述の情報処理（図１３、図１４参照）を実行させるための情報処理プログラムなどの制御プログラムが記憶されている。例えば、前記情報処理プログラムは、外部サーバから配信されて記憶される。また前記情報処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、情報処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより情報処理装置１Ａを制御する。

具体的に、制御部１１は、音声受信部１１１、処理要求部１１２、表示制御部１１３、修正受付部１１４、音声要求部１１５などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記情報処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部１１１は、情報処理装置１Ａを利用するユーザＡが発話した音声（音声データ）をマイク１４から受信する。音声受信部１１１は、本発明の音声受信部の一例である。例えば、情報処理装置１Ａの音声受信部１１１は、会議室ＸのユーザＡが発話した音声を受信し、情報処理装置１Ｂの音声受信部１１１は、会議室ＹのユーザＢが発話した音声を受信する。

また、音声受信部１１１は、ユーザＡの前記音声を受信中であること（すなわちユーザＡが発話中であること）を示すステータス情報を情報処理装置１Ｂに送信する。

処理要求部１１２は、サーバ２に各種処理の要求を行う。具体的には、処理要求部１１２は、音声受信部１１１より受信された前記音声（音声データ）の認識処理を要求する。サーバ２は、情報処理装置１Ａから音声認識要求を取得すると、前記音声に対する認識処理を実行して、認識結果を情報処理装置１Ａに送信する。例えば、サーバ２は、前記音声をテキスト（文字）に変換する処理を行った場合、当該テキスト情報を前記認識結果として情報処理装置１Ａに送信する。

また、処理要求部１１２は、音声受信部１１１より受信された前記音声の翻訳処理を要求する。サーバ２は、情報処理装置１Ａから音声翻訳要求を取得すると、前記音声に対応する前記テキストに対する翻訳処理を実行して、翻訳結果を情報処理装置１Ａに送信する。例えば、サーバ２は、第１言語（例えば日本語）の前記音声に対応する前記テキストを第２言語（英語）のテキストに翻訳した場合、第２言語のテキスト情報を前記翻訳結果として情報処理装置１Ａに送信する。

表示制御部１１３は、表示部１５に各種情報を表示させる。具体的には、表示制御部１１３は、前記表示処理プログラムに応じた表示画面Ｄ１を表示部１５に表示させる。図３は、表示画面Ｄ１の一例を示す図である。表示画面Ｄ１には、ユーザＡが発話した音声の録音を開始及び終了させるためのボタンＫ１と、発話音声の言語（例えば日本語）を選択するボタンＫ２と、当該発話音声の言語の翻訳先の言語（例えば英語）を選択するボタンＫ３と、ユーザＡが発話した音声に対応するテキストをリアルタイムで表示する第２表示領域Ｒ２と、所定のタイミングで区切られた期間のユーザＡの発話内容に対応するテキストを表示する第１表示領域Ｒ１と、ユーザＡが第２表示領域Ｒ２に表示されたテキストを修正（手書き修正）してサーバ２に認識処理、翻訳処理などを再度要求（再送）するボタンＫ４とが含まれる。

例えば、ユーザＡがボタンＫ１を押下して発話を開始し、音声受信部１１１が音声の受信を開始した場合に、情報処理装置１Ａの表示制御部１１３は、図４に示すように、ユーザＡが発話中であることを示す識別情報（発話中マークＭ１）を情報処理装置１Ａの表示画面Ｄ１に表示させる。また、情報処理装置１Ｂの表示制御部１１３は、情報処理装置１Ａから前記ステータス情報（発話中）を取得すると、図４に示すように、ユーザＡが発話中であることを示す識別情報（発話中マークＭ１）を情報処理装置１Ｂの表示画面Ｄ１に表示させる。なお、発話中マークＭ１は、情報処理装置１ごとに異なってもよいし、発話中のユーザを識別可能な情報（氏名、ユーザＩＤなど）が含まれてもよい。

また、情報処理装置１Ａの表示制御部１１３は、サーバ２の音声認識部２１１（後述）により認識されるユーザＡの音声（本発明の第１音声の一例）に対応するテキスト（本発明の第１テキストの一例）を、情報処理装置１Ａの第１表示領域Ｒ１及び第２表示領域Ｒ２のそれぞれに表示させる。また、情報処理装置１Ｂの表示制御部１１３は、サーバ２の音声認識部２１１により認識されるユーザＡの音声に対応するテキストを、情報処理装置１Ｂの第１表示領域Ｒ１に表示させる。

例えば、ユーザＡが「こんにちは」を発話した場合に、情報処理装置１Ａの表示制御部１１３は、図５に示すように、ユーザＡの音声に対応するテキスト「こんにちは。」を、情報処理装置１Ａの第１表示領域Ｒ１及び第２表示領域Ｒ２のそれぞれに表示させる。また、情報処理装置１Ａの表示制御部１１３は、ユーザＡが発話した「こ」が認識された時点で第２表示領域Ｒ２に「こ」を表示させ、続けてユーザＡが発話した「ん」が認識された時点で第２表示領域Ｒ２に「ん」を表示させる。このように、表示制御部１１３は、ユーザＡの発話に応じてリアルタイムにテキストを第２表示領域Ｒ２に表示させる。そして、ユーザＡが「は」を発話した後、所定時間発話しなかった場合、情報処理装置１Ａの表示制御部１１３は、図５に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果をサーバ２から取得して第１表示領域Ｒ１に表示させる。このように、表示制御部１１３は、ユーザＡの発話に応じてリアルタイムにテキストを第２表示領域Ｒ２に表示させ、所定のタイミングで区切られた期間の発話内容に対応するテキストを第１表示領域Ｒ１に表示させる。また、表示制御部１１３は、ユーザＡの第１言語の発話に応じてリアルタイムに第１言語のテキストを第２表示領域Ｒ２に表示させ、所定のタイミングで区切られた期間の発話内容に対応するテキストを第２言語に変換（翻訳）した第２言語のテキストを第１表示領域Ｒ１に表示させる。

なお、情報処理装置１Ａの表示制御部１１３は、第１表示領域Ｒ１に、ユーザＡが発話した時間（ここでは「１７：３９：３６」）（本発明の第１テキストの一例）を表示させてもよい。

また、情報処理装置１Ａの表示制御部１１３は、前記認識処理及び翻訳処理の結果と、ステータス情報（処理完了）とを情報処理装置１Ｂに送信する。情報処理装置１Ｂの表示制御部１１３は、情報処理装置１Ａから前記認識処理及び翻訳処理の結果とステータス情報（処理完了）とを取得すると、図５に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果を第１表示領域Ｒ１に表示させる。なお、情報処理装置１Ｂの表示制御部１１３は、第１表示領域Ｒ１に、ユーザＡが発話した時間（ここでは「１７：３９：３６」）（本発明の第１テキストの一例）を表示させてもよい。なお、情報処理装置１Ｂの第２表示領域Ｒ２には、ユーザＡの音声に対応するテキストは表示されない。

修正受付部１１４は、第２表示領域Ｒ２に表示されるテキストに対するユーザＡの修正操作を受け付ける。例えば、ユーザＡが「こんばんは」と発話したにもかかわらず「こんにちは」と認識されて情報処理装置１Ａ，１Ｂに表示された場合に、ユーザＡは第２表示領域Ｒ２においてテキストを修正することが可能である。例えばユーザＡが「こんにちは」の一部を削除し（図６参照）、「こんばんは」に修正（図７参照）する操作を行うと、修正受付部１１４は、ユーザＡの修正操作を受け付ける。

このように、第１表示領域Ｒ１は、主に、音声認識したテキストのやり取り（ログ）が表示されるエリアである。例えば、第１表示領域Ｒ１には、テキスト以外に、発言者やタイムスタンプ、翻訳された結果が表示される。また、第１表示領域Ｒ１の表示内容は、自分及び相手の両方が見ることができる。第２表示領域Ｒ２は、音声認識したテキストがリアルタイムに文字単位で表示されるエリアである。音声認識された文字は、最初に第２表示領域Ｒ２に表示される。ユーザの発話が途切れると、第１表示領域Ｒ１に音声認識及び翻訳されたテキストが表示される。第１表示領域Ｒ１に音声認識された結果が表示されても、次の音声認識がされない限り、第２表示領域Ｒ２に前回音声認識されたテキストが表示され続ける。ユーザは、第２表示領域Ｒ２に表示されるテキストを、キーボードとマウス操作により修正して再送することができる。また、第２表示領域Ｒ２の表示内容は、自分しか見ることができない。

なお、ユーザＡの修正操作の受け付けが開始されると、情報処理装置１Ａの表示制御部１１３は、図６に示すように、修正中であることを示す識別情報（修正中マークＭ２）を表示画面Ｄ１に表示させる。また、表示制御部１１３は、ユーザＡがテキストを修正中であることを示すステータス情報を情報処理装置１Ｂに送信する。情報処理装置１Ｂの表示制御部１１３は、情報処理装置１Ａから前記ステータス情報（修正中）を取得すると、図６に示すように、ユーザＡが修正中であることを示す識別情報（修正中マークＭ２）を情報処理装置１Ｂの表示画面Ｄ１に表示させる。なお、修正中マークＭ２は、情報処理装置１ごとに異なってもよいし、修正中のユーザを識別可能な情報（氏名、ユーザＩＤなど）が含まれてもよい。修正中マークＭ２は、本発明の修正操作情報の一例である。

ユーザＡが修正操作を完了してボタンＫ４を押下すると、処理要求部１１２は、サーバ２に翻訳処理を再度要求する。サーバ２は、情報処理装置１Ａから音声翻訳要求を取得すると、修正後の前記テキストに対する翻訳処理を実行して、翻訳結果を情報処理装置１Ａに送信する。情報処理装置１Ａの表示制御部１１３は、図７に示すように、修正されたテキスト（「こんばんは」）を第１表示領域Ｒ１に表示させ、「こんばんは」に対する翻訳処理の結果をサーバ２から取得して第１表示領域Ｒ１に表示させる。また、情報処理装置１Ａの表示制御部１１３は、第１表示領域Ｒ１に、ユーザＡが修正した時間（ここでは「１７：４３：４２」）を表示させてもよい。これにより、誤って音声認識及び翻訳されたテキストをユーザＡが修正中であることをユーザＢが把握することができるため、ユーザＢは誤って音声認識及び翻訳されたテキストに対して応答（返信）してしまうことを回避することができ、効率的に会議を進めることができる。

また、情報処理装置１Ａの表示制御部１１３は、修正されたテキスト（「こんばんは」）と、修正された翻訳処理の結果と、ステータス情報（処理完了）とを情報処理装置１Ｂに送信する。情報処理装置１Ｂの表示制御部１１３は、情報処理装置１Ａから前記テキスト（「こんばんは」）と前記翻訳処理の結果とステータス情報（処理完了）とを取得すると、図７に示すように、修正されたテキスト（「こんばんは」）と、「こんばんは」に対する翻訳処理の結果とを第１表示領域Ｒ１に表示させる。このように、情報処理装置１Ａ，１Ｂの表示制御部１１３は、修正後のテキスト（「こんばんは。」）を第１表示領域Ｒ１に表示させる。なお、情報処理装置１Ｂの表示制御部１１３は、第１表示領域Ｒ１に、ユーザＡが修正した時間（ここでは「１７：４３：４２」）を表示させてもよい。なお、情報処理装置１Ｂの第２表示領域Ｒ２には、ユーザＡの修正操作に対応するテキストは表示されない。すなわち、第２表示領域Ｒ２は、発話者からテキストの修正操作を受け付ける領域である。

ここで、情報処理装置１Ｂの表示制御部１１３は、図８に示すように、情報処理装置１Ｂの第１表示領域Ｒ１において、誤認識された前記テキスト（「こんにちは。」）のうちユーザＡの修正部分（「ばんは」）を識別可能に表示させてもよい。例えば、図８に示すように、表示制御部１１３は、前記修正部分に識別マークＭ３を付加してもよい。例えば、表示制御部１１３は、情報処理装置１Ｂの第１表示領域Ｒ１に表示されたテキストのうち、情報処理装置１Ａの第２表示領域Ｒ２において削除された部分（「にちは」）に対応する部分に網掛け表示を行う。このように、表示制御部１１３は、ユーザＡがテキストを修正中に、情報処理装置１Ｂの第１表示領域Ｒ１において、リアルタイムに当該テキストの修正部分を識別可能に表示させる。これにより、ユーザＢはユーザＡによるテキストの修正部分をリアルタイムに把握することが可能になる。識別マークＭ３は、例えば、網掛け（図８参照）、下線、文字色、文字フォントなどが挙げられる。これにより、ユーザＡが修正している箇所（部分）をユーザＢが把握することができる。

情報処理装置１Ａ，１Ｂの表示制御部１１３は、修正前のテキスト（「こんにちは。」）を削除し、修正後のテキスト（「こんばんは。」）を第１表示領域Ｒ１に表示させてもよい。これにより、適切な情報だけを第１表示領域Ｒ１に表示させることができるため、ユーザＢが修正前の情報から混乱することを防止することができる。また、この場合に、情報処理装置１Ａ，１Ｂの表示制御部１１３は、図９に示すように、ユーザＡが修正したことを示す識別情報（修正済マークＭ４）を第１表示領域Ｒ１に表示させてもよい。これにより、ユーザＡ，Ｂは、第１表示領域Ｒ１に表示されたテキストが修正されたものであるか否かを判断することができる。また、情報処理装置１Ａ，１Ｂの表示制御部１１３は、図１０に示すように、修正前のテキストの発話時間（「１７：３９：３６」）と、修正された時間（「１７：４３：４２」）とを第１表示領域Ｒ１に表示させてもよい。これにより、ユーザＡ，Ｂは、第１表示領域Ｒ１に表示されたテキストが修正された時間を把握することができる。また、情報処理装置１Ａ，１Ｂの表示制御部１１３は、図１１に示すように、修正前のテキストの情報と修正後のテキストの情報とを並べて第１表示領域Ｒ１に表示させてもよい。これにより、ユーザＡ，Ｂは、修正前後のテキストを把握することができ、修正内容を容易に把握することができる。このように、表示制御部１１３は、修正前のテキストを修正後のテキストに上書きしてもよいし、修正後のテキストを修正前のテキストとは別の場所に表示させてもよい。また、修正前のテキストを修正後のテキストに上書きした場合には、修正されたか否かをユーザが把握することができるように、表示制御部１１３は、図９～図１１に示すように、修正されたことを示す情報（識別マークＭ４、発話時間及び修正時間、修正前後のテキストなど）を表示させることが好ましい。

なお、情報処理装置１Ａ，１Ｂの表示制御部１１３は、図１２に示すように、誤って認識されたテキストをユーザＡが削除操作した場合に、削除した時間と、削除したことを示す識別情報（削除マークＭ５）とを第１表示領域Ｒ１に表示させてもよい。これにより、誤認識だけでなく、独り言など、そもそも相手に送る意図のない発言を削除し、混乱を防ぐことができる。

音声要求部１１５は、サーバ２に認識処理及び翻訳処理の結果（テキスト）を音声に変換する要求を行う。具体的には、情報処理装置１Ｂの音声要求部１１５は、情報処理装置１Ａから取得する認識処理及び翻訳処理の結果（テキスト）を音声に変換する要求をサーバ２に送信する。サーバ２は、情報処理装置１Ｂから音声変換要求を取得すると、前記テキストに対する音声変換処理を実行して、変換結果を情報処理装置１Ｂに送信する。例えば、サーバ２は、テキスト「こんにちは」の翻訳結果「Ｈｅｌｌｏ」を音声データに変換して情報処理装置１Ｂに送信する。情報処理装置１Ｂの音声要求部１１５は、サーバ２から前記音声データを取得すると、図５に示すように、情報処理装置１Ｂのスピーカ１３から「Ｈｅｌｌｏ」の音声を出力（再生）させる。なお、ユーザＡが前記テキスト「こんにちは」を「こんばんは」に修正した場合には、情報処理装置１Ｂの音声要求部１１５は、図７に示すように、サーバ２から「こんばんは」の翻訳結果「Ｇｏｏｄｅｖｅｎｉｎｇ」の音声データを取得して、情報処理装置１Ｂのスピーカ１３から「Ｇｏｏｄｅｖｅｎｉｎｇ」の音声を出力させる。これにより、例えば、日本語を使用するユーザＡと、英語を使用するユーザＢとが、スムーズに会話を行うことが可能となる。なお、制御部１１は、ユーザによりテキストが修正された場合に、修正後のテキストを音声出力させるか否かをユーザが任意に選択可能な構成としてもよい。例えば、制御部１１は、修正後のテキストを音声出力させるか否かを選択する選択画面（不図示）を情報処理装置１に表示させて、ユーザから選択操作を受け付けてもよい。

［サーバ２］
図２に示すように、サーバ２は、制御部２１、記憶部２２、及び通信インターフェース２３などを備える。なお、サーバ２は、１台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、サーバ２は、物理サーバであってもよいし、クラウドサーバであってもよい。また、サーバ２で実行される各種の処理は、一又は複数のプロセッサによって分散して実行されてもよい。

通信インターフェース２３は、サーバ２を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば、情報処理装置１Ａ，１Ｂなど）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部２２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。記憶部２２には、制御部２１に後述の情報処理（図１３、図１４参照）を実行させるための情報処理プログラムなどの制御プログラムが記憶されている。例えば、前記情報処理プログラムは、外部サーバから配信されて記憶される。また前記情報処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、サーバ２が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部２２に記憶されてもよい。

制御部２１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部２１は、前記ＲＯＭ又は記憶部２２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することによりサーバ２を制御する。

具体的に、制御部２１は、音声認識部２１１、音声翻訳部２１２、音声変換部２１３などの各種の処理部を含む。なお、制御部２１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部２１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記情報処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

音声認識部２１１は、前記音声認識要求に基づいて、情報処理装置１の音声受信部１１１より受信されるユーザの音声を認識する認識処理を実行する。具体的には、音声認識部２１１は、情報処理装置１Ａから前記音声認識要求を取得すると、ユーザＡが発話した「こ」を認識してテキスト情報の「こ」に変換する。また、音声認識部２１１は、ユーザＡが発話した「こんにちは」を認識してテキスト情報の「こんにちは」に変換する。前記テキスト情報に漢字変換可能なワードが含まれる場合には、音声認識部２１１は、漢字のテキストに変換する。音声認識部２１１は、音声の認識結果（テキスト）を前記音声認識要求の要求元の情報処理装置１Ａに送信する。

音声翻訳部２１２は、前記音声翻訳要求に基づいて、情報処理装置１から取得するテキストを翻訳する翻訳処理を実行する。具体的には、ユーザＡが表示画面Ｄ１（図３参照）においてボタンＫ２で「日本語」を選択し、ボタンＫ３で「英語」を選択した場合に、音声翻訳部２１２は、情報処理装置１Ａからテキスト「こんにちは」の前記音声翻訳要求を取得すると、「こんにちは」を「Ｈｅｌｌｏ」に変換する。音声翻訳部２１２は、前記テキストの翻訳結果（テキスト）を前記音声翻訳要求の要求元の情報処理装置１Ａに送信する。

音声変換部２１３は、前記音声変換要求に基づいて、情報処理装置１から取得するテキストを音声に変換する音声変換処理を実行する。具体的には、音声変換部２１３は、情報処理装置１Ｂからテキスト「Ｈｅｌｌｏ」の前記音声変換要求を取得すると、「Ｈｅｌｌｏ」の音声データに変換する。音声変換部２１３は、前記テキストの変換結果（音声データ）を前記音声変換要求の要求元の情報処理装置１Ｂに送信する。

［情報処理］
以下、図１３を参照しつつ、会議システム１００によって実行される情報処理の手順の一例について説明する。前記情報処理は、例えば、情報処理装置１Ａの制御部１１、情報処理装置１Ｂの制御部１１、及びサーバ２の制御部２１によって実行される。例えば、情報処理装置１Ａ，１Ｂの制御部１１が会議システムを開始することにより前記情報処理プログラムの実行を開始することによって、前記情報処理の実行を開始する。

なお、本発明は、前記情報処理に含まれる一又は複数のステップを実行する情報処理方法の発明として捉えることができる。また、ここで説明する前記情報処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記情報処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは情報処理装置１Ａの制御部１１、情報処理装置１Ｂの制御部１１、及びサーバ２の制御部２１によって前記情報処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、１又は複数のプロセッサによって前記情報処理における各ステップが分散して実行されてもよい。

ステップＳ１において、情報処理装置１Ａの制御部１１は、ユーザＡの発話した音声の録音を開始する。例えば、ユーザＡが表示画面Ｄ１のボタンＫ１を押下すると、情報処理装置１Ａの制御部１１は録音を開始して、ユーザＡの前記音声をマイク１４から受信する。また情報処理装置１Ａの制御部１１は、ユーザＡの前記音声を受信中であること（すなわちユーザＡが発話中であること）を示すステータス情報を情報処理装置１Ｂに送信する。

ステップＳ２において、情報処理装置１Ｂの制御部１１は、情報処理装置１Ａから前記ステータス情報（発話中）を受信すると、図４に示すように、ユーザＡが発話中であることを示す識別情報（発話中マークＭ１）を情報処理装置１Ｂの表示画面Ｄ１に表示させる。

ユーザＡが表示画面Ｄ１のボタンＫ１を押下すると、情報処理装置１Ａの制御部１１は録音を終了し（Ｓ３）、音声認識要求をサーバ２に送信する（Ｓ４）。例えば、ユーザＡの発話「こんにちは」に対応する音声認識要求をサーバ２に送信する。

ステップＳ５において、サーバ２の制御部２１は、情報処理装置１Ａから前記音声認識要求を受信すると、ユーザＡの音声を認識する認識処理を実行する。例えば、制御部２１は、ユーザＡが発話した「こんにちは」を認識してテキスト情報の「こんにちは」に変換する。制御部２１は、音声の認識結果（テキスト）を前記音声認識要求の要求元の情報処理装置１Ａに送信する。

情報処理装置１Ａの制御部１１は、サーバ２から前記認識結果を取得すると（Ｓ６）、当該認識結果に対応する音声翻訳要求をサーバ２に送信する（Ｓ７）。例えば、テキスト「こんにちは」に対応する音声翻訳要求をサーバ２に送信する。

ステップＳ８において、サーバ２の制御部２１は、情報処理装置１Ａから前記音声翻訳要求を受信すると、前記テキストを翻訳する翻訳処理を実行する。例えば、制御部２１は、日本語の「こんにちは」を英語の「Ｈｅｌｌｏ」に翻訳する。制御部２１は、テキストの翻訳結果（テキスト）を前記音声翻訳要求の要求元の情報処理装置１Ａに送信する。

情報処理装置１Ａの制御部１１は、サーバ２から前記翻訳結果を取得すると（Ｓ９）、第１表示領域Ｒ１（図５参照）に当該翻訳結果である「Ｈｅｌｌｏ」のテキストを表示させる（Ｓ１０）。また、情報処理装置１Ａの制御部１１は、前記認識処理及び翻訳処理の結果と、ステータス情報（処理完了）とを情報処理装置１Ｂに送信する。

情報処理装置１Ｂの制御部１１は、情報処理装置１Ａから前記認識処理及び翻訳処理の結果とステータス情報（処理完了）とを受信すると（Ｓ１１）、図５に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果を第１表示領域Ｒ１に表示させる（Ｓ１２）。

ステップＳ１３において、情報処理装置１Ｂの制御部１１は、音声変換要求をサーバ２に送信する。例えば、情報処理装置１Ｂの制御部１１は、翻訳結果「Ｈｅｌｌｏ」に対応する音声変換要求をサーバ２に送信する。

ステップＳ１４において、サーバ２の制御部２１は、情報処理装置１Ｂから前記音声変換要求を受信すると、情報処理装置１Ｂから取得するテキストを音声に変換する音声変換処理を実行する。例えば、制御部２１は、情報処理装置１Ｂからテキスト「Ｈｅｌｌｏ」の前記音声変換要求を取得すると、「Ｈｅｌｌｏ」の音声データに変換する。制御部２１は、前記テキストの変換結果（音声データ）を前記音声変換要求の要求元の情報処理装置１Ｂに送信する。

情報処理装置１Ｂの制御部２１は、サーバ２から前記変換結果（音声データ）を取得すると（Ｓ１５）、当該変換結果に対応する音声をスピーカ１３から出力（再生）させる。例えば、制御部２１は、情報処理装置１Ｂのスピーカ１３から「Ｈｅｌｌｏ」の音声を出力（再生）させる。

ここで、ユーザＡの発話に対応する前記認識結果（テキスト）が情報処理装置１Ａの第１表示領域Ｒ１及び第２表示領域Ｒ２に表示された後に、ユーザＡから前記認識結果（テキスト）に対する修正操作（図６参照）を受け付けた場合（図１４のステップＳ２１）、情報処理装置１Ａの制御部１１は、前記テキストを修正中であることを示す識別情報（修正中マークＭ２）を情報処理装置１Ａの表示画面Ｄ１に表示させる（Ｓ２２）。また、情報処理装置１Ｂの制御部１１は、情報処理装置１ＡからユーザＡが前記テキストを修正中であることを示すステータス情報を受信すると（Ｓ２３）、修正中マークＭ２を情報処理装置１Ｂの表示画面Ｄ１に表示させる（Ｓ２４）。

ユーザＡが修正操作を終えて再送のボタンＫ４を押下すると（Ｓ２５）、情報処理装置１Ａの制御部１１は、修正後の前記テキストに対する音声翻訳要求をサーバ２に送信する（Ｓ２６）。例えば、テキスト「こんばんは」に対応する音声翻訳要求をサーバ２に送信する。

ステップＳ２７において、サーバ２の制御部２１は、情報処理装置１Ａから前記音声翻訳要求を受信すると、前記テキストを翻訳する翻訳処理を実行する。例えば、制御部２１は、日本語の「こんばんは」を英語の「Ｇｏｏｄｅｖｅｎｉｎｇ」に翻訳する。制御部２１は、修正後のテキストの翻訳結果（テキスト）を前記音声翻訳要求の要求元の情報処理装置１Ａに送信する。その後の処理（Ｓ２８～Ｓ３５）は、図１３に示す処理（Ｓ９～Ｓ１６）と同一である。

以上のようにして、会議システム１００は、前記情報処理を実行する。上述のように、本実施形態に係る会議システム１００は、ネットワークＮ１を介して接続された情報処理装置１Ａ，１Ｂにおいて、ユーザが発話した音声に対応するテキスト情報を送受信可能である。また、会議システム１００は、情報処理装置１ＡのユーザＡが発話した音声を受信して前記音声を認識する。また会議システム１００は、認識した前記音声に対応するテキストを、情報処理装置１Ａ，１Ｂのそれぞれの第１表示領域Ｒ１と、情報処理装置１Ａの第２表示領域Ｒ２とに表示させる。さらに、会議システム１００は、第２表示領域Ｒ２に表示された前記テキストに対するユーザＡの修正操作を受け付ける。これにより、例えばユーザＡが発話した音声に対応するテキスト情報に誤りが生じた場合に、ユーザＡは当該テキストを修正することができるため、適切なテキスト情報の送受信を円滑に行うことが可能となる。また、ユーザＡが修正操作をしている場合に、情報処理装置１Ｂに、前記テキストが修正されていることを示す情報が表示されるため、ユーザＢは前記テキストが修正されることを把握することができる。よって、ユーザＢが、誤ったテキストに応答してしまうことを防止することもできる。

本発明の情報処理システムは上述の構成に限定されない。

会議システム１００は、翻訳機能を備えていなくてもよい。この場合、会議システム１００は、情報処理装置１Ａ，１Ｂにおいて同一言語のテキスト情報を送受信する。

また、会議システム１００は、情報処理装置１Ａの表示制御部１１３は、図１５に示すように、情報処理装置１ＢのユーザＢが発話した音声（本発明の第２音声の一例）に対応するテキスト（本発明の第２テキストの一例）を情報処理装置１Ａの第３表示領域Ｒ３に表示させてもよい。すなわち、表示画面Ｄ１には、ユーザＡ（本発明の第１ユーザの一例）の発話内容を音声認識した結果がリアルタイムに第２表示領域Ｒ２に表示され、所定のタイミングで区切られた発話内容を音声認識した結果が第１表示領域Ｒ１に表示され、ユーザＢ（本発明の第２ユーザの一例）の発話内容を音声認識した結果がリアルタイムに第３表示領域Ｒ３に表示される。なお、第３表示領域Ｒ３には、ユーザＢの発話内容に対応するテキストに対するユーザＢの修正操作の内容が表示される。このため、ユーザＡはユーザＢがテキストを修正していること、修正している箇所などを把握することができる。

なお、第１表示領域Ｒ１には、時系列で古い順に発話内容が上から下に表示される。すなわち、第１表示領域Ｒ１において、最新の発話内容が一番下に表示される。このため、第２表示領域Ｒ２は第１表示領域Ｒ１の下に配置されることが好ましい。これにより、第１表示領域Ｒ１に表示される修正対象の発話内容が第２表示領域Ｒ２の近くに表示されるため、ユーザは第２表示領域Ｒ２において修正操作を行い易くなる。また、第３表示領域Ｒ３は第１表示領域Ｒ１の上に配置されることが好ましい。これにより、第２表示領域Ｒ２と第３表示領域Ｒ３とが離れて配置されるため、ユーザは自身の修正操作と相手の修正操作とを見分け易くなる。なお、第１表示領域Ｒ１において時系列で古い順に発話内容が下から上に表示される場合、すなわち、第１表示領域Ｒ１において最新の発話内容が一番上に表示される場合には、第２表示領域Ｒ２が第１表示領域Ｒ１の上に配置され、第３表示領域Ｒ３が第１表示領域Ｒ１の下に配置されることが好ましい。

また、会議システム１００において、情報処理装置１の表示制御部１１３及び修正受付部１１４は、サーバ２に含まれてもよい。また、会議システム１００において、サーバ２の音声認識部２１１、音声翻訳部２１２、及び音声変換部２１３は、情報処理装置１に含まれてもよい。

尚、本発明の情報処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

１：情報処理装置
１Ａ：情報処理装置
１Ｂ：情報処理装置
２：サーバ
１００：会議システム
１１１：音声受信部
１１２：処理要求部
１１３：表示制御部
１１４：修正受付部
１１５：音声要求部
２１１：音声認識部
２１２：音声翻訳部
２１３：音声変換部
Ｒ１：第１表示領域
Ｒ２：第２表示領域
Ｒ３：第３表示領域

Claims

ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理システムであって、
前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信部と、
前記音声受信部より受信される前記第１音声を認識する音声認識部と、
前記音声認識部により認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示制御部と、
前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付部と、
を備え、
前記表示制御部は、
（１）前記第１ユーザの発話が開始されると前記第１ユーザの発話内容に対応するテキストをリアルタイムで前記第２表示領域に表示させ、所定のタイミングで区切られた期間の前記第１ユーザの発話内容に対応する前記第１テキストを、前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させ、
（２）前記第２表示領域に表示された前記テキストに対して前記第１ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第２情報処理装置の前記表示部に表示させ、その後に前記第１ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させる、情報処理システム。
前記修正操作情報は、前記第１ユーザの識別情報を含む、
請求項１に記載の情報処理システム。
前記表示制御部は、前記第２情報処理装置の前記第１表示領域において、前記第１テキストのうち前記第１ユーザの修正部分を識別可能に表示させる、
請求項１又は請求項２に記載の情報処理システム。
前記表示制御部は、前記第１ユーザが前記第２表示領域に表示された前記テキストを修正中に、前記第２情報処理装置の前記第１表示領域において、リアルタイムに当該第１テキストの修正部分を識別可能に表示させる、
請求項３に記載の情報処理システム。
前記表示制御部は、前記第２情報処理装置の前記第１表示領域において、前記第１ユーザが修正する前の前記第１テキストと、前記第１ユーザが修正した後の前記第１テキストとの両方を表示させる、
請求項１又は請求項２に記載の情報処理システム。
前記表示制御部は、前記第１ユーザの第１言語の発話に応じてリアルタイムに前記第１言語の前記テキストを前記第２表示領域に表示させ、所定のタイミングで区切られた期間の発話内容に対応する前記第１テキストを第２言語に変換した前記第２言語の前記第１テキストを前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させる、
請求項１から請求項５のいずれか１項に記載の情報処理システム。
前記表示制御部は、前記第２情報処理装置の第２ユーザが発話した第２音声に対応する第２テキストを前記第１情報処理装置の第３表示領域に表示させる、
請求項１から請求項６のいずれか１項に記載の情報処理システム。
ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理方法であって、
前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記第１音声を認識する音声認識ステップと、
前記音声認識ステップにより認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示ステップと、
前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付ステップと、
を一又は複数のプロセッサが実行し、
前記表示ステップにおいて、
（１）前記第１ユーザの発話が開始されると前記第１ユーザの発話内容に対応するテキストをリアルタイムで前記第２表示領域に表示させ、所定のタイミングで区切られた期間の前記第１ユーザの発話内容に対応する前記第１テキストを、前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させ、
（２）前記第２表示領域に表示された前記テキストに対して前記第１ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第２情報処理装置の前記表示部に表示させ、その後に前記第１ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させる、情報処理方法。
ネットワークを介して接続された第１情報処理装置及び第２情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信させることが可能な情報処理プログラムであって、
前記第１情報処理装置の第１ユーザが発話した第１音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記第１音声を認識する音声認識ステップと、
前記音声認識ステップにより認識される前記第１音声に対応する第１テキストを、前記第１情報処理装置の表示部及び前記第２情報処理装置の表示部のそれぞれに含まれる第１表示領域と、前記第１情報処理装置の前記表示部に含まれる第２表示領域とに表示させる表示ステップと、
前記第２表示領域に表示される前記第１テキストに対する前記第１ユーザの修正操作を受け付ける修正受付ステップと、
を一又は複数のプロセッサに実行させるための情報処理プログラムであって、
前記表示ステップにおいて、
（１）前記第１ユーザの発話が開始されると前記第１ユーザの発話内容に対応するテキストをリアルタイムで前記第２表示領域に表示させ、所定のタイミングで区切られた期間の前記第１ユーザの発話内容に対応する前記第１テキストを、前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させ、
（２）前記第２表示領域に表示された前記テキストに対して前記第１ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第２情報処理装置の前記表示部に表示させ、その後に前記第１ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第１情報処理装置及び前記第２情報処理装置のそれぞれの前記第１表示領域に表示させる、情報処理プログラム。