JP5977597B2

JP5977597B2 - 情報処理装置、通信システム、通信方法、およびプログラム

Info

Publication number: JP5977597B2
Application number: JP2012141030A
Authority: JP
Inventors: 尚久蔦田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2012-06-22
Filing date: 2012-06-22
Publication date: 2016-08-24
Anticipated expiration: 2032-06-22
Also published as: JP2014006648A

Description

本発明は、情報処理装置、通信システム、通信方法、およびプログラムに関し、特に相手方の情報処理装置との通信に関する。

従来から、お互いが遠隔地にいるユーザそれぞれが、電話などの情報処理装置を用いて通話を行う技術がある。例えば、特開２００３−２０９６００号公報（特許文献１）は、相手との会話を明確にするために、相手の通信端末から送信された音声情報を音声認識して、文字情報に変換し、該文字情報を表示する技術を開示している。

特開２００３−２０９６００号公報

上記技術では、ユーザが相手方ユーザと通話を行っている場合に、該通話において、以前の該相手方ユーザの発言に対して、該ユーザがさらに発言（例えば、質問）した場合に、該相手方ユーザの発言とユーザの発言との関連付けが明瞭ではないという問題が生じる。

本発明は、このような問題を解決するためのものであって、その目的は、ユーザが音声認識を結果を指定して発話することにより、該音声認識結果と、該発話についての音声認識結果を、相手方の情報処理装置の表示部に関連付けて表示させ、上記問題を解決できる情報処理装置、通信システム、通信方法、およびプログラムを提供することである。

本発明のある局面に従う情報処理装置は、情報表示端末と通信可能であって、文字情報を表示するための表示手段と、音声データに対して音声認識することにより文字情報を生成する認識手段と、文字情報を情報処理装置のユーザにより指定可能に表示手段に表示させる表示制御手段と、表示手段に表示された文字情報と同一の文字情報を、情報表示端末に表示させる処理制御手段と、を備え、処理制御手段は、文字情報のうち第１文字情報が情報処理装置のユーザから指定された状態で認識手段が音声認識することにより第２文字情報を生成して、該第１文字情報と同一の文字情報である第３文字情報と、該第２文字情報とを関連付けて、情報表示端末に表示させる。

好ましくは、処理制御手段は、第２文字情報を、情報表示端末のユーザにより指定可能に、情報表示端末に表示させ、表示制御手段は、第２文字情報が情報表示端末のユーザから指定された状態で、情報表示端末が音声認識することにより生成した第４文字情報を、該第２文字情報に関連付けられた第３文字情報と同一の第１文字情報と関連付けて表示手段に表示させる。

好ましくは、表示制御手段は、第１文字情報と、該第１文字情報に関連する第４文字情報とを線で結んで表示手段に表示させる。

好ましくは、表示制御手段は、第１文字情報に所定のマークを表示させ、情報処理装置のユーザから所定のマークが指定されると、該第１文字情報に関連する第４文字情報を表示手段に表示させる。

好ましくは、処理制御手段は、文字情報、および、情報表示端末に該文字情報を表示させる指示信号を情報表示端末に送信する。

好ましくは、処理制御手段は、音声データ、および、該音声データに対して情報表示端末に音声認識させることにより文字情報を生成させ該文字情報を情報表示端末に表示させる指示信号を情報表示端末に送信する。

本発明の他の局面によれば、各々が通信可能な少なくとも２つの情報処理装置を備え、一方の情報処理装置は、文字情報を表示するための表示手段と、音声データに対して音声認識することにより文字情報を生成する認識手段と、文字情報を一方の情報処理装置のユーザにより指定可能に表示手段に表示させる表示制御手段と、表示手段に表示された文字情報と同一の文字情報を、他方の情報処理装置に表示させる処理制御手段と、を備え、処理制御手段は、文字情報のうち第１文字情報が一方の情報処理装置のユーザから指定された状態で認識手段が音声認識することにより第２文字情報を生成して、該第１文字情報と同一の文字情報である第３文字情報と、該第２文字情報とを関連付けて、記他方の情報処理装置に表示させる。

本発明の他の局面によれば、情報表示端末と通信する通信方法であって、音声データに対して音声認識することにより文字情報を生成するステップと、文字情報をユーザにより指定可能に表示するステップと、表示された文字情報と同一の文字情報を、情報表示端末に表示させるステップと、文字情報のうち第１文字情報がユーザから指定された状態で音声認識することにより第２文字情報を生成するステップと、生成された生成した第２文字情報を、該第１文字情報と同一の文字情報である第３文字情報と関連付けて、情報表示端末に表示させるステップと、を備える。

本発明の他の局面によれば、情報表示端末と通信するプログラムであって、プログラムは、コンピュータに、音声データに対して音声認識することにより文字情報を生成するステップと、文字情報をユーザにより指定可能に表示するステップと、表示された文字情報と同一の文字情報を、情報表示端末に表示させるステップと、文字情報のうち第１文字情報がユーザから指定された状態で音声認識することにより第２文字情報を生成するステップと、生成された生成した第２文字情報を、該第１文字情報と同一の文字情報である第３文字情報と関連付けて、情報表示端末に表示させるステップとを備える。

ある局面において、ユーザが音声認識を結果を指定して発話することにより、情報処理装置は、該音声認識結果と、該発話についての音声認識結果を、相手方の情報処理装置の表示部に関連付けて表示させる。

この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

本実施形態の概略の一例の前半を示した図である。本実施形態の概略の一例の後半を示した図である。本実施形態の情報処理装置の使用態様の一例を示した図である。情報処理装置のハードウェア構成例を示した図である。自己の情報処理装置などの機能構成例を示した図である。相手方の情報処理装置などの機能構成例を示した図である。文字情報ＤＢの一例を示した図である。別の実施形態の関連付けの一例を示した図である。本実施形態の処理フローの一例を示した図である。別の実施形態の処理フローの一例を示した図である。別の実施形態の処理フローの一例を示した図である。テレビ会議システムの機能構成例を示した図である。別の実施形態の概略の一例を示した図である。別の実施形態の概略の一例を示した図である。別の実施形態の概略の一例の前半を示した図である。別の実施形態の概略の一例の後半を示した図である。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してあり、それらの名称および機能も同じである。従って、重複説明を繰り返さない。

［概略］
＜前提＞
まず、図１Ａおよび図１Ｂを参照しながら、本実施形態の概略の前提を説明する。図１Ａおよび図１Ｂは、本実施形態の概略を示した図である。本実施形態の情報処理装置（以下「自己の情報処理装置」という場合がある。）は、相手方の情報処理装置と互いに通信可能である。また、自己の情報処理装置のユーザを「ユーザＡ」とし、相手方の情報処理装置のユーザを「ユーザＢ」とする。

自己の情報処理装置は、ユーザＡの発話音声の音声データに対して音声認識することにより、該音声データを文字情報に変換する。自己の情報処理装置は、該変換された文字情報を表示する。また、自己の情報処理装置は、ユーザＢの発話音声の音声データに対して音声認識がされたことにより生成された文字情報も表示する。

相手方の情報処理装置は、ユーザＢの発話音声の音声データに対して音声認識することにより、該音声データを文字情報に変換する。相手方の情報処理装置は、該変換された文字情報を表示する。また、相手方の情報処理装置は、ユーザＢの発話音声の音声データに対して音声認識がされたことにより生成された文字情報も表示する。

このように、図１に示すように、情報処理装置は、ユーザＡの発話音声の文字情報、および、ユーザＢの発話音声の文字情報を表示する。従って、ユーザＡは、自分（ユーザＡ）の発話音声の文字情報、およびユーザＢ（相手方ユーザ）の発話音声の文字情報を、目視できることから、ユーザＡおよびＢ同士で、明確な通話を行うことができる。

図１Ａおよび図１Ｂの例では、画面Ｘ１、Ｘ２、Ｘ５は、自己の情報処理装置が表示する画面である。また、画面Ｘ３、Ｘ４は、相手方の情報処理装置が表示する画面である。

また、画面Ｘ１などに示すように、自己の情報処理装置は、自分の発言として、ユーザＡの発話音声についての文字情報ＣｒＡを表示する。また、相手方の情報処理装置は、相手の発言として、ユーザＡの発話音声についての文字情報ＣｒＡと同一の文字情報ＣｒＡ’を表示する。

また、画面Ｅ１などに示すように自己の情報処理装置は、相手の発言として、ユーザＢの発話音声についての文字情報ＣｒＢを表示する。一方、相手方の情報処理装置は、自分の発言として、ユーザＢの発話音声についての文字情報ＣｒＢと同一の文字情報ＣｒＢ’を表示する。

また、自己の情報処理装置および相手方の情報処理装置は、文字情報を生成する毎に、該生成された文字情報に識別情報（以下、ＩＤ（Identification）という。）を付加して記憶する。詳細は後述する。

また、文字情報ＣｒＡのＩＤと、文字情報ＣｒＡ’のＩＤとは同一とし、文字情報ＣｒＢのＩＤと文字情報ＣｒＢ’のＩＤとは同一である。

図１の例では、文字情報は生成される毎に、時系列に沿って、下方向に表示される。また、各画面Ｘ１〜Ｘ４において、左半分の領域に、自分の発話の文字情報が表示され、右半分の領域に、相手方の発話の文字情報が表示される。

つまり、画面Ｘ１を例として説明すると、各文字情報は、ユーザＢの発話「こんにちは。元気ですか？」→ユーザＡの発話「元気ですよ」→ユーザＢの発話「明日の予定ですが、大丈夫でしょうか？」→ユーザＢの発話「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」で表示される。

また、例えば図１Ａおよび図１Ｂ記載のように、自己の情報処理装置および相手方の情報処理装置は、吹き出し形状の枠内に、文字情報を表示する。これにより、ユーザＡおよびユーザＢは、文字情報が発話音声から変換されたものであると、直感的に認識できる。

また、自己の情報処理装置および相手方の情報処理装置の表示部分は、例えばタッチパネル機能を具備している。これにより、ユーザが、接触子（例えば、ユーザの指やスタイラスペンなど）を文字情報に接触（例えば、タッチ）させることにより、該ユーザは該文字情報を指定できる。例えば、ユーザが文字情報が表示されている吹き出し形状を指定することにより、文字情報の指定を行うことができる。

ユーザが接触子で文字情報を接触し続けることにより、該文字情報を指定するようにしてもよい。また、ユーザが接触子で一度接触することにより、該文字情報を指定するようにしてもよい。

また、情報処理装置は、ユーザから指定された文字情報の色と、ユーザから指定されていない文字情報の色とを異ならせることが好ましい。これにより、ユーザは、自分で指定された文字情報を容易に認識できる。

また、相手方の情報処理装置を「情報表示端末」という場合もある。
＜具体的な処理＞
≪前半部≫
次に、自己の情報処理装置などの具体的な処理の前半部について説明する。一例として、画面Ｘ１およびＸ３に示すように、ユーザＡは、ユーザＢとの通話を進めていたが、ユーザＢの発話についての文字情報「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」について、理解できないことを思い出し、該文字情報の内容の再度の説明を所望している場合について説明する。この場合には、画面Ｘ２に示すように、ユーザＡは、該文字情報を指定する。以下では、該指定された文字情報を「第１文字情報１００１」とする。また、画面Ｘ４に示すように、相手方の情報処理装置は、第１文字情報１００１と同一の文字情報を表示している。該同一の文字情報を「第３文字情報１００３」とする。

ユーザＡは、第１文字情報１００１を指定した状態で、該第１文字情報１００１について、相手方ユーザに伝えたい内容を通話する。ここでは、「相手方ユーザに伝えたい内容」Ａは、「よく分からないのでもう一度説明して下さい。」という文言であるとする。ユーザは、「よく分からないのでもう一度説明して下さい。」と発話する。そうすると、自己の（ユーザＡの）情報処理装置は、発話音声「よく分からないのでもう一度説明して下さい。」を音声認識することにより、該発話音声を文字情報に変換する。該変換された文字情報を第２文字情報という。

そして、自己の情報処理装置は、第１文字情報のＩＤ、および、第２文字情報を送信する。相手方の情報処理装置へ送信する。画面Ｘ４に示すように、相手方の情報処理装置は、送信されたＩＤと同一のＩＤの第３文字情報と、送信された第２文字情報とを関連付けて表示する。「関連付けて表示する」とは、例えば、第３文字情報１００３の近傍に第２文字情報１００２を表示することであり、好ましくは、第３文字情報の枠と第２文字情報の枠とを重畳させて表示させることである。

また、第３文字情報１００３は、指定された第１文字情報１００１と同一であり、つまり、第３文字情報のＩＤと第１文字情報のＩＤとは同一である。

これにより、相手方の情報処理装置のユーザＢは、第３文字情報１００３（第１文字情報と同一であり、つまり、「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」を表す文字情報）と、第２文字情報１００２（「よく分からないのでもう一度説明して下さい。」を表す文字情報）と、が関連付けられていることを直感的に認識できる。従って、第３文字情報１００３に対してユーザＡが所望する内容を、ユーザＢは容易に理解できる。

≪後半部≫
次に、具体的な処理の後半部について説明する。ユーザＢが、それぞれが関連付けられた第２文字情報１００２および第３文字情報１００３を目視することにより、第２文字情報１００２についての回答を行う場合について説明する。

この場合には、ユーザＢは、第２文字情報１００２を指定する。ユーザＢは、第２文字情報１００２が指定された状態で、該第２文字情報１００２について発話（例えば、回答）する。相手方の情報処理装置は、該発話に対して音声認識を行うことにより、文字情報（以下、「第４文字情報１００４」という。）を生成する。相手方の情報処理装置は、該第４文字情報１００４を、自己の情報処理装置へ送信する。

自己の情報処理装置は、該第４文字情報１００４と、第１文字情報１００１とを関連付けて表示する。ここで、該第１文字情報１００１は、ユーザＢにより第４文字情報１００４についての発話がなされた際に指定された第２文字情報１００２に関連付けられた第３文字情報１００３と同一の第１文字情報１００１である。

このように、前半部の処理により、本実施形態の情報処理装置は、第１文字情報１００１がユーザＡから指定された状態で自己の情報処理装置が音声認識することにより第２文字情報１００２を生成する。そして、相手方の情報処理装置は、第２文字情報１００２と、第３文字情報１００３とを関連付けて表示する。従って、ユーザＡが相手方ユーザＢと通話を行っている場合に、該通話中の以前の該相手方ユーザＢの発言（図１の例では、第１文字情報に係る発言）に対して、該ユーザがさらに発言（第２文字情報に係る発言）した場合に、該相手方ユーザの発言とユーザの発言との関連を明瞭に相手方ユーザに対して表示できる。

また、後半部の処理により、本実施形態の情報処理装置は、第２文字情報１００２が相手方ユーザＢから指定された状態で、相手方の情報処理装置が音声認識することにより第４文字情報１００４を生成する。自己の情報処理装置は、第１文字情報１００１と、該第４文字情報とを関連付けて表示する。従って、例えば、ユーザＡが第１文字情報１００１に対して質問した回答内容（第４文字情報１００４）を明瞭に認識できる。

［使用態様]
図２を参照しながら、本実施形態の情報処理装置の使用態様について説明する。図２は、本実施形態の情報処理装置の使用態様の一例を示した図である。図２の例では、ユーザＡは、電話５０と情報処理装置１００とを用いて、遠隔地にいるユーザＢと対話している。また、ユーザＢは、電話６０と情報処理装置２００とを用いて、ユーザＡと対話している。

情報処理装置１００および情報処理装置２００は、それぞれ発話音声の音声データに対して音声認識を行うことにより、該音声データを文字情報に変換する。また、図１に示すように、情報処理装置１００および情報処理装置２００は、それぞれ該文字情報を表示する。情報処理装置１００および情報処理装置２００は、例えば、ＰＣ（Personal Computer）、携帯電話、スマートフォン、タブレット端末などである。また、情報処理装置１００と情報処理装置２００とは、ネットワーク１０で接続されている。情報処理装置１００と情報処理装置２００との情報のやり取りについては後述する。

また、電話５０は、スピーカ５２とマイク５４を含む。電話６０は、スピーカ６２とマイク６４を含む。

ユーザＡが発話した発話音声は、マイク５４で集められ、該発話音声は、公衆回線（図示せず）などにより、電話６０に送信される。電話６０のスピーカ６２はユーザＡの発話音声を出力する。

ユーザＢが発話した発話音声は、マイク６４で集められ、該発話音声は、公衆回線（図示せず）などにより、電話５０に送信される。電話５０のスピーカ５２はユーザＡの発話音声を出力する。

また、情報処理装置１００のユーザによる使用態様として、ユーザがヘッドセットを情報処理装置１００に装着して使用するようにしてもよい。

[ハードウェア構成例]
次に、図３を参照して、情報処理装置１００のハードウェア構成例を説明する。図３は、情報処理装置１００のハードウェア構成例を示した図である。図３の例では、情報処理装置１００は、ＣＰＵ（Central Processing Unit）３０２と、ＲＡＭ（Random Access Memory）３０４と、ＲＯＭ（Read Only Memory）３０６と、ＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）３０８と、通信部１１０と、表示部１１２と、操作部３１０と、外部メディアＩ／Ｆ部３１２と、を含む。

ＣＰＵ３０２は、ＲＯＭ３０６に格納されているプログラムや各種データに基づいて、処理を行う。ＲＡＭ３０４は、ＲＯＭ３０６から読み出された各種プログラムやデータを一時保持する。ＲＯＭ３０６は、情報処理装置１００が、起動されるときに実行されるプログラムや各種データを格納する。

通信部１１０は、相手方の情報処理装置との間で、種々の情報を送受信する。操作部３１０は、ユーザからの操作を受け付ける。表示部１１２は、タッチパネル機能を備えるディスプレイである。従って、表示部１１２は、概念的に、操作部３１０の一部を含む。

外部メディアＩ／Ｆ部３０８は、情報処理装置１００と、外部メディア３１４（例えばＳＤ（Secure Digital）メモリーカードなど）とのインターフェースの役割を果たす。

[機能構成例]
次に、図１、図４、および図５を参照して、情報処理装置１００の機能構成例を説明する。図１は、上述の通り、情報処理装置１００の表示部が表示する画面の一例である。図４は、ユーザＡが保有する情報処理装置１００（自己の情報処理装置）などの機能構成例である。図５は、ユーザＢ（相手方ユーザ）が保有する情報処理装置２００（相手方の情報処理装置）などの機能構成例である。

図４に示すように、電話５０は、スピーカ５２とマイク５４とを含む。また、情報処理装置１００は、変換部１０２と、認識部１０４と、記憶部１０６と、表示制御部１０８と、表示部１１２と、処理制御部１１４と、通信部１１０と、検知部１１６と、を含む。

また、相手方の情報処理装置２００の各構成部の参照符号は、情報処理装置１００の各構成部の参照符号に対して「１００」を加算したものであり、情報処理装置２００の各構成部において、情報処理装置１００の各構成部と同一の名称の構成部については、同様の処理を行う。従って、情報処理装置２００の各構成部の処理の説明については繰り返さない。

変換部１０２は、入力された音声に対してアナログデジタル変換を行うことにより、音声データに変換する。変換された音声データは、認識部１０４に入力される。

認識部１０４は、入力された音声データに対して、音声認識を行い、文字情報を生成する。認識部１０４は、音声認識の手法として、種々の公知の技術を用いればよい。認識部１０４は、例えば、予め生成された音響モデルおよび言語モデルなど（図示せず）を用いて、音声認識を行う。認識部１０４が生成した文字情報は、処理制御部１１４および表示制御部１０８に入力される。

記憶部１０６は、認識部１０４が生成した文字情報ごとに、ＩＤを付加して、文字情報ＤＢ（Database）として記憶する。文字情報ＤＢについては後述する。

処理制御部１１４は、認識部１０４から入力された文字情報および第１指示信号を通信部１１０経由で、相手方の情報処理装置２００へ送信する。該第１指示信号は、相手方の情報処理装置２００の表示部２１２に文字情報を表示させるための信号である。情報処理装置２００の表示制御部２０８は、文字情報および第１指示信号を受信すると、図１の画面Ｘ３の「相手の発言」に示すように、表示部２１０に、該文字情報（ユーザＡの発話音声についての文字情報）を表示させる。

表示部１１２は、タッチパネル機能を備える表示ディスプレイである。タッチパネルの方式は、抵抗膜方式、静電容量方式、電磁誘導方式、超音波表面弾性波方式、赤外線走査方式のいずれであってもよい。

図１に示すように、表示制御部１０８は、認識部１０４により生成された文字情報を表示部１１２に表示する。また、情報処理装置２００の認識部２０４はユーザＢの発話音声の音声データに対して音声認識を行うことにより、ユーザＢの発話音声についての音声情報を生成する。表示制御部１０８は、生成された音声情報を通信部１１０経由で取得する。図１の画面Ｘ１の「相手の発言」に記載のように、表示制御部１０８は、取得した音声情報を、相手の発言として、表示部１１２に表示する。また、ユーザが表示部１１２に表示された文字情報は、接触子（ユーザの指やスタイラスペンなど）により指定（タッチ）できる。

検知部１１６は、表示部１１２に対して接触子が接触したことを検知する。
スピーカ５２およびマイク５４については、図２で説明した通りなので、説明を繰り返さない。

次に、図６を参照して文字情報ＤＢについて説明する。図６は、文字情報ＤＢ（Database）の一例を示した図である。図６記載の文字情報ＤＢは、図１の画面Ｘ１の文字情報について示したものである。認識部１０４が、音声認識を行うごとに、および、通信部１１０が、情報処理装置２００から文字情報を受信することに、ＣＰＵ３０２は、文字情報ＤＢを更新する。また、同一の文字情報ＤＢが、相手方の情報処理装置２００の記憶部２０６にも記憶される。

図６に示すように、文字情報ＩＤごとに、文字情報を記憶する。図６の例では、文字情報ＩＤ＝１に対応付けられて、文字情報「こんにちは。お元気ですか。」が記憶されている。

次に、図４および図５を参照して、図１の処理内容について説明する。画面Ｘ１およびＸ３に示すように、ユーザＡは、ユーザＢとの通話を進めていたが、ユーザＢの発話についての文字情報「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」について、理解できないことを思い出し、該文字情報の内容の再度の説明を所望している場合について説明する。この場合には、画面Ｘ２に示すように、ユーザＡは、該文字情報を指定する。

上述のように、ユーザは接触子（ユーザの指やスタイラスペンなど）で文字情報をタッチすることにより、該文字情報を指定できる。検知部１１６は、接触子によりタッチされた点の座標を検出する。処理制御部１１４は、検出した座標に基づいて、指定された文字情報を取得する。

上述したように、指定された文字情報を「第１文字情報１００１」とする。また、画面Ｘ４に示すように、相手方の情報処理装置は、第１文字情報１００１と同一の文字情報（第３文字情報１００３）を表示している。

ユーザＡは、第１文字情報１００１を指定した状態で、該第１文字情報１００１について、相手方ユーザに伝えたい内容を通話する。ここでは、「相手方ユーザに伝えたい内容」は、「よく分からないのでもう一度説明して下さい。」という文言であるとする。ユーザは、「よく分からないのでもう一度説明して下さい。」と発話する。

そうすると、変換部１０２は、該発話音声を音声データに変換する。認識部１０４は、「よく分からないのでもう一度説明して下さい。」の音声データを音声認識することにより、文字情報を生成する。該生成された文字情報を第２文字情報１００２という。

そして、処理制御部１１４は、指定された第１文字情報についての文字情報ＩＤを取得する。この例では、処理制御部１１４は、文字情報ＩＤとして４を取得する。

処理制御部１１４は、文字情報ＩＤ（＝４）と、第２文字情報１００２とを通信部１１０経由で情報処理装置２００へ送信する。

相手方の情報処理装置２００の通信部２１０は、文字情報ＩＤ＝４と、第２文字情報１００２とを受信する。受信した文字情報ＩＤ（＝４）と、第２文字情報１００２は、表示制御部２０８に入力される。表示制御部２０８は、記憶部２０６に記憶されている文字情報ＤＢ（図６参照）を参照して、文字情報ＩＤ（＝４）の文字情報（つまり、第１文字情報１００１と同一の文字情報である第３文字情報１００３）を取得する。表示制御部２０８は、取得した第３文字情報１００３と、第２文字情報と関連付けて、表示部２１０に表示させる（図１の画面Ｘ４参照）。

その結果、相手方の情報処理装置のユーザＢは、表示部２１０を目視することにより、第３文字情報１００３と、第２文字情報１００２と、が関連付けられていることを直感的に認識できる。従って、ユーザＢは、第３文字情報に対するユーザＡの発話内容を容易に理解できる。

この場合には、ユーザＢは、第２文字情報１００２を指定する。該指定は、検知部２１６により検知される。ユーザＢは、第２文字情報１００２が指定された状態で、該第２文字情報１００２について発話（例えば、回答）する。相手方の情報処理装置２００の変換部２０２は、該発話音声から、音声データに変換する。認識部２０４は、該音声データに対して音声認識を行うことにより、第４文字情報１００４を生成する。処理制御部２１４は、該第４文字情報１００４を、情報処理装置１００へ送信する。

情報処理装置１００の通信部１１０は、第４文字情報を取得すると、表示制御部１０８へ出力する。表示制御部１０８は、処理制御部１１４が取得した文字情報ＩＤ（この例では文字情報ＩＤ＝４）の第１文字情報と、該第４文字情報１００４とを関連付けて表示する。ここで、第１文字情報１００１は、第３文字情報１００３と同一である。該第３文字情報１００３は、ユーザＢにより第４文字情報１００４についての発話がなされた際に指定された第２文字情報１００２に関連付けられた第３文字情報１００３である。

≪第１文字情報と第４文字情報の関連付けの第１手法について≫
図１の画面Ｘ５を参照して、第１文字情報１００１と第４文字情報１００４との関連付けの第１手法について説明する。画面Ｘ５に示すように、表示制御部１０８は、第１文字情報１００１と、第４文字情報１００４とを線１０５０で結んで表示部１１２に表示する。これにより、ユーザＡは、第１文字情報１００１と第４文字情報１００４とが関連付けられていることを直感的に認識できる。従って、ユーザが疑問に思っていた内容（第１文字情報１００１）の回答（第４文字情報１００４）を容易に理解できる。

≪第１文字情報と第４文字情報の関連付けの第２手法について≫
図７を参照して、次に第１文字情報１００１と第４文字情報１００４との関連付けの第２手法について説明する。図７は、関連付けの第２手法の一例について示した図である。表示制御部１０８は、第１文字情報１００１に所定のマーク１００１ａを表示させる。ここで、所定のマーク１００１ａの形状および大きさなどは予め定められる。図７の例では、所定のマーク１００１ａは「星印」であるが、他の形状のマークでもよい。

そして、検知部１１６が、ユーザＡによりマーク１００１ａが指定（タッチ）されたことを検知すると、該検知したことを表す検知信号を、表示制御部１０８に送信する。表示制御部１０８は、検知信号を受信すると、第４文字情報１００４を表示部１１２に表示させる。

この第２手法の場合には、ユーザは所望のタイミングで第４文字情報１００４を表示部１１２に表示させることができる。

［処理の流れ］
≪前提≫
次に、図８を参照して、情報処理装置１００および情報処理装置２００の前提処理の流れを説明する。また、以下では、図１に示すように、ユーザが発話した音声を文字情報に変換して、情報処理装置１００の表示部１１２、および、情報処理装置２００の表示部２１０に該文字情報を表示させる通信方法を「チャット電話」という。また、以下の説明では、情報処理装置１００および情報処理装置２００に、チャット電話のアプリケーションがダウンロードされているとする。

まず、ステップＳ２において、ユーザＢが、ユーザＡとチャット電話を行うことを所望した場合には、ユーザＢは情報処理装置２００に対して、チャット電話要求操作を行う。該チャット電話要求操作は、例えば、ユーザＢが、チャット電話アプリケーションで、情報処理装置１００に対して電話をかけることである。チャット電話要求操作が行われると、情報処理装置２００のＣＰＵは、チャット電話を要求するための要求信号を情報処理装置１００へ送信する。

ステップＳ４において、情報処理装置１００の通信部１１０が、要求信号を受信すると、表示制御部１０８が、例えば、音通知等とともに、「ユーザＢから着信がある」旨のメッセージを表示部１１２に表示させる。

ステップＳ６において、ユーザＡが、ユーザＢとのチャット電話を許諾する場合には、ユーザＡは、許諾操作（例えば、チャット電話の応答ボタンを押下する操作）を行う。情報処理装置１００のＣＰＵ３０２は、許諾信号を生成して、情報処理装置２００へ送信する。

ステップＳ８において、情報処理装置２００の表示制御部２０８は、許諾された旨を表示部２１２に表示することにより、ユーザＢにチャット電話が許可されたことを通知する。

ステップＳ２〜Ｓ８までの処理により、ユーザＡとユーザＢとのチャット電話が開始される。以下では、ユーザＡが発話する場合について説明する。

ステップＳ１２において、ユーザＡが発話するまで、情報処理装置１００は待機する（ステップＳ１２のＮＯ）。ユーザＡが発話すると（ステップＳ１２のＹＥＳ）、処理はステップＳ１４に移行する。

ステップＳ１４において、変換部１０２が、ユーザＡにより発話された音声を音声データに変換し、認識部１０４が、音声データに対して音声認識を行うことにより、文字情報を生成する。

ステップＳ１６において、表示制御部１０８は、生成された文字情報を表示部１１２に表示する（図１の画面Ｅ１参照）。

ステップＳ１８において、処理制御部１１４は、文字情報ＩＤを付加して、文字情報ＩＤごとに文字情報を記憶部１０６に記憶する（図６参照）。

ステップＳ２０において、処理制御部１１４は、通信部１１０経由で、文字情報および第１指示信号を相手方の情報処理装置２００へ送信する。ステップＳ１６、Ｓ１８、Ｓ２０の処理は、この順番に限られず、他の順番でもいい。また、情報処理装置１００は、ステップＳ１６、Ｓ１８、Ｓ２０の処理を並列的に行ってもよい。

ステップＳ２２において、相手方の情報処理装置２００の通信部２１０が、文字情報および第１指示信号を受信する。

ステップＳ２４において、情報処理装置２００の処理制御部２１４は、受信した文字情報を文字情報ＩＤを付加して記憶部２０６に格納する。

ステップＳ２６において、表示制御部２０８は、表示部２１２に文字情報を表示させる。

また、ステップＳ１４〜ステップＳ２６までの処理は、ユーザＡが発話した場合の処理の流れであるが、ユーザＢが発話した場合でも、同様の処理が行われる。

また、ステップＳ２０において、通信部１１０は、文字情報および第１指示信号を送信するのではなく、変換部１０２で変換された音声データおよび第２指示信号を情報処理装置２００へ送信するようにしてもよい。該第２指示信号は、音声データに対して情報処理装置２００の認識部２０４に音声認識させることにより文字情報を生成させ、該文字情報を表示部２１２に表示させるための信号である。

しかし、情報処理装置１００の認識部１０４の認識精度と、情報処理装置２００の認識部２０４の認識精度と、が異なる場合には、表示部１１２および表示部２１２に同一の文字情報が表示されない場合がある。従って、「情報処理装置１００が文字情報および第１指示信号を情報処理装置２００へ送信する実施形態」の方が「情報処理装置１００が音声データおよび第２指示信号を情報処理装置２００へ送信する実施形態」よりも好ましい。

≪前半部の処理の流れ≫
次に、図９を参照して、本実施形態の情報処理装置１００と情報処理装置２００とのチャット電話の流れについて説明する。

ステップＳ５２において、検知部１１６が、ユーザＡにより、第１文字情報１００１（図１の画面Ｘ２参照）が指定されたか否かを判断する。検知部１１６が、第１文字情報１００１は指定されていないと判断すると（ステップＳ５２のＮＯ）、検知部１１６は、引き続き、該判断処理を繰り返す。検知部１１６が、第１文字情報１００１が指定されたと判断すると（ステップＳ５２のＹＥＳ）、処理は、ステップＳ５４に移行する。

ステップＳ５４において、ユーザＡが発話するまで、情報処理装置１００は待機する（ステップＳ５４のＮＯ）。ユーザＡが発話すると（ステップＳ５４のＹＥＳ）、処理はステップＳ５６に移行する。

ステップＳ５６において、変換部１０２が、ユーザＡにより発話された音声を音声データに変換し、認識部１０４が、音声データに対して音声認識を行うことにより、第２文字情報１００２を生成する。

ステップＳ６０において、処理制御部１１４は、指定された第１文字情報１００１の文字情報ＩＤ（図１および図６の例では、ＩＤ＝４）を取得する。そして、処理制御部１１４は、ステップＳ５６で生成された第２文字情報１００２、および、該取得した文字情報ＩＤを情報処理装置２００へ送信する。

ステップＳ６２において、情報処理装置２００の通信部２１０は、送信された第２文字情報１００２、および、第１文字情報の文字情報ＩＤを受信する。

ステップＳ６４において、表示制御部２０８は、受信した文字情報ＩＤについての文字情報（つまり、第３文字情報１００３）と、第２文字情報１００２とを関連付けて表示部２１２に表示する（図１の画面Ｘ４参照）。

≪後半部の処理の流れ≫
次に、図１０を参照して、後半部の処理の流れについて説明する。ステップＳ１０２において、図５記載の情報処理装置２００の検知部２１６が、ユーザＢにより第２文字情報１００２が指定されたか否かを判断する。検知部２１６は、ユーザＢにより第２文字情報１００２が指定されるまで、該判断処理を継続する（ステップＳ１０２のＮＯ）。検知部２１６が、ユーザＢにより第２文字情報１００２が指定されたと判断すると（ステップＳ１０２のＹＥＳ）、処理はステップＳ１０４に移行する。

ユーザＢが発話するまで、情報処理装置２００は待機する（ステップＳ１０４のＮＯ）。ユーザＢが発話すると（ステップＳ１０４のＹＥＳ）、処理はステップＳ１０６に移行する。

ステップＳ１０６において、変換部２０２は発話音声を音声データに変換する。そして、認識部２０４は、音声データに対して音声認識することにより、第４文字情報１００４を生成する。

ステップＳ１０８において、処理制御部２１４は、通信部２１０により、第４文字情報１００４を情報処理装置１００へ送信する。

ステップＳ１１０において、情報処理装置１００の通信部１１０は、該送信された第４文字情報１００４を受信する。

ステップＳ１１２において、図１の画面Ｘ５に示すように、表示制御部１０８は、第１文字情報１００１と第４文字情報１００４とを関連付けて表示部２１０に表示する。

［まとめ］
従来技術では、ユーザＡが、第１文字情報１００１について、ユーザＢに対してさらに聞き返したい場合には、例えば「先ほど、「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」という話をさせていただきましたが、よくわからないので説明してもらえますか。」という長い発話をユーザＢに対して行う必要がある。従って、ユーザＡにとって、発話が煩雑となる。また、該発話が過去の発話であり、かつ、ユーザＢに対した行われた発話を構成する単語数が多いことから、ユーザＢは該発話を理解することが煩雑となる。

これに対して、この実施形態１の情報処理装置１００によると、第１文字情報１００１がユーザＡから指定された状態で、認識部２０４が音声認識することにより、第２文字情報１００２を生成する。そして、情報処理装置１００は、該第１文字情報１００１と同一の文字情報である第３文字情報１００３とを関連付けて、相手方の情報処理装置２００の表示部２１０に表示させる。

従って、ユーザＡが、第１文字情報１００１について、ユーザＢに対してさらに聞き返したい場合に、「先ほど、「会議の後ですが、引き続き会議を行います。内容は来月のプロジェクトについてです。」という話をさせていただきましたが、」という発話を省略することができ、「よくわからないので説明してもらえますか。」という発話のみでよくなる。従って、ユーザＡの発話の煩雑さを低減できる。

また、第１文字情報１００１（ユーザＢの発話）および第２文字情報１００２（ユーザＡの発話）の関連をユーザＢに対して明瞭に表示できる。従って、ユーザＢも第１文字情報１００１および第２文字情報１００２の関連を容易に認識でき、ユーザＢの理解も容易になる。

さらに、第２文字情報１００２が相手方ユーザＢから指定された状態で、相手方の情報処理装置２００が音声認識することにより第４文字情報１００４を生成する。情報処理装置１００は、該第２文字情報１００２に関連付けられた第３文字情報１００３と同一の第１文字情報１００１と、該第４文字情報とを関連付けて表示する。従って、例えば、ユーザＡは第１文字情報１００１に対して質問した回答内容（第４文字情報１００４）を明瞭に認識できる。

また、第１文字情報１００１と第４文字情報１００４とが関連付けられて、表示部１１２に表示されていることから、後日、ユーザＡが会話履歴を閲覧した場合でも、ユーザＡは第１文字情報１００１と第４文字情報１００４との関連付けを容易に理解できる。

また、発話音声を聞き逃しやすい状況である場合であっても、各ユーザは対話を行うことができる。発話音声を聞き逃しやすい状況での対話とは、例えば、雑音が多い環境での対話や、老人または耳の不自由な人との対話などである。

［変形例］
図２などでは、ユーザＡは電話５０と情報処理装置１００とを組み合わせて用いる、と説明した。その他の実施形態として、情報処理装置１００にスピーカ６２とマイク６４とを含ませた構成とした情報処理装置５００（例えば、スマートフォン）としてもよい。

また、各遠隔地点に情報処理装置５００が設置されることにより、テレビ電話会議システムが実現される。図１１は、該テレビ会議システム６００の機能構成例である。図１１の例のテレビ会議システム６００では、６つの情報処理装置５００Ａ〜５００Ｆが、ネットワーク１０に接続されている。また、ユーザＡ〜Ｆ各々が、情報処理装置５００Ａ〜５００Ｆを使用する。また、以下の説明では、６つの情報処理装置５００Ａ〜５００Ｆの構成部の参照番号を情報処理装置１００の構成部（図５記載）の参照番号として説明する。

図１２は、該テレビ会議システムで情報処理装置５００が用いられる場合の各情報処理装置の５００Ａ〜Ｆの表示部１１２の表示例である。ユーザＢが情報処理装置５００Ｂに対して、「来週の会議の出欠の有無を教えてください」という発話をしたとする。

そうすると、情報処理装置５００Ｂの変換部１０２は、発話音声を音声データに変換する。認識部１０４は、該音声データに対して音声認識を行うことにより第３文字情報１０１３を生成する。そして、情報処理装置５００Ｂの通信部１１０は、情報処理装置５００Ａ、５００Ｃ〜５００Ｆへ第３文字情報１０１３を送信する。

情報処理装置５００Ａ、５００Ｃ〜５００Ｆ各々の表示部１１２は、第３文字情報１０１３と同一の文字情報である第１文字情報１０１１を表示する。ユーザＡ、ユーザＣ〜ユーザＦ各々は、第１文字情報１０１１を目視することにより、第１文字情報１０１１を認識できる。

ユーザＡ、ユーザＣ〜ユーザＦ各々は、第１文字情報１０１１を指定して、第１文字情報１０１１に対する回答を情報処理装置Ａ、Ｃ〜Ｆ各々に対して発話する。図１２の例では、ユーザＡは「出席します」と発話している。また、ユーザＣは「欠席します」と発話している。また、ユーザＦは「保留にしてください」と発話している。

情報処理装置５００Ａ、５００Ｃ〜５００Ｆ各々の変換部１０２は、ユーザＡ、ユーザＣ〜ユーザＦの発話音声を音声データに変換し、情報処理装置５００Ａ、５００Ｃ〜５００Ｆ各々の認識部１０４は、音声認識を行うことにより、第２文字情報１０１２Ａ、１０１２Ｃ〜１０１２Ｆを生成する。情報処理装置５００Ａ、５００Ｃ〜５００Ｆ各々の通信部１１０は、第２文字情報１０１２Ａ、１０１２Ｃ〜１０１２Ｆを情報処理装置５００Ｂへ送信する。

情報処理装置５００Ｂの表示制御部１０８は、第３文字情報１０１３と、第２文字情報１０１２Ａ、１０１２Ｃ〜１０１２Ｆとを関連付けて表示部１１２に表示する。従って、ユーザＢは、ユーザＡ、Ｃ〜Ｆ各々の第２文字情報（この例では出席状況）を認識できる。なお、図１２では、図面を簡単にするために、ユーザＤ、Ｅの発話については省略しているが、実際はユーザＤ、Ｅの発話についての文字情報も生成され、情報処理装置５００Ｂへ送信される。

次に、図１３を参照して、ユーザＢが、第２文字情報１０１２Ａ、１０１２Ｃ〜１０１２Ｆに対して発言する場合について説明する。図１３の例では、ユーザＢは、「来週の会議は１０１会議室で１６：００スタートです」と発話している。そうすると、ユーザＢは、該発話についての文字情報（第４文字情報１００４）を送信したいユーザについての第１文字情報を指定して、発話する。

この例では、ユーザＢは、出席の可能性があるユーザＡおよびユーザＦの情報処理装置５００Ａ、５００Ｆ各々に第４文字情報１０１４を送信することを所望している。この場合に、ユーザＡおよびユーザＦについての第２文字情報１０１２Ａおよび１０１２Ｆを指定して、発話する。

そうすると、情報処理装置５００Ｂの通信部１１０は、第４文字情報１０１４を、情報処理装置５００Ａ、５００Ｆ各々に送信する。そして、情報処理装置５００Ａ、５００Ｆの各表示部１１２は、第１文字情報１０１１と、第４文字情報１０１４とを関連付けて、表示する。従って、ユーザＡおよびユーザＦは、第１文字情報１０１１および第４文字情報１０１４の関連を容易に認識できる。

また、情報処理装置１００の認識部１０４が、音声認識に失敗する場合がある。図１４は、認識部１０４が音声認識に失敗した場合の、表示部１１２および表示部２１２が表示する画面の一例である。図１４は図１と比較すると、認識部１０４が、音声認識を失敗したために、第１文字情報１００１が完全なものではない場合がある。図１４の画面Ｘ２の例では、音声認識失敗した箇所は、「・・・」で示されている。

そして、ユーザＡが、第１文字情報１００１についての、ユーザＢからの発話音声を聞き逃した場合に、ユーザＡが第１文字情報１００１を確認しても、第１文字情報１００１が不完全であり、第１文字情報１００１を把握できない。このような場合であっても、ユーザＡは容易に、第１文字情報１００１について質問できる。

［その他］
また、本発明の情報処理装置は、ＣＰＵとその上で実行されるプログラムにより実現される。本発明を実現するプログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。

また、今回開示された実施形態はすべての点で例示であって、制限的なものではない。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

２０２電源ボタン、２０４メニューボタン、２０６ホームボタン、２０８ボタン、１１２表示部、１１２ａ第１領域、１１２ｂ第２領域、３０４ＲＡＭ、３０６ＲＯＭ、３１０操作部、２３０外部メディア、３０６付加情報記憶部、３０８ログ記憶部、３１０電子書籍管理部、３１２付加情報管理部、３１４ログ管理部、３１６決定部、３１８表示制御部、３４０第１受付部、３４２第２受付部、３４４第３受付部。

Claims

情報表示端末と通信可能な情報処理装置であって、
文字情報を表示するための表示手段と、
音声データに対して音声認識することにより前記文字情報を生成する認識手段と、
前記文字情報を前記情報処理装置のユーザにより指定可能に前記表示手段に表示させる表示制御手段と、
前記表示手段に表示された前記文字情報と同一の文字情報を、前記情報表示端末に表示させる処理制御手段と、を備え、
前記処理制御手段は、
前記文字情報のうち第１文字情報が前記情報処理装置のユーザから指定された状態で前記認識手段が音声認識することにより第２文字情報を生成して、該第１文字情報と同一の文字情報である第３文字情報と、該第２文字情報とを関連付けて、該第２文字情報については前記情報表示端末のユーザにより指定可能に、前記情報表示端末に表示させ、
前記表示制御手段は、前記第２文字情報が前記情報表示端末のユーザから指定された状態で、前記情報表示端末が音声認識することにより生成した第４文字情報を、該第２文字情報に関連付けられた前記第３文字情報と同一の前記第１文字情報と関連付けて前記表示手段に表示させる、情報処理装置。
前記表示制御手段は、
前記第１文字情報と、該第１文字情報に関連する第４文字情報とを線で結んで前記表示手段に表示させる、請求項１記載の情報処理装置。
前記表示制御手段は、
前記第１文字情報に所定のマークを表示させ、
前記情報処理装置のユーザから前記所定のマークが指定されると、該第１文字情報に関連する第４文字情報を前記表示手段に表示させる、請求項１記載の情報処理装置。
前記処理制御手段は、
前記文字情報、および、前記情報表示端末に該文字情報を表示させる指示信号を前記情報表示端末に送信する、請求項１〜３いずれか１項記載の情報処理装置。
前記処理制御手段は、
前記音声データ、および、該音声データに対して前記情報表示端末に音声認識させることにより文字情報を生成させ該文字情報を前記情報表示端末に表示させる指示信号を前記情報表示端末に送信する、請求項１〜３いずれか１項記載の情報処理装置。
各々が通信可能な少なくとも２つの情報処理装置を備え、
一方の情報処理装置は、
文字情報を表示するための表示手段と、
音声データに対して音声認識することにより文字情報を生成する認識手段と、
前記文字情報を前記一方の情報処理装置のユーザにより指定可能に前記表示手段に表示させる表示制御手段と、
前記表示手段に表示された前記文字情報と同一の文字情報を、他方の情報処理装置に表示させる処理制御手段と、を備え、
前記処理制御手段は、
前記文字情報のうち第１文字情報が前記一方の情報処理装置のユーザから指定された状態で前記認識手段が音声認識することにより第２文字情報を生成して、該第１文字情報と同一の文字情報である第３文字情報と、該第２文字情報とを関連付けて、該第２文字情報については前記他方の情報処理装置のユーザにより指定可能に、前記他方の情報処理装置に表示させ、
前記表示制御手段は、前記第２文字情報が前記他方の情報処理装置のユーザから指定された状態で、前記他方の情報処理装置が音声認識することにより生成した第４文字情報を、該第２文字情報に関連付けられた前記第３文字情報と同一の前記第１文字情報と関連付けて前記表示手段に表示させる、通信システム。
情報表示端末と通信する情報処理装置の通信方法であって、
音声データに対して音声認識することにより文字情報を生成するステップと、
前記文字情報を前記情報処理装置のユーザにより指定可能に表示するステップと、
前記表示された前記文字情報と同一の文字情報を、前記情報表示端末に表示させるステップと、
前記文字情報のうち第１文字情報が前記ユーザから指定された状態で音声認識することにより第２文字情報を生成するステップと、
生成した第２文字情報を、該第１文字情報と同一の文字情報である第３文字情報と関連付けて、該第２文字情報については前記情報表示端末のユーザにより指定可能に、前記情報表示端末に表示させるステップと、
前記第２文字情報が前記情報表示端末のユーザから指定された状態で、前記情報表示端末が音声認識することにより生成した第４文字情報を、該第２文字情報に関連付けられた前記第３文字情報と同一の前記第１文字情報と関連付けて表示するステップとを備える、通信方法。
情報表示端末と通信するコンピュータに、
音声データに対して音声認識することにより文字情報を生成するステップと、
前記文字情報を前記コンピュータのユーザにより指定可能に表示するステップと、
前記表示された前記文字情報と同一の文字情報を、前記情報表示端末に表示させるステップと、
前記文字情報のうち第１文字情報が前記ユーザから指定された状態で音声認識することにより第２文字情報を生成するステップと、
生成した第２文字情報を、該第１文字情報と同一の文字情報である第３文字情報と関連付けて、該第２文字情報については前記情報表示端末のユーザにより指定可能に、前記情報表示端末に表示させるステップと、
前記第２文字情報が前記情報表示端末のユーザから指定された状態で、前記情報表示端末が音声認識することにより生成した第４文字情報を、該第２文字情報に関連付けられた前記第３文字情報と同一の前記第１文字情報と関連付けて表示するステップとを実行させるための、プログラム。