JP7284204B2

JP7284204B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7284204B2
Application number: JP2021033180A
Authority: JP
Inventors: アシックカーン; 洋一船曵; 大介古川; 武信山根; 和夫加藤
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-05-30
Anticipated expiration: 2041-03-03
Also published as: WO2022186298A1; JP2022134202A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、ＰＣ（Personal Computer）やタブレット型端末などの情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信するオンライン会議サービスに関する様々な技術が知られている。

例えば、複数の拠点間でのオンラインでのビデオ会議を可能とするビデオ会議装置により取得された各出席者の音声データを取得する。続いて、音声データと、予め登録された各出席者の音声の特徴情報との比較に基づいて、音声データにおける各発言の発言者を特定する。続いて、各出席者の音声データを発言の時系列でタイムラインとして出力する技術が知られている。

特開２０１９－６１５９４号公報

しかしながら、上記の従来技術では、オンライン会議サービスにおけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、タイムラインとして、各出席者の発言内容のテキストが時系列で表示されるにすぎない。このため、オンライン会議サービスにおけるユーザビリティが高いとはいえない。

本願は、上記に鑑みてなされたものであって、オンライン会議サービスにおけるユーザビリティを向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

本願に係る情報処理装置は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報を取得する取得部と、前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する生成部と、前記生成部によって生成された情報を前記聞き手の端末装置に出力するよう制御する出力制御部と、を備える。

実施形態の一態様によれば、オンライン会議サービスにおけるユーザビリティを向上させることができるといった効果を奏する。

図１は、実施形態に係る情報処理の概要を説明するための図である。図２は、実施形態に係る情報処理装置の構成例を示す図である。図３は、実施形態に係る参加者情報記憶部の一例を示す図である。図４は、実施形態に係る議事録情報記憶部の一例を示す図である。図５は、実施形態に係る端末装置の構成例を示す図である。図６は、実施形態に係る情報処理手順を示す図である。図７は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．情報処理の概要〕
まず、図１を用いて、実施形態に係る情報処理の概要について説明する。図１は、実施形態に係る情報処理の概要を説明するための図である。図１に示す情報処理は、情報処理システム１によって実現される。情報処理システム１は、オンライン会議サービスの利用者によって利用される端末装置１０と、オンライン会議サービスを提供する情報処理装置１００とを備える。端末装置１０と情報処理装置１００とは所定のネットワークＮ（図示略）を介して、有線または無線により通信可能に接続される。なお、図１に示す情報処理システム１には、任意の数の端末装置１０と任意の数の情報処理装置１００とが含まれてもよい。

端末装置１０は、オンライン会議サービスの利用者（以下、オンライン会議の参加者ともいう）によって利用される情報処理装置である。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。

また、端末装置１０には、オンライン会議サービスを利用するためのアプリケーションがインストールされている。図１に示す例では、端末装置１０には、オンライン会議サービスの一種であるＷｅｂ会議システムを利用するためのアプリケーション（以下、Ｗｅｂ会議アプリともいう）がインストールされている。

以下では、参加者ＩＤ「Ｕ１」により特定される参加者を「参加者Ｕ１」とする場合がある。このように、以下では、「参加者Ｕ＊（＊は任意の数値）」と記載した場合、その参加者は参加者ＩＤ「Ｕ＊」により特定される参加者であることを示す。例えば、「参加者Ｕ２」と記載した場合、その参加者は参加者ＩＤ「Ｕ２」により特定される参加者である。

また、以下では、端末装置１０を利用する参加者に応じて、端末装置１０を端末装置１０－１、１０－２として説明する。例えば、端末装置１０－１は、参加者Ｕ１により使用される端末装置１０である。また、例えば、端末装置１０－２は、参加者Ｕ２により使用される端末装置１０である。また、以下では、端末装置１０－１、１０－２について、特に区別なく説明する場合には、端末装置１０と記載する。

情報処理装置１００は、オンライン会議サービスを提供するサーバ装置である。例えば、情報処理装置１００は、Ｗｅｂ会議システムを提供する。具体的には、情報処理装置１００は、オンライン会議に参加する複数の参加者のうち発言者の音声データを端末装置１０から受信する。続いて、情報処理装置１００は、受信した音声データを発言者以外の他の参加者（聞き手ともいう）の端末装置１０に送信する。また、情報処理装置１００は、発言者の画像データを端末装置１０から受信する。続いて、情報処理装置１００は、受信した画像データを発言者以外の他の参加者（聞き手ともいう）の端末装置１０に送信する。また、情報処理装置１００は、聞き手の画像データを端末装置１０から受信する。続いて、情報処理装置１００は、受信した画像データを発言者の端末装置１０に送信する。

図１に示す例では、６人の参加者Ｕ１～参加者Ｕ６が、オンライン会議サービスを利用してオンライン会議をしている。また、以下では、会議の参加者のうち、会議で発言した参加者のことを「発言者」と記載する場合がある。また、以下では、会議の参加者のうち、発言者の発言を聞いている参加者のことを「聞き手」と記載する場合がある。また、以下では、オンライン会議のことを単に会議と記載する場合がある。

図１では、オンライン会議の冒頭で日本語を使用する参加者Ｕ１が「今日はいい天気です」と日本語で発言する。参加者Ｕ１の端末装置１０－１は、端末装置１０－１に搭載された音センサ（例えば、マイク）によって参加者Ｕ１（発言者）の音声情報を取得する。端末装置１０－１は、参加者Ｕ１（発言者）の音声情報を取得すると、取得した音声情報を情報処理装置１００に送信する。情報処理装置１００は、端末装置１０－１から参加者Ｕ１（発言者）の音声情報を取得する（ステップＳ１）。

続いて、情報処理装置１００は、参加者Ｕ１（発言者）の音声情報を取得すると、公知の音声認識技術を用いて、取得した音声情報を文字情報に変換する。情報処理装置１００は、取得した音声情報を文字情報に変換することで、参加者Ｕ１（発言者）の音声情報から文字情報を生成する（ステップＳ２）。図１では、情報処理装置１００は、参加者Ｕ１（発言者）の音声情報から「今日はいい天気です」という日本語の文字情報を生成する。また、情報処理装置１００は、取得した音声情報を文字情報に変換する際に、参加者Ｕ１（発言者）の音声情報が日本語であると認識する。

また、情報処理装置１００は、参加者Ｕ１（発言者）の音声情報を取得すると、取得した音声情報とあらかじめ登録された参加者Ｕ１（発言者）の音声の特徴情報との比較に基づいて、音声情報の発言者が参加者Ｕ１であると特定する。情報処理装置１００は、発言者を特定すると、参加者Ｕ１の参加者ＩＤ「Ｕ１」と「今日はいい天気です」という日本語の文字情報とを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する（ステップＳ３）。

なお、情報処理装置１００は、以降も、音声情報を取得するたびに、議事録情報を生成する。具体的には、情報処理装置１００は、音声情報を取得するたびに、音声情報を文字情報に変換する。また、情報処理装置１００は、音声情報を取得するたびに、音声情報の発言者を特定する。そして、情報処理装置１００は、特定した発言者の参加者ＩＤと文字情報とを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。こうして、情報処理装置１００は、会議中の全ての発言について、発言者と発言内容を示す文字情報とを対応付けて記録した議事録情報を生成する。

図１の説明に戻る。情報処理装置１００は、音声情報の発言者が参加者Ｕ１であると特定されると、参加者Ｕ１以外の他の参加者Ｕ２～Ｕ６（聞き手）の使用言語に関する情報を取得する（ステップＳ４）。続いて、情報処理装置１００は、聞き手の使用言語に関する情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する（ステップＳ５）。続いて、情報処理装置１００は、翻訳文字情報を生成すると、発言者の音声情報とともに生成した翻訳文字情報を聞き手の端末装置１０に送信する（ステップＳ６）。聞き手の端末装置１０は、発言者の音声情報とともに翻訳文字情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報を画面に表示する。

例えば、情報処理装置１００は、参加者Ｕ２の使用言語がドイツ語であるという情報を取得する。情報処理装置１００は、参加者Ｕ２の使用言語がドイツ語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者Ｕ２の使用言語であるドイツ語に翻訳した翻訳文字情報「Das Wetter heute ist schoen」を生成する。続いて、情報処理装置１００は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者Ｕ２の端末装置１０－２に送信する。端末装置１０－２は、発言者の音声情報とともに翻訳文字情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「Das Wetter heute ist schoen」を画面に表示する。

また、情報処理装置１００は、参加者Ｕ３の使用言語がフランス語であるという情報を取得する。情報処理装置１００は、参加者Ｕ３の使用言語がフランス語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者Ｕ３の使用言語であるフランス語に翻訳した翻訳文字情報「Il fait beau aujourd'hui」を生成する。続いて、情報処理装置１００は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者Ｕ３の端末装置１０－３に送信する。端末装置１０－３は、発言者の音声情報とともに翻訳文字情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「Il fait beau aujourd'hui」を画面に表示する。

また、情報処理装置１００は、参加者Ｕ４の使用言語が日本語であるという情報を取得する。情報処理装置１００は、参加者Ｕ４の使用言語が日本語であるという情報を取得すると、参加者Ｕ４の使用言語が発言者の音声情報から認識した言語と同じ言語なので、文字情報を翻訳する必要がないと判定する。続いて、情報処理装置１００は、文字情報を翻訳する必要がないと判定すると、発言者の音声情報とともに、生成した文字情報を参加者Ｕ４の端末装置１０－４に送信する。端末装置１０－４は、発言者の音声情報とともに文字情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した文字情報「今日はいい天気です」を画面に表示する。

また、情報処理装置１００は、参加者Ｕ５がサブタイトル（文字情報）の表示を希望していないという情報を取得する。情報処理装置１００は、参加者Ｕ５がサブタイトルの表示を希望していないという情報を取得すると、文字情報を送信する必要がないと判定する。続いて、情報処理装置１００は、文字情報を送信する必要がないと判定すると、発言者の音声情報のみを参加者Ｕ５の端末装置１０－５に送信する。端末装置１０－５は、発言者の音声情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力する。

また、情報処理装置１００は、参加者Ｕ６の使用言語が英語であるという情報を取得する。情報処理装置１００は、参加者Ｕ６の使用言語が英語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者Ｕ６の使用言語である英語に翻訳した翻訳文字情報「The Weather is good today」を生成する。続いて、情報処理装置１００は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者Ｕ６の端末装置１０－６に送信する。端末装置１０－６は、発言者の音声情報とともに翻訳文字情報を情報処理装置１００から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「The Weather is good today」を画面に表示する。

上述したように、情報処理装置１００は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報（図１の例では、「今日はいい天気です」）と、会議の参加者である聞き手のコンテキスト情報（図１の例では、聞き手の使用言語に関する情報）を取得する。情報処理装置１００は、文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報（図１の例では、文字情報を聞き手の使用言語に翻訳した翻訳文字情報）を生成する。情報処理装置１００は、生成した表示情報を聞き手の端末装置１０に出力するよう制御する。

これにより、情報処理装置１００は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、発言者の音声情報から生成された文字情報に基づく視認可能な表示情報であって、聞き手のコンテキストに応じた表示情報を聞き手の端末装置１０に表示することで、聞き手に対して発言者の発言内容を適切に伝達可能とすることができる。例えば、使用言語の異なる複数の参加者が参加する国際的なオンライン会議では、発言者によって発言された言語が聞き手にとって聞き慣れない言語であり、音声情報を聞き取りづらい場合がある。このような場合、情報処理装置１００は、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置１０に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。これにより、情報処理装置１００は、オンライン会議における発言者の発言内容を聞き手に対して適切に伝達することを支援することができる。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。なお、文字情報としては、「今日はいい天気です」などの文章の他に、携帯端末に画面に表示されるアイコンやウェブサイトを示すＵＲＬなどの表示（リンク先表示を含む）であってもよい。

〔２．情報処理装置の構成例〕
次に、図２を用いて、実施形態に係る情報処理装置１００の構成について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。また、通信部１１０は、ネットワークＮ（図示略）と有線又は無線で接続される。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。図２に示すように、記憶部１２０は、参加者情報記憶部１２１と、議事録情報記憶部１２２とを有する。

（参加者情報記憶部１２１）
参加者情報記憶部１２１は、オンライン会議の参加者に関する各種情報を記憶する。例えば、参加者情報記憶部１２１は、参加者の属性等の種々の情報を記憶する。図３は、参加者情報記憶部１２１の一例を示す図である。図３に示した例では、参加者情報記憶部１２１は、「参加者ＩＤ」、「端末ＩＤ」、「音声情報」、「画像情報」、「使用言語」、「聴覚障害の有無」、「所在地」といった項目を有する。

「参加者ＩＤ」は、参加者を識別するための識別情報を示す。また、「端末ＩＤ」は、端末装置１０を識別するための識別情報を示す。例えば、「端末ＩＤ」は、参加者がオンライン会議に利用する端末装置１０を識別するための識別情報を示す。

「音声情報」は、参加者ＩＤにより識別される参加者の音声情報を示す。「音声情報」は、発話を行った参加者を識別するための音声の特徴情報であってもよい。なお、図３の例では、各参加者の音声情報を概念的に記号「ＶＰ１」等で示すが、「音声情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。

「画像情報」は、参加者ＩＤにより識別される参加者の画像情報を示す。「画像情報」は、参加者を識別したり、オンライン会議の画面に表示したりするための画像や動画であってもよい。なお、図３の例では、各参加者の画像情報を概念的に記号「ＩＭ１」等で示すが、「画像情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。

「使用言語」は、参加者ＩＤにより識別される参加者の使用言語を示す。例えば、参加者の使用言語は、参加者の母国語を示す。「聴覚障害の有無」は、参加者ＩＤにより識別される参加者の聴覚障害の有無を示す。例えば、聴覚障害の有無「無」は、参加者が聴覚障害を有していないことを示す。また、例えば、聴覚障害の有無「有」は、参加者が聴覚障害を有していることを示す。「所在地」は、参加者ＩＤにより識別される参加者の所在地を示す。例えば、「所在地」は、オンライン会議の開始時刻における参加者の所在地を示す。図３の例では、各参加者の所在地を「日本、東京」や「ドイツ、ベルリン」等の国名と都市名の組み合わせで示すが、「所在地」としては、参加者の所在地を示す緯度や経度などの具体的な位置情報が格納されてもよい。

なお、参加者情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、参加者情報記憶部１２１は、参加者の端末装置１０に関する各種情報を記憶してもよい。また、参加者情報記憶部１２１は、参加者のデモグラフィック（人口統計学的属性）、サイコグラフィック（心理学的属性）、ジオグラフィック（地理学的属性）、ベヘイビオラル（行動学的属性）等の属性に関する情報を記憶してもよい。例えば、参加者情報記憶部１２１は、氏名、家族構成、出身地（地元）、職業、職位、収入、資格、居住形態（戸建、マンション等）、車の有無、通学・通勤時間、通学・通勤経路、定期券区間（駅、路線等）、利用頻度の高い駅（自宅・勤務地の最寄駅以外）、習い事（場所、時間帯等）、趣味、興味、ライフスタイル等の情報を記憶してもよい。

（議事録情報記憶部１２２）
議事録情報記憶部１２２は、オンライン会議の議事録に関する各種情報（議事録情報）を記憶する。例えば、議事録情報記憶部１２２は、各オンライン会議の参加者の発言やその日時を含む議事録情報を記憶する。図４は、実施形態に係る議事録情報記憶部の一例を示す図である。図４に示す議事録情報記憶部１２２は、「会議ＩＤ」、「発言ＩＤ」、「日時」、「発言者」、「発言情報」といった項目を有する。

「会議ＩＤ」は、議事録の生成対象となるオンライン会議を識別するための識別情報を示す。「発言ＩＤ」は、参加者の発言（発話）を識別するための識別情報を示す。「日時」は、対応する発言が行われた日時を示す。なお、図４の例では、「日時」に記憶される情報を「ＤＴ１１－１」等の符号で図示するが、「日時」には、「２０２１年２月１４日１４時０６分０２秒」等の具体的な日時が記憶されるものとする。「発言者」は、対応する発言（発話）を行った参加者を示す。

「発言情報」は、対応する発言ＩＤにより識別される発言の具体的な内容を示す。例えば、「発言情報」には、発言に対応する文字情報が記憶される。「発言情報」には、発言の音声情報が変換された文字情報が記憶される。

（制御部１３０）
図２に戻り、説明を続ける。制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、情報処理装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図２に示す例では、制御部１３０は、取得部１３１と、判定部１３２と、生成部１３３と、出力制御部１３４とを有する。

（取得部１３１）
取得部１３１は、オンライン会議の参加者に関する各種情報を取得する。具体的には、取得部１３１は、画像センサにより検知された会議の参加者の画像情報を端末装置１０から取得する。また、取得部１３１は、音センサにより検知された会議の参加者である発言者の音声情報を端末装置１０から取得する。取得部１３１は、発言者の音声情報を取得すると、取得した音声情報から発言者の音声の特徴情報を取得する。

また、取得部１３１は、発言者の音声情報を取得すると、公知の音声認識技術を用いて、取得した音声情報を文字情報に変換する。取得部１３１は、取得した音声情報を文字情報に変換することで、発言者の音声情報から文字情報を生成する。また、取得部１３１は、取得した音声情報を文字情報に変換する際に、発言者の音声情報の言語の種類を認識する。

また、取得部１３１は、会議の参加者のコンテキスト情報を取得する。例えば、取得部１３１は、参加者のコンテキスト情報の一例として、参加者の属性情報を端末装置１０から取得する。例えば、取得部１３１は、参加者の属性情報の一例として、参加者の使用言語に関する情報を取得する。また、取得部１３１は、参加者の属性情報の一例として、参加者によるサブタイトル（文字情報）の表示の希望の有無に関する情報を取得してよい。なお、属性情報は参加者の使用言語の他に参加者が使用したい言語、例えば、参加者が日本出身であっても英語の方が得意な場合は、その参加者の属性情報は英語に関する情報としてもよい。この場合、取得部１３１に対し使用言語が英語である属性情報を図示しないスイッチなどを用いて設定できるようにしてよい。

また、取得部１３１は、参加者の画像情報、音声情報、音声の特徴情報、およびコンテキスト情報を取得すると、取得した参加者の画像情報、音声情報、音声の特徴情報、およびコンテキスト情報を参加者ＩＤと対応付けて参加者情報記憶部１２１に格納する。

（判定部１３２）
判定部１３２は、取得部１３１によって音声情報が取得されると、参加者情報記憶部１２１を参照して、参加者それぞれの音声の特徴情報を取得する。続いて、判定部１３２は、参加者それぞれの音声の特徴情報と取得部１３１によって取得された音声情報との比較に基づいて、音声情報の発言者を特定する。

また、判定部１３２は、取得部１３１によって音声情報が取得されると、参加者情報記憶部１２１を参照して、参加者によるサブタイトルの表示の希望の有無に関する情報を取得する。続いて、判定部１３２は、参加者によるサブタイトルの表示の希望の有無に関する情報に基づいて、サブタイトルの表示を希望しない参加者がいるか否かを判定する。判定部１３２は、サブタイトルの表示を希望しない参加者がいると判定した場合、サブタイトルの表示を希望しない参加者を特定し、特定した参加者に対しては文字情報を送信する必要がないと判定する。

（生成部１３３）
生成部１３３は、判定部１３２によって音声情報の発言者が特定されると、取得部１３１によって生成された文字情報と特定された発言者の参加者ＩＤとを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。生成部１３３は、議事録情報を生成すると、生成した議事録情報を議事録情報記憶部１２２に格納する。

なお、生成部１３３は、取得部１３１によって音声情報が取得されるたびに、議事録情報を生成する。具体的には、取得部１３１は、音声情報を取得するたびに、音声情報を文字情報に変換する。また、判定部１３２は、取得部１３１によって音声情報が取得されるたびに、音声情報の発言者を特定する。そして、生成部１３３は、取得部１３１によって生成された文字情報と判定部１３２によって特定された発言者の参加者ＩＤとを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。このようにして、生成部１３３は、会議中の全ての発言について、発言者と発言内容を示す文字情報とを対応付けて記録した議事録情報を生成する。

また、生成部１３３は、判定部１３２によって音声情報の発言者が特定されると、発言者以外の他の参加者（聞き手）のコンテキスト情報を取得する。例えば、生成部１３３は、コンテキスト情報の一例として、発言者以外の他の参加者（聞き手）の属性情報を取得する。例えば、生成部１３３は、属性情報の一例として、発言者以外の他の参加者（聞き手）の使用言語に関する情報を取得する。例えば、生成部１３３は、参加者情報記憶部１２１を参照して、発言者として特定された参加者以外の他の参加者の使用言語に関する情報を取得する。

続いて、生成部１３３は、発言者以外の他の参加者（聞き手）のコンテキスト情報を取得すると、取得部１３１によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部１３３は、聞き手の使用言語に関する情報を取得すると、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語であるか否かを判定する。生成部１３３は、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語でないと判定した場合、表示情報の一例として、取得部１３１によって取得された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。

一方、生成部１３３は、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語であると判定した場合、文字情報を翻訳する必要がないと判定する。なお、生成部１３３は、取得部１３１によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成することの他に聴音確認可能な聴音情報（音により認識できる情報）も生成してよく、視認可能な情報と聴音可能な情報の両方を生成してもよい。以下の説明では、生成部１３３は、聞き手のコンテキストに応じた視認可能な表示情報を生成することを例にして説明するが本発明はこれに限定されるものではない。

（出力制御部１３４）
出力制御部１３４は、生成部１３３によって生成された表示情報を聞き手の端末装置１０に出力するよう制御する。具体的には、出力制御部１３４は、生成部１３３によって表示情報が生成されると、発言者の音声情報とともに、生成された表示情報を聞き手の端末装置１０に送信する。例えば、出力制御部１３４は、生成部１３３によって翻訳文字情報が生成されると、発言者の音声情報とともに、生成された翻訳文字情報を対応する聞き手の端末装置１０に送信する。

一方、出力制御部１３４は、生成部１３３によって翻訳文字情報が生成されなかった場合、発言者の音声情報とともに、取得部１３１によって生成された文字情報を対応する聞き手の端末装置１０に送信する。

また、出力制御部１３４は、判定部１３２によってサブタイトルの表示を希望しない参加者が特定された場合、発言者の音声情報のみを対応する聞き手の端末装置１０に送信する。

〔３．端末装置の構成例〕
次に、図５を用いて、実施形態に係る端末装置の構成について説明する。図５は、実施形態に係る端末装置の構成例を示す図である。図５に示すように、端末装置１０は、通信部１１と、音声入力部１２と、撮像部１３と、記憶部１４と、音声出力部１５と、表示部１６と、制御部１７とを有する。なお、端末装置１０は、端末装置１０の利用者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）を有してもよい。

（通信部１１）
通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１は、ネットワークＮ（図示略）と有線または無線で接続され、例えば、情報処理装置１００との間で情報の送受信を行う。

（音声入力部１２）
音声入力部１２は、音センサであるマイク等の集音デバイスによって実現される。音声入力部１２は、参加者の音声などを集音し、集音した音声情報を制御部１７に出力する。また、以下の説明では、音声入力部１２をマイクと記載する場合がある。

（撮像部１３）
撮像部１３は、画像センサであるカメラ等の撮像デバイスによって実現される。撮像部１３は、参加者などの画像を撮影し、撮影した画像情報を制御部１７に出力する。また、以下の説明では、撮像部１３をカメラと記載する場合がある。

（記憶部１４）
記憶部１４は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４は、各種プログラム（情報処理プログラムの一例に相当）を記憶する。例えば、記憶部１４は、Ｗｅｂ会議アプリのプログラムを記憶する。また、記憶部１４は、各種データを記憶する。例えば、記憶部１４は、音声入力部１２に入力された参加者の音声情報を記憶する。また、記憶部１４は、撮像部１３によって撮影された参加者の画像情報を記憶する。また、以下の説明では、記憶部１４をメモリと記載する場合がある。

（音声出力部１５）
音声出力部１５は、スピーカー等の音声出力デバイスによって実現される。音声出力部１５は、情報処理装置１００から受信した他の参加者（発言者）の音声情報を出力する。具体的には、音声出力部１５は、受信部１７２から他の参加者の音声情報を受信する。続いて、音声出力部１５は、受信した他の参加者の音声情報を出力する。また、以下の説明では、音声出力部１５をスピーカーと記載する場合がある。

（表示部１６）
表示部１６は、ディスプレイ等の画像出力デバイスによって実現される。表示部１６は、表示制御部１７３の制御に従って、各種情報を表示する。なお、端末装置１０にタッチパネルが採用される場合には、入力部と表示部１６とは一体化される。また、以下の説明では、表示部１６を画面と記載する場合がある。

具体的には、表示部１６は、情報処理装置１００から受信した他の参加者の画像データを表示する。例えば、表示部１６は、受信部１７２から他の参加者の画像データを受信する。続いて、表示部１６は、表示制御部１７３の制御に従って、受信した他の参加者の画像データを表示する。

また、表示部１６は、情報処理装置１００から受信した表示情報を表示する。例えば、表示部１６は、受信部１７２から表示情報を受信する。続いて、表示部１６は、表示制御部１７３の制御に従って、受信した表示情報を表示する。

（制御部１７）
図５の説明に戻って、制御部１７は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、端末装置１０内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１７は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

制御部１７は、入力部を介して参加者の操作を受け付けると、Ｗｅｂ会議アプリを起動する。また、制御部１７は、Ｗｅｂ会議アプリを起動すると、カメラおよびマイクを起動する。

図５に示すように、制御部１７は、送信部１７１と、受信部１７２と、表示制御部１７３とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１７の内部構成は、図５に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（送信部１７１）
送信部１７１は、音センサにより検知された参加者の音声情報を情報処理装置１００へ送信する。具体的には、送信部１７１は、音声入力部１２から参加者の音声情報を受信すると、受信した参加者の音声情報を情報処理装置１００に送信する。

また、送信部１７１は、画像センサにより検知された参加者の画像情報を情報処理装置１００へ送信する。具体的には、送信部１７１は、撮像部１３から参加者の画像情報を受信すると、受信した参加者の画像情報を情報処理装置１００に送信する。

（受信部１７２）
受信部１７２は、情報処理装置１００から他の参加者の音声情報を受信する。続いて、受信部１７２は、他の参加者の音声情報を受信すると、受信した他の参加者の音声情報を音声出力部１５に出力する。

また、受信部１７２は、情報処理装置１００から他の参加者の画像情報を受信する。続いて、受信部１７２は、他の参加者の画像情報を受信すると、受信した他の参加者の画像情報を表示部１６に出力する。

また、受信部１７２は、情報処理装置１００から表示情報を受信する。続いて、受信部１７２は、表示情報を受信すると、受信した表示情報を表示部１６に出力する。

（表示制御部１７３）
表示制御部１７３は、Ｗｅｂ会議アプリに対する操作を行うための各種画像（例えば、ツールバーやアイコン等）を画面に表示するよう制御する。また、表示制御部１７３は、他の参加者の画像情報を画面に表示するよう制御する。また、表示制御部１７３は、表示情報を画面に表示するよう制御する。

〔４．情報処理手順〕
次に、図６を用いて、実施形態に係る情報処理手順の概要について説明する。図６は、実施形態に係る情報処理手順の概要を示す図である。図６に示すように、情報処理装置１００の取得部１３１は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、会議の参加者である聞き手のコンテキスト情報を取得する（ステップＳ１０１）。

情報処理装置１００の生成部１３３は、取得部１３１によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する（ステップＳ１０２）。例えば、生成部１３３は、取得部１３１によって取得された文字情報と聞き手の使用言語に関する情報とに基づいて、表示情報の一例として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。

情報処理装置１００の出力制御部１３４は、生成部１３３によって生成された表示情報を聞き手の端末装置１０に出力するよう制御する（ステップＳ１０３）。例えば、出力制御部１３４は、生成部１３３によって生成された翻訳文字情報を聞き手の端末装置１０に送信する。端末装置１０の受信部１７２は、情報処理装置１００から翻訳文字情報を受信する。端末装置１０の表示部１６は、受信部１７２から表示情報を受信する。続いて、端末装置１０の表示部１６は、表示制御部１７３の制御に従って、受信した翻訳文字情報を表示する。

〔５．変形例〕
上述した実施形態に係る情報処理システム１は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム１の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。

〔５－１．聴覚障害を有する聞き手に対する手話アバターの表示〕
具体的には、取得部１３１は、聞き手の属性情報の一例として、聞き手の聴覚障害の有無に関する情報を取得する。判定部１３２は、聞き手の聴覚障害の有無に関する情報に基づいて、聞き手が聴覚障害を有するか否かを判定する。生成部１３３は、判定部１３２によって聞き手が聴覚障害を有すると判定された場合、表示情報の一例として、文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する。出力制御部１３４は、生成部１３３によって生成された手話アバターの動画像を聞き手の端末装置１０に出力するよう制御する。

〔５－２．音声トラブルを有する聞き手に対する文字情報の表示〕
また、取得部１３１は、聞き手のコンテキスト情報の一例として、会議の音声トラブルの発生状況に関する情報を取得する。例えば、取得部１３１は、会議の音声トラブルの発生状況に関する情報の一例として、聞き手の端末装置１０から取得した画像情報または音声情報を取得する。判定部１３２は、会議の音声トラブルの発生状況に関する情報に基づいて、聞き手の端末装置１０に音声トラブルが発生しているか否かを判定する。例えば、判定部１３２は、聞き手の端末装置１０から取得した画像情報に基づいて、聞き手が音声トラブルで困っているといった身振り手振りに関する情報が画像情報に含まれていると判定した場合、聞き手の端末装置１０に音声トラブルが発生していると判定する。また、例えば、判定部１３２は、聞き手の端末装置１０から取得した音声情報に基づいて、聞き手による「音が聞こえないです」といった発言が音声情報に含まれていると判定した場合、聞き手の端末装置１０に音声トラブルが発生していると判定する。生成部１３３は、判定部１３２によって音声トラブルが発生していると判定された場合、表示情報の一例として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。出力制御部１３４は、生成部１３３によって生成された翻訳文字情報を聞き手の端末装置１０に出力するよう制御する。

〔５－３．会議に遅れて参加した聞き手に対する議事録情報の表示〕
また、取得部１３１は、聞き手のコンテキスト情報の一例として、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。例えば、取得部１３１は、聞き手の端末装置１０から取得した画像情報に基づいて、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。判定部１３２は、参加開始時刻に関する情報に基づいて、聞き手が会議に遅れて参加したか否かを判定する。例えば、判定部１３２は、参加開始時刻が会議の開始時刻から所定時間以上経過しているか否かを判定する。そして、判定部１３２は、参加開始時刻が会議の開始時刻から所定時間以上経過している場合には、聞き手が会議に遅れて参加したと判定する。

生成部１３３は、判定部１３２によって聞き手が会議に遅れて参加したと判定された場合（すなわち、判定部１３２によって参加開始時刻が会議の開始時刻から所定時間以上経過していると判定された場合）、表示情報の一例として、会議の開始時刻から参加開始時刻までの議事録情報を生成する。出力制御部１３４は、生成部１３３によって生成された会議の開始時刻から聞き手の参加開始時刻までの議事録情報を会議に遅れて参加した聞き手の端末装置１０に出力するよう制御する。

また、生成部１３３は、取得部１３１によって会議の最中にこれまで会議で使用されなかった新たな言語による発言の音声情報が認識された場合には、表示情報の一例として、新たな言語を発言した発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。例えば、生成部１３３は、取得部１３１によって日本語で進められていた会議の最中に新たにフランス語による発言の音声情報が認識された場合には、表示情報の一例として、フランス語を発言した発言者の音声情報から生成された文字情報を聞き手の使用言語（例えば、日本語）に翻訳した翻訳文字情報を生成する。出力制御部１３４は、生成部１３３によって生成された翻訳文字情報を聞き手の端末装置１０に出力するよう制御する。

〔５－４．発言に含まれるキーワードに関する検索結果の表示〕
また、取得部１３１は、発言者の音声情報から生成された文字情報に含まれるキーワードに関する検索結果を取得する。例えば、取得部１３１は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中からキーワードを抽出する。取得部１３１は、キーワードを抽出すると、抽出したキーワードに関する検索を行う。例えば、取得部１３１は、抽出したキーワードを検索クエリとして、インターネット上の情報を検索する。

例えば、取得部１３１は、抽出したキーワードによって示される対象が２次元または３次元の構造を有する場合（例えば、４Ｇのネットワーク構造など）、抽出したキーワードに関する検索結果として、キーワードによって示される対象の２次元画像または３次元画像を取得する。生成部１３３は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部１３３は、表示情報の一例として、検索結果として取得した２次元画像または３次元画像を、聞き手の画面上で見やすい色や大きさに修正した２次元画像または３次元画像を生成する。出力制御部１３４は、生成部１３３によって生成された表示情報を聞き手の端末装置１０に出力するよう制御する。

また、取得部１３１は、抽出したキーワードによって示される対象が数字のみで構成されるデータである場合、抽出したキーワードに関する検索結果として、数字のみで構成されるデータを取得する。生成部１３３は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部１３３は、表示情報の一例として、検索結果として取得した数字のみで構成されるデータに基づいて、聞き手の画面上で見やすいグラフや表を生成する。出力制御部１３４は、生成部１３３によって生成された表示情報を聞き手の端末装置１０に出力するよう制御する。

〔５－４－１．翻訳文書データ（議事録、仕様書）〕
例えば、取得部１３１は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード（例えば、「議事録」や「仕様書」など）を抽出する。取得部１３１は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部１３１は、抽出した文書データを示すキーワードを検索クエリとして、該当する文書データが格納されたデータベースを検索する。取得部１３１は、検索結果として、キーワードによって示される文書データを取得する。

また、取得部１３１は、生成した文字情報の中から文書データの範囲を示すキーワード（例えば、「５ページ辺り…」など）を抽出する。取得部１３１は、文書データの範囲を示すキーワードを抽出すると、抽出した文書データの範囲を検索する。取得部１３１は、検索結果として、範囲を指定した文書データ（例えば、「〇〇の仕様書の５ページ」のデータなど）を取得する。

生成部１３３は、表示情報の一例として、文書データに含まれる文字情報を聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。出力制御部１３４は、生成部１３３によって生成された翻訳文書データを聞き手の端末装置１０に出力するよう制御する。

〔５－４－２．天気を示すアイコン画像〕
また、取得部１３１は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から天気を示すキーワード（例えば、「天気」や「雨」など）を抽出する。取得部１３１は、天気を示すキーワードを抽出すると、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報をインターネット上で検索する。取得部１３１は、検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。

生成部１３３は、表示情報の一例として、会議の参加者のうち少なくとも聞き手の所在地における天気の情報を示すアイコン画像を生成する。出力制御部１３４は、生成部１３３によって生成された聞き手の所在地における天気の情報を示すアイコン画像を聞き手の端末装置１０に出力するよう制御する。

なお、生成部１３３は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を生成してよい。出力制御部１３４は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を参加者の画像と対応付けて聞き手の端末装置１０に出力するよう制御してよい。

〔５－５．発言者に対する表示情報の表示〕
また、取得部１３１は、文字情報と、発言者のコンテキスト情報を取得する。生成部１３３は、文字情報と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた視認可能な表示情報を生成する。出力制御部１３４は、生成部１３３によって生成された表示情報を発言者の端末装置１０に出力するよう制御する。

〔５－５－１．文書データ（議事録、仕様書）のアドレス情報〕
具体的には、取得部１３１は、発言者のコンテキスト情報の一例として、発言者の端末装置１０から取得された音声情報を取得する。また、取得部１３１は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード（例えば、「議事録」や「仕様書」など）を抽出する。取得部１３１は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部１３１は、抽出した文書データを示すキーワードを検索クエリとして、該当する文書データが格納されたデータベースを検索する。取得部１３１は、検索結果として、キーワードによって示される文書データの保存場所を示すアドレス情報を取得する。

生成部１３３は、表示情報の一例として、アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成する。出力制御部１３４は、生成部１３３によって生成されたリンク情報を発言者の端末装置１０に出力するよう制御する。出力制御部１３４は、生成部１３３によって生成されたリンク情報を発言者の端末装置１０に出力するよう制御する。

〔５－５－２．翻訳文書データ（議事録、仕様書）〕
また、取得部１３１は、発言者のコンテキスト情報の一例として、発言者の端末装置１０から取得された音声情報を取得する。また、取得部１３１は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード（例えば、「議事録」や「仕様書」など）を抽出する。取得部１３１は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部１３１は、検索結果として、キーワードによって示される文書データを取得する。

生成部１３３は、表示情報の一例として、文書データに含まれる文字情報を発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。出力制御部１３４は、生成部１３３によって生成された翻訳文書データを発言者の端末装置１０に出力するよう制御する。

〔５－５－３．天気を示すアイコン画像〕
また、取得部１３１は、発言者のコンテキスト情報の一例として、発言者の端末装置１０から取得された音声情報を取得する。また、取得部１３１は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部１３３は、表示情報として、会議の参加者のうち発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する。出力制御部１３４は、生成部１３３によって生成された他の参加者の所在地における天気の情報を示すアイコン画像を発言者の端末装置１０に出力するよう制御する。

なお、生成部１３３は、発言者を含む会議の参加者全員の所在地における天気の情報を示すアイコン画像を生成してよい。出力制御部１３４は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を参加者の画像と対応付けて発言者の端末装置１０に出力するよう制御してよい。

〔５－６．聞き手の質問があった場合に検索結果を表示〕
また、判定部１３２は、他の発言者の音声情報に基づいて、発言者の音声情報から生成された文字情報に含まれるキーワードに関する他の発言者による質問を示す発言（例えば、「その議事録はどのような内容ですか？」といった発言）の有無を判定する。取得部１３１は、判定部１３２によって他の発言者による質問を示す発言があると判定された場合に、文字情報に含まれるキーワードに関する検索結果を取得する。

〔５－７．参加者の人数に応じたリソースの割り振り〕
情報処理装置１００は、会議の参加者からの要望に応じて、音声を文字化する機能、翻訳機能、議事録作成機能といった各機能をクラウド上にオンデマンドで立ち上げ可能である。情報処理装置１００は、会議の参加者の人数に応じて、音声を文字化する機能、翻訳機能、議事録作成機能といった各機能に関するリソースを割り振ってよい。情報処理装置１００は、会議が終わったら上記の表示情報の表示機能を提供する仮想マシン又はコンテナを削除し、リソースを開放する。

〔５－８．特定の参加者間のみで音声出力〕
情報処理装置１００は、複数の参加者のうち、特定の参加者の間のみで音声を出力するよう制御してよい。例えば、情報処理装置１００は、複数の参加者の端末装置１０うち、特定の参加者の端末装置１０の間のみで音声を出力するよう制御する。この際、情報処理装置１００は、特定の参加者以外の他の参加者には、特定の参加者の間での音声のやり取りは聞こえないように制御する。

〔６．効果〕
上述してきたように、実施形態に係る情報処理装置（実施形態では情報処理装置１００）は、取得部１３１と生成部１３３と出力制御部１３４を備える。取得部１３１は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、会議の参加者である聞き手のコンテキスト情報を取得する。生成部１３３は、文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた認識可能な情報を生成する。出力制御部１３４は、生成部１３３によって生成された情報を聞き手の端末装置１０に出力するよう制御する。

これにより、情報処理装置１００は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、例えば、発言者の音声情報から生成された文字情報に基づく視認可能な表示情報であって、聞き手のコンテキストに応じた表示情報を聞き手の端末装置１０に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。これにより、情報処理装置１００は、オンライン会議における発言者の発言内容を聞き手に対して適切に伝達することを支援することができる。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。

また、取得部１３１は、聞き手のコンテキスト情報として、聞き手の属性情報を取得する。生成部１３３は、聞き手の属性に応じた認識可能な情報を生成する。

これにより、情報処理装置１００は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、聞き手の属性に応じた認識可能な情報であって、発言者の音声情報から生成された文字情報に基づいて生成された情報を聞き手の端末装置１０に出力することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。

また、取得部１３１は、聞き手の属性情報として、聞き手の使用言語に関する情報を取得する。生成部１３３は、情報として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。

例えば、使用言語の異なる複数の参加者が参加する国際的なオンライン会議では、発言者によって発言された言語が聞き手にとって聞き慣れない言語であり、音声情報を聞き取りづらい場合がある。このような場合、情報処理装置１００は、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置１０に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。

また、取得部１３１は、聞き手の属性情報として、聞き手の聴覚障害の有無に関する情報を取得する。生成部１３３は、聞き手が聴覚障害を有する場合、情報として、文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する。

これにより、情報処理装置１００は、聞き手が聴覚障害を有する場合であっても、発言者の音声情報から生成された文字情報を手話に翻訳した動きを表現する手話アバターの動画像を聞き手の端末装置１０に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。

また、取得部１３１は、聞き手のコンテキスト情報として、会議の音声トラブルの発生状況に関する情報を取得する。生成部１３３は、音声トラブルが発生している場合、情報として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。

これにより、情報処理装置１００は、聞き手に音声トラブルが発生している場合であっても、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置１０に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。

また、生成部１３３は、情報として、発言者を識別可能な情報と文字情報とを対応付けた情報を時系列に沿って記録した議事録情報を生成する。

このように、情報処理装置１００は、オンライン会議の会議内容を振り返る際に便利な議事録情報を人手によらず自動的に生成する。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。

また、取得部１３１は、聞き手のコンテキスト情報として、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。生成部１３３は、参加開始時刻が会議の開始時刻から所定時間以上経過している場合、情報として、会議の開始時刻から参加開始時刻までの議事録情報を生成する。

これにより、情報処理装置１００は、会議に遅れて参加した参加者が会議の開始時刻から参加開始時刻までの間の会議の内容を議事録情報によって把握することを支援することができる。すなわち、情報処理装置１００は、会議に遅れて参加する参加者が途中からでもスムーズに会議に参加することを支援することができる。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。

また、取得部１３１は、文字情報に含まれるキーワードに関する検索結果を取得する。生成部１３３は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた認識可能な情報を生成する。

これにより、情報処理装置１００は、例えば、発言者の発言に含まれるキーワードに関する検索結果を聞き手に対して視覚的に速やかに共有することを可能にする。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。

また、取得部１３１は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データを取得する。生成部１３３は、情報として、文書データに含まれる文字情報を聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。

これにより、情報処理装置１００は、発言者の発言に含まれるキーワードによって示される文書データの内容を聞き手に対して視覚的に速やかに共有することを可能にする。

また、取得部１３１は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部１３３は、情報として、会議の参加者のうち少なくとも聞き手の所在地における天気の情報を示すアイコン画像を生成する。

これにより、情報処理装置１００は、例えば、会議の冒頭における発言者の天気に関する発言に対して、聞き手の所在地における天気に関する応答を聞き手に促すことができる。したがって、情報処理装置１００は、オンライン会議の参加者同士のコミュニケーションを促すことができるので、オンライン会議を円滑に進めるよう支援することができる。

また、情報処理装置１００は、判定部１３２をさらに備える。判定部１３２は、音センサにより検知された会議の参加者である他の発言者の音声情報に基づいて、文字情報に含まれるキーワードに関する他の発言者による質問を示す発言の有無を判定する。取得部１３１は、判定部１３２によって他の発言者による質問を示す発言があると判定された場合に、文字情報に含まれるキーワードに関する検索結果を取得する。

これにより、情報処理装置１００は、発言者の発言に含まれるキーワードに関する検索結果を単に表示するのではなく、聞き手から質問があったキーワードに関する検索結果のみを適切に表示することができる。

また、取得部１３１は、文字情報と、発言者のコンテキスト情報を取得する。生成部１３３は、文字情報と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた認識可能な情報を生成する。出力制御部１３４は、生成部１３３によって生成された情報を発言者の端末装置１０に出力するよう制御する。

これにより、情報処理装置１００は、発言者のコンテキストに応じた情報を発言者の端末装置１０に出力することで、オンライン会議サービスにおける発言者のユーザビリティを向上させることができる。

また、取得部１３１は、文字情報に含まれるキーワードに関する検索結果を取得する。生成部１３３は、検索結果と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた認識可能な情報を生成する。

これにより、情報処理装置１００は、発言者が会議の内容に関するキーワードに関する情報を検索する手間を省くことができるので、会議をスムーズに進めることを可能にする。したがって、情報処理装置１００は、オンライン会議サービスにおけるユーザビリティを向上させることができる。

また、取得部１３１は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データの保存場所を示すアドレス情報を取得する。生成部１３３は、情報として、アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成する。出力制御部１３４は、生成部１３３によって生成されたリンク情報を発言者の端末装置１０に出力するよう制御する。

これにより、情報処理装置１００は、発言者が会議の内容に関する文書データを探す手間を省くことができるので、会議をスムーズに進めることを可能にする。

また、取得部１３１は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データを取得する。生成部１３３は、情報として、文書データに含まれる文字情報を発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。

これにより、情報処理装置１００は、発言者が会議の内容に関する文書データの内容を視覚的に速やかに確認することを可能にする。

また、取得部１３１は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部１３３は、情報として、会議の参加者のうち発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する。

これにより、情報処理装置１００は、オンライン会議の参加者同士のコミュニケーションを促すことができるので、オンライン会議を円滑に進めるよう支援することができる。

〔７．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００や端末装置１０は、例えば図７に示すような構成のコンピュータ１０００によって実現される。図７は、情報処理装置１００または端末装置１０の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００または端末装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０または制御部１７の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔８．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、上述した実施形態では、情報処理システム１が中央処理型（集中型ともいう）のコンピューティングシステムである例について説明したが、情報処理システムの構成はこれに限られない。例えば、情報処理システムは、複数台の端末装置１０で構成される分散型コンピューティングシステムであってよい。この場合、情報処理システムは、複数台の端末装置１０がネットワークを介して互いに接続される。また、この場合、情報処理システムでは、それぞれの端末装置１０に図２で説明した情報処理装置１００の機能が実装される。

また、上述した情報処理装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。

１情報処理システム
１０端末装置
１１通信部
１２音声入力部
１３撮像部
１４記憶部
１５音声出力部
１６表示部
１７制御部
１７１送信部
１７２受信部
１７３表示制御部
１００情報処理装置
１１０通信部
１２０記憶部
１２１参加者情報記憶部
１２２議事録情報記憶部
１３０制御部
１３１取得部
１３２判定部
１３３生成部
１３４出力制御部

Claims

音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報として、前記聞き手による前記聞き手のコンテキストに応じた視認可能な表示情報の表示の希望の有無に関する情報を取得する取得部と、
前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記表示情報を生成する生成部と、
前記聞き手による前記表示情報の表示の希望の有無に関する情報に基づいて、前記表示情報の表示を希望する参加者および前記表示情報の表示を希望しない参加者を特定する判定部と、
前記判定部によって前記表示情報の表示を希望する参加者であると特定された前記聞き手の端末装置に前記表示情報を表示するよう制御し、前記判定部によって前記表示情報の表示を希望しない参加者であると特定された前記聞き手の端末装置に前記表示情報を表示しないよう制御する出力制御部と、
を備え、
前記取得部は、
前記文字情報の中から文書データの範囲を示すキーワードを抽出し、抽出したキーワードによって示される範囲を指定した文書データを検索し、抽出したキーワードに関する検索結果として、抽出したキーワードによって示される範囲に対応する文書データを取得し、
前記生成部は、
前記表示情報として、抽出したキーワードによって示される範囲に対応する文書データに含まれる文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
情報処理装置。
前記取得部は、
前記聞き手のコンテキスト情報として、前記聞き手の属性情報を取得し、
前記生成部は、
前記聞き手の属性に応じた視認可能な前記表示情報を生成する、
請求項１に記載の情報処理装置。
前記取得部は、
前記聞き手の属性情報として、前記聞き手の使用言語に関する情報を取得し、
前記生成部は、
前記表示情報として、前記文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報を生成する、
請求項２に記載の情報処理装置。
前記取得部は、
前記聞き手の属性情報として、前記聞き手の聴覚障害の有無に関する情報を取得し、
前記生成部は、
前記聞き手が聴覚障害を有する場合、前記表示情報として、前記文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する、
請求項２または３に記載の情報処理装置。
前記取得部は、
前記聞き手のコンテキスト情報として、前記会議の音声トラブルの発生状況に関する情報を取得し、
前記生成部は、
前記音声トラブルが発生している場合、前記表示情報として、前記文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報を生成する、
請求項１～４のいずれか１つに記載の情報処理装置。
前記生成部は、
前記表示情報として、前記発言者を識別可能な情報と前記文字情報とを対応付けた情報を時系列に沿って記録した議事録情報を生成する、
請求項１～５のいずれか１つに記載の情報処理装置。
前記取得部は、
前記聞き手のコンテキスト情報として、前記聞き手が前記会議に参加し始めた参加開始時刻に関する情報を取得し、
前記生成部は、
前記参加開始時刻が前記会議の開始時刻から所定時間以上経過している場合、前記表示情報として、前記会議の開始時刻から前記参加開始時刻までの前記議事録情報を生成する、
請求項６に記載の情報処理装置。
前記取得部は、
前記文字情報に含まれるキーワードに関する検索結果を取得し、
前記生成部は、
前記検索結果と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた視認可能な前記表示情報を生成する、
請求項１～７のいずれか１つに記載の情報処理装置。
前記取得部は、
前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データを取得し、
前記生成部は、
前記表示情報として、前記文書データに含まれる文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
請求項８に記載の情報処理装置。
前記取得部は、
前記文字情報に含まれる天気を示すキーワードに関する検索結果として、前記会議の参加者が所在する各地域における天気の情報を取得し、
前記生成部は、
前記表示情報として、前記会議の参加者のうち少なくとも前記聞き手の所在地における天気の情報を示すアイコン画像を生成する、
請求項８または９に記載の情報処理装置。
前記音センサにより検知された前記会議の参加者である他の発言者の音声情報に基づいて、前記文字情報に含まれるキーワードに関する前記他の発言者による質問を示す発言の有無を判定する判定部をさらに備え、
前記取得部は、
前記判定部によって前記他の発言者による質問を示す発言があると判定された場合に、前記文字情報に含まれるキーワードに関する検索結果を取得する、
請求項８～１０のいずれか１つに記載の情報処理装置。
前記取得部は、
前記文字情報と、前記発言者のコンテキスト情報を取得し、
前記生成部は、
前記文字情報と前記発言者のコンテキスト情報とに基づいて、前記発言者のコンテキストに応じた視認可能な前記表示情報を生成し、
前記出力制御部は、
前記生成部によって生成された前記表示情報を前記発言者の端末装置に出力するよう制御する、
請求項１～１１のいずれか１つに記載の情報処理装置。
前記取得部は、
前記文字情報に含まれるキーワードに関する検索結果を取得し、
前記生成部は、
前記検索結果と前記発言者のコンテキスト情報とに基づいて、前記発言者のコンテキストに応じた視認可能な前記表示情報を生成する、
請求項１２に記載の情報処理装置。
前記取得部は、
前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データの保存場所を示すアドレス情報を取得し、
前記生成部は、
前記表示情報として、前記アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成し、
前記出力制御部は、
前記生成部によって生成された前記リンク情報を前記発言者の端末装置に出力するよう制御する、
請求項１３に記載の情報処理装置。
前記取得部は、
前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データを取得し、
前記生成部は、
前記表示情報として、前記文書データに含まれる文字情報を前記発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
請求項１３または１４に記載の情報処理装置。
前記取得部は、
前記文字情報に含まれる天気を示すキーワードに関する検索結果として、前記会議の参加者が所在する各地域における天気の情報を取得し、
前記生成部は、
前記表示情報として、前記会議の参加者のうち前記発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する、
請求項１３～１５のいずれか１つに記載の情報処理装置。
音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報として、前記聞き手による前記聞き手のコンテキストに応じた視認可能な表示情報の表示の希望の有無に関する情報を取得する取得工程と、
前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記表示情報を生成する生成工程と、
前記聞き手による前記表示情報の表示の希望の有無に関する情報に基づいて、前記表示情報の表示を希望する参加者および前記表示情報の表示を希望しない参加者を特定する判定工程と、
前記判定工程によって前記表示情報の表示を希望する参加者であると特定された前記聞き手の端末装置に前記表示情報を表示するよう制御し、前記判定工程によって前記表示情報の表示を希望しない参加者であると特定された前記聞き手の端末装置に前記表示情報を表示しないよう制御する出力制御工程と、
を含み、
前記取得工程は、
前記文字情報の中から文書データの範囲を示すキーワードを抽出し、抽出したキーワードによって示される範囲を指定した文書データを検索し、抽出したキーワードに関する検索結果として、抽出したキーワードによって示される範囲に対応する文書データを取得し、
前記生成工程は、
前記表示情報として、抽出したキーワードによって示される範囲に対応する文書データに含まれる文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
情報処理方法。
音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報として、前記聞き手による前記聞き手のコンテキストに応じた視認可能な表示情報の表示の希望の有無に関する情報を取得する取得手順と、
前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記表示情報を生成する生成手順と、
前記聞き手による前記表示情報の表示の希望の有無に関する情報に基づいて、前記表示情報の表示を希望する参加者および前記表示情報の表示を希望しない参加者を特定する判定手順と、
前記判定手順によって前記表示情報の表示を希望する参加者であると特定された前記聞き手の端末装置に前記表示情報を表示するよう制御し、前記判定手順によって前記表示情報の表示を希望しない参加者であると特定された前記聞き手の端末装置に前記表示情報を表示しないよう制御する出力制御手順と、
をコンピュータに実行させ、
前記取得手順は、
前記文字情報の中から文書データの範囲を示すキーワードを抽出し、抽出したキーワードによって示される範囲を指定した文書データを検索し、抽出したキーワードに関する検索結果として、抽出したキーワードによって示される範囲に対応する文書データを取得し、
前記生成手順は、
前記表示情報として、抽出したキーワードによって示される範囲に対応する文書データに含まれる文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
情報処理プログラム。