JP7438868B2

JP7438868B2 - 会話支援システム

Info

Publication number: JP7438868B2
Application number: JP2020115275A
Authority: JP
Inventors: 拡也内藤; 裕治山本
Original assignee: Shimizu Corp
Current assignee: Shimizu Corp
Priority date: 2020-02-03
Filing date: 2020-07-03
Publication date: 2024-02-27
Anticipated expiration: 2040-07-03
Also published as: JP2021125197A

Description

本発明は、広大で、かつ環境騒音が大きい場所において、的確なコミュニケーションが取れるように、会話の支援を行う会話支援システムに関する。

建設現場、工場の製造ライン、空港の滑走路、イベント会場のような広大で、かつ環境騒音が大きい場所においては作業を行う人は、作業を進める上で、一人または複数の対象者と会話をし、コミュニケーションを取りたい場面があるが、当該対象者が遠方に離れており、対面での肉声による会話が困難であるケースが多い。

このような場合、大声を出したり、拡声器を用いたりすることが考えられるが、大音量を出すと、それ自体が騒音となってしまい、周囲の作業効率低下などの原因となりかねないし、また、関係のない部外者などに音が届いてしまい、情報漏洩が発生してしまうようなこともあり得る。

そこで、携帯電話やトランシーバー等などといった携帯機器を補助として用いて、会話を行うことが考えられる。しかしながら、このような携帯機器として、手に持つタイプの携帯機器を使う場合、会話のたびごとに手を使う作業を止める必要があり、作業の妨げになり問題であった。また、入力操作を要するような携帯機器の場合には、危険な現場環境で用いると安全上好ましくない、という問題もあった。以上から、携帯機器を補助として会話を行う際においては、可能な限りハンズフリーであることが望ましく、そのための会話を支援するためのシステムが種々提案されてきた。

例えば、特許文献１（特開２０１６－４０６６号公報）には、複数のユーザーの各々に使用され、音声データを送受信して音声の入出力を行うヘッドセットと、複数のユーザーをグループ分けし、同一の会話グループに属するユーザー間で音声の入出力による会話を実現させる管理サーバーとを備えるシステムが開示されている。
特開２０１６－４０６６号公報

しかしながら、引用文献１記載の従来技術においては、会話の内容などからグループ分けされた対象者の間での会話のみを実現させる構成であるために、発言の発信者が、メッセージを実際に伝えたい相手（受信者）に対して、伝達することが必ずしもできない、という問題があった。

以上、（１）大声を出したり、拡声器を用いたりすることなく、通常の小さい音量での会話でも十分に聞き取りしやすいこと、（２）携帯機器の入力操作を要することなく、ハンズフリーで会話を行うことを可能とすること、（３）発言の発信者が、メッセージを実際に伝えたい相手（受信者）に対して、的確に発言を伝達すること、が本発明で実現可能とすべき課題である。

この発明は、上記課題を解決するものであって、本発明に係る会話支援システムは、音声データを無線により送受信する通信部と、装着者の発声を集音し音声データに変換し、前記通信部から送信すると共に、前記通信部から受信した音声データを可聴音として発音する音声情報制御部と、を有する会話支援端末装置と、対象空間における会話支援端末装置を装着する装着者を撮像する撮像部と、一の前記会話支援端末装置で集音された音声データを、他の前記会話支援端末装置で発音する際に、音声データの調整を行う音声情報調整部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の顔方向を推定する顔方向推定部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者のジェスチャーを推定するジェスチャー推定部と、を含み、前記会話支援端末装置を装着する装着者間における会話の支援を行う会話支援システムであって、前記位置推定部で推定された装着者の位置と、前記顔方向推定部で推定された装着者の顔方向と、前記ジェスチャー推定部で推定された装着者のジェスチャーとに応じて、前記音声情報調整部が音声データの調整方法を変更し音声支援を行うことを特徴とする。

また、本発明に係る会話支援システムは、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部をさらに有し、前記音声情報調整部は、前記位置推定部で推定された装着者の位置にも応じて、音声データの調整方法を変更することを特徴とする。

また、本発明に係る会話支援システムは、前記ジェスチャー推定部と、前記音声情報調整部の各機能を実行する前記会話支援端末装置とは異なる会話支援サーバー装置を有することを特徴とする。

また、本発明に係る会話支援システムは、前記会話支援端末装置を装着する装着者の手の動きを検出する検出部をさらに有し、前記ジェスチャー推定部が、前記検出部で検出された手の動きに基づいて、ジェスチャーを推定することを特徴とする。

本発明に係る会話支援システムは、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システムによれば、（１）大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる（２）携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、（３）発言の発信者が、メッセージを実際に伝えたい相手（受信者）に対して、的確に発言を伝達することが可能となる。

また、本発明に係る会話支援システムによれば、発信者の音声が届く範囲を一定程度に制御が可能となるので、部外者への音漏れや情報漏れを抑制することができる。

また、本発明に係る会話支援システムによれば、音声が届く範囲を流動的に変更することが可能となり、円滑なコミュニケーションを実現することができる。

また、本発明に係る会話支援システムによれば、情報の聴き取り精度を向上させることができるので、情報の伝達ミスを抑制することが可能となる。

本発明の実施形態に係る会話支援システム１の運用例を説明する図である。本発明の実施形態に係る会話支援システム１で用いる会話支援端末装置２００のブロック図である。本発明の実施形態に係る会話支援システム１で用いる会話支援メイン装置１００のブロック図である。本発明の実施形態に係る会話支援システム１における位置・顔方向・ジェスチャー推定処理のフローチャートを示す図である。ジェスチャー推定部１２６で推定されるジェスチャーの具体例を示す図である。位置・顔方向・ジェスチャーテーブルの一例を示す図である。本発明の実施形態に係る会話支援システム１における音声調整テーブル更新処理のフローチャートを示す図である。対象空間を上からみた平面模式図である。（ａ）装着者Ａ（例）の顔方向を基準とした座標、（ｂ）音量調整係数マップの座標への重ね合わせジェスチャー組み合わせ-音量調整係数マップ対応テーブルの一例を示す図である。音量調整テーブルの一例を示す図である。本発明の実施形態に係る会話支援システム１における音声支援処理のフローチャートを示す図である。本発明の他の実施形態に係る会話支援システム１で用いる会話支援端末装置２００のブロック図である。

以下、本発明の実施の形態を図面を参照しつつ説明する。図１は本発明の実施形態に係る会話支援システム１の運用例を説明する図である。

本発明に係る会話支援システム１は、例えば建設現場など広大で、かつ環境騒音が大きい場所（以下、「対象空間」という）で用いられることが想定されている。本発明に係る会話支援システム１は、例えば、このような騒音が大きい対象空間において、ある作業者が他の作業者に対して、発言・発声・メッセージを伝達することを支援する目的で構成されている。このような目的のために、対象空間で作業に従事する者には、それぞれに対して会話支援端末装置２００が配布されている。

本実施形態に係る会話支援システム１は、対象空間に付随して設置される会話支援メイン装置１００と、対象空間で作業に従事する者が携行する、前記の会話支援端末装置２００と、から構成されている。本発明に係る会話支援システム１では、対象空間において、複数の作業者のそれぞれが携行することが想定されているために、会話支援端末装置２００は複数準備されている。

例えば、図１で示す対象空間において作業を行う者Ａ乃至Ｄは、いずれも会話支援端末装置２００を身体に装着していることが前提となる。本実施形態に係る会話支援システム１において、会話支援端末装置２００は、所謂ヘッドセットのように身体に装着することできる装置でき、基本的にハンズフリーで機能するように構成されているものである。

ここで、以下、明細書においては、自らの発言・発声・メッセージを伝える者を「発信者」或いは「発信側」と称し、発信者による発言・発声・メッセージを受け取る者を「受信者」或いは「受信側」と称する。

次に、本実施形態に係る会話支援システム１において用いる会話支援端末装置２００についてより詳しく説明する。図２は本発明の実施形態に係る会話支援システム１で用いる会話支援端末装置２００のブロック図である。また、図１には、会話支援端末装置２００の装着者Ｂの拡大図を示している。

会話支援端末装置２００は、装着者の耳に配され、装着者が聞き取れる可聴音を発音するスピーカーなどの発音部２５０を有している。また、会話支援端末装置２００は、装着者の口元に配され、装着者の発言・発声・メッセージを集音するマイクロフォンなどの集音部２４０を有している。

会話支援端末装置２００には、装着者が操作することで装置に対して入力を行う入力ボタン部２６０が設けられている。このような入力ボタン部２６０には会話支援端末装置２００をオンオフする電源ボタンを含めることができる。また、本発明に係る会話支援システム１では、会話支援端末装置２００を装着する装着者のジェスチャーを自動的に推定するように構成されているが、このような推定が不調である場合のバックアップ用途に入力ボタン部２６０を用いることができる。

会話支援端末装置２００における制御部２１０は、例えば、ＣＰＵとＣＰＵ上で動作するプログラムを保持するＲＯＭとＣＰＵのワークエリアであるＲＡＭなどからなる汎用のマイクロコンピューターなどの情報処理装置を用いることができる。このような制御部２１０は、図２で接続される各構成とデータ通信を行い、各構成から所定のデータを受信して演算を行ったり、所定のデータを指令などとして出力したりすることができるようになっている。

特に、制御部２１０は、会話支援端末装置２００内で扱う音声データを調整したり加工したりする。集音部２４０、発音部２５０及び制御部２１０を含む音声データを扱う構成を、音声情報制御部２０５と称する。

会話支援端末装置２００において、通信部２３０は音声データを無線により送受信するものであり、制御部２１０から転送されるデータを外部の機器に送信したり、或いは、外部の機器から受信したデータを制御部２１０に転送したりする。

集音部２４０で集音された音声は集音部２４０で音声信号に変換され、ノイズ除去部２４３に入力されノイズが除去される。ノイズ除去部２４３から出力された音声信号は、さらにＡ／Ｄ変換部２４５に入力され、デジタル音声データに変換されて、制御部２１０に入力される。

また、制御部２１０で調整・加工された音声データは、Ｄ／Ａ変換部２５５に入力され、音声信号に増幅される。この音声信号は、続いて増幅部２５２に入力され、所定の増幅度で増幅された後に、発音部２５０へと出力される。発音部２５０は、音声信号を、装着者が聞き取り可能な可聴音として発音する。

本実施形態に係る会話支援システム１においては、会話支援端末装置２００には識別用マーカー２８０を含めることができる。識別用マーカー２８０は、例えば、図１に示すように会話支援端末装置２００の装着者のヘルメットに添貼することができる。識別用マーカー２８０は、バーコードやＱＲコード（登録商標）などから構成することでできる。

識別用マーカー２８０は、唯一無二のＩＤ情報が含まれており、後述する撮像部で取り込まれ処理されることで、ＩＤ情報をシステム側で認識することができる。個々の識別用マーカー２８０のＩＤ情報は、個々の会話支援端末装置２００に対応付けられており、ヘルメットの識別用マーカー２８０を画像的に取り込むことで、それぞれの会話支援端末装置２００の装着者をシステム側が認識し、例えば装着者の位置情報を把握することができる。

なお、本実施形態に係る会話支援システム１では、このような識別用マーカー２８０を用いてシステム側が、会話支援端末装置２００の装着者の位置情報を把握するように構成されているが、装着者の位置情報を把握するために他の方法を用いるようにしてもよい。例えば、それぞれの会話支援端末装置２００には固有のビーコン信号を発信する発信器を設けておき、これをシステム側が受信して装着者の位置情報を把握するようにしてもよい。

また、本実施形態に係る会話支援システム１では、識別用マーカー２８０を、会話支援端末装置２００の装着者のヘルメットに添貼するようにしているが、識別用マーカー２８０を配する位置がこれに限定されるものではない。

次に、対象空間において上記のような会話支援端末装置２００を装着して作業に従事する複数の者をモニタリングすると共に、必要に応じて会話支援のための処理を実行する会話支援メイン装置１００の構成について説明する。図３は本発明の実施形態に係る会話支援システム１で用いる会話支援メイン装置１００のブロック図である。

会話支援メイン装置１００は、対象空間の画像を撮像して（動）画像データを取得する第１撮像部１０１及び第２撮像部１０２と、第１撮像部１０１及び第２撮像部１０２で取得された画像データを画像解析したり、この画像解析に基づいて、会話支援端末装置２００間の音声データのやりとりの中で音声データの調整を行ったりする会話支援サーバー装置１０５と、から構成されている。

対象空間の画像を撮像する撮像部は本実施形態では、第１撮像部１０１及び第２撮像部１０２の２つであるが、設ける撮像部の数は任意である。要は、対象空間において、会話支援端末装置２００を装着する全ての作業者の動作・ジェスチャーを画像解析可能とする画像データを取得することができればよい。

会話支援サーバー装置１０５としては、演算機能、データ蓄積機能、入出力機能、通信機能などを備える汎用のコンピューターを用いることができる。このような会話支援サーバー装置１０５には、本実施形態に係る会話支援システム１を当該コンピューターに実行させるプログラムがインストールされており、図３のブロック図に示す各機能を実現する。

画像解析部１２０には、第１撮像部１０１及び第２撮像部１０２で取得された画像データが入力され、会話支援端末装置２００の装着者の動きなどが画像解析される。このような画像解析には従来周知の技術を適宜用いることができる。また、画像解析部１２０では、会話支援端末装置２００の装着者の識別用マーカー２８０が認識され、識別用マーカー２８０が示すＩＤ情報に基づいて位置推定部１２２において当該装着者の位置が推定される。

また、画像解析部１２０では、会話支援端末装置２００の装着者の顔の部分が認識され、顔方向推定部１２４では、当該装着者の顔の向き（顔方向）が推定される。また、画像解析部１２０では、会話支援端末装置２００の装着者の体の動き（ジェスチャー）が認識され、ジェスチャー推定部１２６では、当該装着者のジェスチャーが推定される。

位置推定部１２２で推定される装着者の位置に係る情報、顔方向推定部１２４で推定される装着者の顔方向に係る情報、及び、ジェスチャー推定部１２６で推定される装着者のジェスチャーに係る情報は、音声情報調整部１１０に入力され、音声情報調整部１１０において各音声データの調整・加工処理のために利用される。

会話支援サーバー装置１０５における通信部１３０は、それぞれの会話支援端末装置２００の通信部２３０と無線通信を実行することで、各会話支援端末装置２００から音声データを受信すると共に、対象の会話支援端末装置２００に対して音声データを送信する。音声情報調整部１１０は、受信した音声データを、必要に応じて調整・加工処理した上で、対象の会話支援端末装置２００に対して送信する。

ここで、音声情報調整部１１０は、音声データの調整方法を、少なくとも位置推定部１２２で推定される装着者の位置情報、顔方向推定部１２４で推定される装着者の顔方向情報、ジェスチャー推定部１２６で推定される装着者のジェスチャー情報のいずれかの情報に応じて、変更することで、受信者が、送信者の発言・発声・メッセージを聞き取りやすくするようにしている。

次に、以上のように構成される本発明に係る会話支援システム１における処理例について説明していく。図４は本発明の実施形態に係る会話支援システム１における位置・顔方向・ジェスチャー推定処理のフローチャートを示す図である。

図４に示す位置・顔方向・ジェスチャー推定処理は、会話支援メイン装置１００で主として実行される。ステップＳ１００で、位置・顔方向・ジェスチャー推定処理が開始されると、続いて、ステップＳ１０１に進み、第１撮像部１０１、第２撮像部１０２で取得した画像データの画像処理を画像解析部１２０で実行する。

続いて、ステップＳ１０２では、特定されている全ての会話支援端末装置２００の装着者について、ステップＳ１０３～ステップＳ１０６の各ステップを実行する。ステップＳ１０３～ステップＳ１０６の各ステップが、全ての会話支援端末装置２００の装着者について完了すると、ステップＳ１０７からステップＳ１０１に戻り、ループする。

ステップＳ１０３では、位置推定部１２２において、画像データにおける識別用マーカー２８０の位置から装着者の位置を推定する。

次のステップＳ１０４では、顔方向推定部１２４において、画像解析に基づく装着者の顔画像から顔方向を推定する。

次のステップＳ１０５では、ジェスチャー推定部１２６において、画像解析に基づく装着者の身体の画像からジェスチャーを推定する。なお、入力ボタン部２６０でのジェスチャー指定の入力操作があれば、入力ボタン部２６０からの入力を、ジェスチャー推定部１２６の推定より、優先させるようにしてもよい。

ここで、ジェスチャー推定部１２６において、会話支援端末装置２００の装着者のどのようなジェスチャーを推定するのかを例に基づいて説明する。図５はジェスチャー推定部１２６で推定されるジェスチャーの具体例を示す図である。図５（１）乃至（６）は、ジェスチャー推定部１２６が推定してジェスチャーの種別として分類した例である。本実施形態では、これら以外の装着者のジェスチャーは、特段分類されず、装着者が特にジェスチャーをしていないものと判断する。

なお、言うまでもなく、ジェスチャー推定部１２６におけるジェスチャーの分類は、図５（１）乃至（６）に示すまさにその通りのジェスチャーのみならず、当該ジェスチャーに近いジェスチャーと判断されるものも含まれる。また、本発明に係る会話支援システム１は、図５に示す以外のその他のジェスチャーを利用するように構成することもできる。

図５（１）は「片手を口元に添える」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、発信者が受信者に向けて音量を上げて、発言・発声・メッセージを発信しようとしているものと会話支援システム１は認識する。

また、図５（２）は「両手を口元に添える」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、発信者が受信者に向けて図５（１）の場合より音量を上げて、発言・発声・メッセージを発信しようとしているものと会話支援システム１は認識する。

また、図５（３）は「片手を耳に添える」ジェスチャー分類であり、受信者側においてこのジェスチャーが把握されると、受信者が発信者の発言・発声・メッセージを、大きな音量で受信しようとしているものと会話支援システム１は認識する。

また、図５（４）は「両手を耳に添える」ジェスチャー分類であり、受信者側においてこのジェスチャーが把握されると、受信者が発信者の発言・発声・メッセージを、図５（３）の場合より大きな音量で受信しようとしているものと会話支援システム１は認識する。

また、図５（５）は「所定方向を指さす」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、指を指した方向に存在する受信者に対して発言・発声・メッセージを、発信しようとしているものと会話支援システム１は認識する。

また、図５（６）は「両手で所定幅を示す」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、両手で指した方向の範囲内に存在する複数の受信者に対して発言・発声・メッセージを、発信しようとしているものと会話支援システム１は認識する。

以上のようなステップＳ１０３～Ｓ１０５で、会話支援端末装置２００の装着者の位置情報、顔方向情報、ジェスチャー情報がそれぞれ推定されると、次のステップＳ１０６においては、位置・顔方向・ジェスチャーテーブルの更新を実行する。

図６は、ステップＳ１０６で扱う位置・顔方向・ジェスチャーテーブルの一例を示す図である。位置・顔方向・ジェスチャーテーブルには、会話支援端末装置２００の装着者、推定された装着者の位置、推定された顔方向、推定されたジェスチャー分類のコード番号（０～６）が対応付けて記憶されている。そして、このようなテーブルは、データ記憶部１５０に記憶されており、音声情報調整部１１０によって、音声データの調整方法が変更される際に参照される。

次に、本発明に係る会話支援システム１において、音声情報調整部１４０が、音声データを調整・加工することで音声支援を行う際に参照する音声調整テーブルについて説明する。このような音声調整テーブルは、対象空間に存在する会話支援端末装置２００の装着者の状況に応じて適宜更新される。この音声調整テーブルの更新処理について説明していく。図７は本発明の実施形態に係る会話支援システム１における音声調整テーブル更新処理のフローチャートを示す図である。

図７において、ステップＳ２００で、音声調整テーブル更新処理が開始されると、続いて、ステップＳ２０１に進み、位置・顔方向・ジェスチャーテーブルを、データ記憶部１５０から読み込む。

続いて、ステップＳ２０２では、特定されている全ての会話支援端末装置２００の装着者の組み合わせについて、ステップＳ２０３～ステップＳ２０７の各ステップを実行する。ステップＳ２０３～ステップＳ２０７の各ステップが、全ての会話支援端末装置２００の装着者について完了すると、ステップＳ２０８からステップＳ２０１に戻り、ループする。

以下、会話支援端末装置２００の装着者ＡとＢの組み合わせ（図１参照）を例に、フローチャートを説明する。また、図８は対象空間を上からみた平面模式図である。平面模式図では、当該対象空間に装着者Ａ乃至Ｄが会話支援システム１で認識されている様子を示している。

ステップＳ２０３においては、位置・顔方向・ジェスチャーテーブルに基づいて、装着者Ａ（例）の顔方向を基準とした座標を得る。図８の平面模式図における装着者Ａ（例）の顔の正面向きをＹ座標として、そのＹ座標を時計回りに９０°回転したものをＸ座標とする。図９（ａ）はステップＳ２０３で取得される座標のイメージを示している。

なお、本実施形態では、平面模式図において図８や図９に示すように直交座標形式を採用しているが、極座標形式を採用するようにしてもよい。

続いてステップＳ２０４では、位置・顔方向・ジェスチャーテーブルに基づいて、当該座標上での装着者Ｂ（例）の位置を算出して、装着者Ｂを当該座標にプロットする。本例では装着者Ｂの位置は、図８、図９の点線の矢印の矢先の位置として示される箇所である。

次のステップＳ２０５では、ジェスチャーの組み合わせ-マップ対応テーブルから、装着者Ａ、Ｂ（例）のジェスチャーの組み合わせで音量調整係数マップを選択して、当該座標に重ね合わせる。１０はジェスチャー組み合わせ-音量調整係数マップ対応テーブルの一例である。

ジェスチャー組み合わせ-音量調整係数マップ対応テーブルは、図１０に示すように、「送信側ジェスチャー（コード）」、「受信側ジェスチャー（コード）」、「音量調整係数マップ」とを対応付けたテーブルで、データ記憶部１５０に予め記憶されているものである。音量調整係数マップは、ＸＹ座標上の区画毎に係数が記憶されているものである。図１０においては音量調整係数マップＭ₅₀が例示されている。

図９（ｂ）は、ステップＳ２０５が実行され、装着者Ａ（例）の顔の向きを基準とした座標に対して、音量調整係数マップ（Ｍ₅₀）を重ね合わせたものである。

続くステップＳ２０６では、装着者Ｂ（例）の位置に基づいて、重ね合わせられた音量調整係数マップ（Ｍ₅₀）より音声調整係数を取得する。図９に示すれいでは、このステップで、係数として「０．８」が取得される。

続く、ステップＳ２０７において、ステップＳ２０６で取得した音声調整係数で音量調整テーブルの行（送信側）列（受信側）を更新する。図１１は音量調整テーブルの一例を示す図である。音量調整テーブルは、装着者Ｘ（Ｘ＝Ａ，Ｂ，Ｃ，Ｄ・・・）が送信側で、装着者Ｙ（Ｙ＝Ａ，Ｂ，Ｃ，Ｄ・・・）が受信側であるときに、音声情報調整部１１０で用いる調整係数が記述されているこのような音量調整テーブルは、データ記憶部１５０に記憶しておく。

音量調整テーブルに記述されている調整係数は、例えば、送信者の音声データの音量レベルにこれを乗じて、受信者に送信するようにして用いる。（例えば、図１１の場合、送信者Ａの音声データの音量レベルに「０．８」が乗ぜられ、受信者Ｂに送信される。）このような受信者が受信する音声データの音量レベルには、調整係数が乗じられることで、受信者は適切な音量で、送信者の発言・発声を聞くことができ、的確なコミュニケーションを取ることが可能となる。なお、本例では、調整係数を、音声データの音量レベルの調整のために用いているが、音声データの音量レベル以外の項目（例えば、音質など）に用いるようにしてもよい。

次に、以上のような更新された各種テーブルに基づく、本発明に係る会話支援システム１における音声支援処理について説明する。図１２は本発明の実施形態に係る会話支援システム１における音声支援処理のフローチャートを示す図である。このような音声支援処理のフローチャートは、会話支援メイン装置１００の会話支援サーバー装置１０５にて実行される。

図１２において、ステップＳ３００で、音声支援処理が開始されると、続いて、ステップＳ３０１に進む。

続くステップＳ３０１では、会話支援サーバー装置１０５側では、通信部１３０で取得される各会話支援端末装置２００からの音声データに基づいて、送信者を特定する。

次のステップＳ３０２では、図６に示す位置・顔方向・ジェスチャーテーブルから、当該送信者が発言・発声・メッセージを発信しようとしている対象である受信者を特定する。このとき、ジェスチャー分類が「０」であったとしても、「位置」、「顔方向」に関するデータから、送信者の特定を行う。

続く、ステップＳ３０３では、図１１に示す音量調整テーブルから、当該送信者、当該受信者に対応する音声調整係数を取得する。

次のステップＳ３０４では、当該送信者から受信した音声データを、取得した音声調整係数で調整を行い、当該受信者に送信する。

上記のステップＳ３０４で送信された調整済みの音声データは、受信側の会話支援端末装置２００の発音部２５０で再生・発音され、当該会話支援端末装置２００の装着者が聞き取ることが可能となる。

以上のように、本発明に係る会話支援システム１は、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システム１によれば、（１）大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる（２）携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、（３）発言の発信者が、メッセージを実際に伝えたい相手（受信者）に対して、的確に発言を伝達することが可能となる。

また、本発明に係る会話支援システム１によれば、発信者の音声が届く範囲を一定程度に制御が可能となるので、部外者への音漏れや情報漏れを抑制することができる。

また、本発明に係る会話支援システム１によれば、音声が届く範囲を流動的に変更することが可能となり、円滑なコミュニケーションを実現することができる。

また、本発明に係る会話支援システム１によれば、情報の聴き取り精度を向上させることができるので、情報の伝達ミスを抑制することが可能となる。

次に、本発明の他の実施形態について説明する。他の実施形態では、先の実施形態で用いられた会話支援メイン装置１００を省略し、会話支援メイン装置１００の機能を、個々の会話支援端末装置２００に移管するように構成したものである。以下、そのために用いる機能が拡張された会話支援端末装置２００の構成について説明する。

図１３は本発明の他の実施形態に係る会話支援システム１で用いる会話支援端末装置２００のブロック図である。なお、先の実施形態の会話支援端末装置２００と同様の参照番号を有する構成は、他の実施形態においても同様のものであるので、説明を省略する。

先の会話支援システム１においては、会話支援メイン装置１００側で画像データを取得することで、会話支援端末装置２００装着者の位置・顔方向・ジェスチャーに係る情報を取得するようにしていた。

一方、他の実施形態で用いる会話支援端末装置２００においては、位置・顔方向・ジェスチャーに係る情報を取得するために、会話支援端末装置２００にビーコン送受信部３０５、姿勢検出部３１０、ジェスチャー検出部３２０が設けられている。

ビーコン送受信部３０５は、それぞれ固有のビーコン信号を送信すると共に、他の装置のビーコン信号を受信する構成である。このビーコン送受信部３０５は、Ｂｌｕｅｔｏｏｔｈ、ＵＷＢ等の技術により構成することができる。ビーコン送受信部３０５は、他の装置のビーコン信号を受信し、信号の到来時間、時間差、到来角を得ることで、会話支援端末装置２００間の相対位置を検出する。

姿勢検出部３１０は、会話支援端末装置２００装着者の姿勢を検出する加速度センサ、方位センサから構成することができる。これにより、会話支援端末装置２００装着者の顔方向を検出することができる。顔方向を検出するために、ビーコン送受信部３０５で得られる情報を用いるようにしてもよい。

ジェスチャー検出部３２０は、ヘッドセット様の会話支援端末装置２００のフレーム部（不図示）に設けられ、装着者の手の動きを検出し得る赤外線センサにより構成することができる。ジェスチャー検出部３２０は、このような赤外線センサにより会話支援端末装置２００装着者のジェスチャーが推定される。

位置・顔方向・ジェスチャー推定部３３０は、ビーコン送受信部３０５、姿勢検出部３１０、ジェスチャー検出部３２０から得られるデータに基づいて、先の実施形態同様、位置・顔方向・ジェスチャーに係る情報を取得し、位置・顔方向・ジェスチャーテーブルを更新する。

上記の更新された位置・顔方向・ジェスチャーテーブルは、データ記憶部３５０に記憶される。また、データ記憶部３５０には、先の実施形態同様、ジェスチャー組み合わせ-音量調整係数マップ対応テーブルが予め準備され記憶されている。また、データ記憶部３５０においては、音量調整テーブルが先の実施形態と同様のアルゴリズムによって更新される。

通信部１３０は他の装置からの音声データを取得し、音声情報調整部３４０では、図１２に示したフローチャートに基づいて、当該音声データに調整・加工を施した上で、発音部２５０でこれを発音させて、装着者に対して聞き取りやすい音声を提供する。

以上のような、他の実施形態に係る会話支援システム１によっても、先の実施形態と同様の効果を享受することが可能となると共に、対象空間側に会話支援メイン装置１００を設ける必要がなくなるので、システム構成を簡素化することができる。

他の実施形態に係る会話支援システム１は、ヘッドセット様の会話支援端末装置２００に多くのデータ処理を負担させる構成であったために、会話支援端末装置２００の装置構成の容量が大きくなってしまう。一方、スマートフォンなどのデバイスが業務用に支給される事例が多い。そこで、会話支援端末装置２００の機能・構成の一部を、スマートフォンなどのデバイスに担わせるようにすることもできる。

以上、本発明に係る会話支援システムは、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システムによれば、（１）大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる（２）携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、（３）発言の発信者が、メッセージを実際に伝えたい相手（受信者）に対して、的確に発言を伝達することが可能となる。

１・・・会話支援システム
１００・・・会話支援メイン装置
１０１・・・第１撮像部
１０２・・・第２撮像部
１０５・・・会話支援サーバー装置
１１０・・・音声情報調整部
１２０・・・画像解析部
１２２・・・位置推定部
１２４・・・顔方向推定部
１２６・・・ジェスチャー推定部
１３０・・・通信部
１５０・・・データ記憶部
２００・・・会話支援端末装置
２０５・・・音声情報制御部
２１０・・・制御部
２３０・・・通信部
２４０・・・集音部
２４３・・・ノイズ除去部
２４５・・・Ａ／Ｄ変換部
２５０・・・発音部
２５２・・・増幅部
２５５・・・Ｄ／Ａ変換部
２６０・・・入力ボタン部
２８０・・・識別用マーカー
３０５・・・ビーコン送受信部
３１０・・・姿勢検出部
３２０・・・ジェスチャー検出部
３３０・・・位置・顔方向・ジェスチャー推定部
３４０・・・音声情報調整部
３５０・・・データ記憶部

Claims

音声データを無線により送受信する通信部と、装着者の発声を集音し音声データに変換し、前記通信部から送信すると共に、前記通信部から受信した音声データを可聴音として発音する音声情報制御部と、を有する会話支援端末装置と、
対象空間における会話支援端末装置を装着する装着者を撮像する撮像部と、
一の前記会話支援端末装置で集音された音声データを、他の前記会話支援端末装置で発音する際に、音声データの調整を行う音声情報調整部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の顔方向を推定する顔方向推定部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者のジェスチャーを推定するジェスチャー推定部と、を含み、
前記会話支援端末装置を装着する装着者間における会話の支援を行う会話支援システムであって、
前記位置推定部で推定された装着者の位置と、前記顔方向推定部で推定された装着者の顔方向と、前記ジェスチャー推定部で推定された装着者のジェスチャーとに応じて、前記音声情報調整部が音声データの調整方法を変更し音声支援を行うことを特徴とする会話支援システム。
前記会話支援端末装置を装着する装着者の位置を推定する位置推定部をさらに有し、
前記音声情報調整部は、前記位置推定部で推定された装着者の位置にも応じて、音声データの調整方法を変更することを特徴とする請求項１に記載の会話支援システム。
前記ジェスチャー推定部と、前記音声情報調整部の各機能を実行する前記会話支援端末装置とは異なる会話支援サーバー装置を有することを特徴とする請求項１又は請求項２に記載の会話支援システム。
前記会話支援端末装置を装着する装着者の手の動きを検出する検出部をさらに有し、
前記ジェスチャー推定部が、前記検出部で検出された手の動きに基づいて、ジェスチャーを推定することを特徴とする請求項１又は請求項２に記載の会話支援システム。