JP2023154894A

JP2023154894A - 情報変換システム、情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2023154894A
Application number: JP2022064525A
Authority: JP
Inventors: 大平向出; Taihei Mukaide; 剛史近藤; Takashi Kondo; 彩乃増田; Ayano Masuda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2023-10-20
Also published as: WO2023195323A1

Abstract

【課題】生体情報を文字情報若しくは音声情報に変換し、音情報を文字情報に変換することが可能であり、精度が高く変換された文字情報若しくは音声情報を出力することができる情報変換システムを提供する。【解決手段】ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部１０２と、音情報を検出する音情報検出部１０３と、音情報の特性が所定の条件を満たしているか否かを判定する判定部１１０と、音情報検出部１０３で検出した音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、生体情報検出部１０２で検出した生体情報から変換された文字情報若しくは音声情報を出力し、音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、音情報検出部１０３で検出した音情報から変換された文字情報を出力する変換部１０６とを備える。【選択図】図１

Description

本発明は、生体情報から文字情報に変換する情報変換システム、情報処理装置、情報処理方法及びプログラムに関する。

近年、ユーザの音声情報を利用して、発話内容を認識することが行われている。ユーザの口の動きを示す生体情報及び音声情報を取得し、音声情報に基づく発話内容の認識結果を出力することが行われている。（例えば、特許文献１）

特開２０２１―８１５２７号公報

しかしながら、特許文献１では、ユーザの音声情報を含む発話情報に基づく発話内容の認識結果を出力しているに過ぎず、生体情報と、音声情報から文字情報を変換する構成であり生体情報のみから文字情報を変換する構成ではない。

本発明は、生体情報を文字情報若しくは音声情報に変換し、音情報を文字情報に変換することが可能であり、高精度に変換された文字情報若しくは音声情報を出力することを目的とする。

ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。

本発明の目的を達成するために、本発明の情報変換システムは、ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部と、音情報を検出する音情報検出部と、前記音情報の特性が所定の条件を満たしているか否かを判定する判定部と、前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、前記音情報検出部で検出した前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報から変換された文字情報を出力する変換部とを備える。

また、本発明の情報処理装置は、生体情報検出部で検出された生体情報と音情報検出部で検出された音情報を受信する受信部と、前記音情報の特性が所定の条件を満たしているか否かを判定する判定部と、前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報検出部で検出した前記音情報から変換された文字情報を出力する変換部とを備える。

また、本発明の情報処理方法は、生体情報検出部で検出された生体情報と音情報検出部で検出された音情報を受信するステップと、前記音情報の特性が所定の条件を満たしているか否かを判定するステップと、前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した前記生体情報から変換された文字情報若しくは音声情報を出力し、前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報検出部で検出した前記音情報から変換された文字情報を出力するステップとを含む。

本発明によれば、生体情報を文字情報若しくは音声情報に変換し、音情報を文字情報に変換することが可能であり、高精度に変換された文字情報若しくは音声情報を出力することができる。

本発明の情報変換システムの構成を示す図。本発明の情報変換システムの動作を示すフローチャート。本発明の実施例１の情報変換システムの構成を示す図。本発明の実施例１の検出デバイスの模式図。本発明の実施例１に関する動作を示すフローチャート。本発明の実施例２の情報変換システムの構成を示す図。本発明の実施例２の検出デバイスの模式図。本発明の実施例２に関する動作を示すフローチャート。本発明の実施例３の検出デバイスの模式図。本発明の実施例４の情報変換システムの構成を示す図。本発明の実施例４の検出デバイスの模式図。本発明の実施例４に関する動作を示すフローチャート。本発明の実施例５の情報変換システムの構成を示す図。本発明の実施例５の検出デバイスの模式図。本発明の実施例５に関する動作を示すフローチャート。本発明の実施例６の検出デバイスの模式図。

以下、本発明の実施の形態を詳細に説明する。本発明の情報変換システムの概略を図１に示す。

情報変換システムは、主に、検出デバイス１００と情報処理装置１０１によって構成されている。検出デバイス１００は、ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部１０２と、音情報を検出する音情報検出部１０３と、生体情報検出部１０２で検出された生体情報と音情報検出部１０３で検出された音情報を情報処理装置１０１に送信する送信部１０４とを有している。

図１では、検出デバイス１００が１つのデバイスである形態を示しているが、複数のデバイスでもよく、生体情報検出部１０２と音情報検出部１０３をそれぞれの検出デバイスで構成してもよい。なお、検出デバイス１００は、生体情報及び音情報などの情報を取得する取得部と言い換えることもできる。

生体情報検出部１０２は、ユーザの筋肉の動き、皮膚や舌の動きなどに関する生体情報を検出するセンサから構成されている。生体情報検出部１０２は、筋電位センサ、加速度センサ、超音波センサ、触覚センサ、光センサ、圧力センサなどの少なくとも１つである。なお、生体情報検出部１０２は、生体情報を検出するセンサであれば、上記センサ以外であってもよい。生体情報検出部１０２は、ユーザの口や舌の動きに関する生体情報を検出するため、頸部、下顎部、口回り、こめかみなどの部位に設置することが望ましい。口や舌の動きに関する生体情報を検出できる場所であれば、生体情報検出部１０２は、上記の部位以外に設置されていてもよい。

音情報検出部１０３は、外部の環境音、ユーザの発話時の音声や、咳や咀嚼音、嚥下音など発話以外のユーザが発する音を検出するセンサ（マイク）から構成されている。音情報検出部１０３は、コンデンサマイク、骨伝導マイク、皮膚伝導マイクなどの少なくとも１つである。音情報検出部１０３は、ユーザが発する音を検出するセンサであれば、上記マイク以外であってもよい。また、音情報検出部１０３において、外部の環境音を検出するセンサ（マイク）と、ユーザの発話時の音声や、咳や咀嚼音、嚥下音など発話以外のユーザが発する音を検出するセンサ（マイク）は別々に設置されていてもよい。

音情報検出部１０３は、少なくとも二つ以の検出部から構成されてもよい。音情報検出部１０３は、例えば、体内から発する音情報を検出する音情報検出部と外部音を検出する音情報検出部である。体内から発する音情報を検出する音情報検出部１０３は、例えば、骨伝導マイク、若しくは皮膚伝導マイクである。

情報処理装置１０１は、検出デバイス１００から送信された生体情報と音情報を受信する受信部１０５と、受信部１０５が受信した生体情報と音情報を文字情報、音声情報若しくは音声情報に変換する変換部１０６と、受信部１０５が受信した音情報を解析し、音情報の特性が所定の条件を満たしているか否かを判定する判定部１１０とを有している。

情報処理装置１０１は、スマートフォン、パーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ：ＰＣ）、タブレットＰＣ（ｔａｂｌｅｔＰＣ）などを示すが、それに限ったものではない。情報処理装置１０１が、例えば、パーソナルコンピュータである場合、変換部１０６によって変換された文字情報はディスプレイなどの表示部１０７に送信される。表示部１０７は、文字情報を表示する。情報処理装置１０１は、表示部１０７における表示形態を制御する表示制御部（図示しない。）を有していてもよい。

変換部１０６は、該変換された文字情報を、さらに音声情報に変換することができる。または、変換部１０６は生体情報を直接音声情報に変換することもできる。変換部１０６で変換された音声情報は、音情報出力部１０８に送信される。音情報出力部１０８はスピーカーであり、音情報出力部１０８は音声情報を再生することができる。

判定部１１０は、受信部１０５が受信した音情報の特性を解析し、音情報の特性が所定の条件を満たしているか否かを判定する。判定部１１０は、例えば、受信部１０５が受信した音情報の音量が所定の閾値より大きいか否かを判定する。また、判定部１１０は、受信部１０５が受信した音情報の特性から、音情報にノイズ（発話以外の音）が含まれているか否かを判定する。さらに、判定部１１０は、受信部１０５が受信した音情報の特性から、ユーザが発話している発話期間であるか（ユーザの発声が含まれているか）否かを判定することもできる。ユーザは、判定部１１０の上記判定条件を任意に選択することができる。ノイズは、例えば、ユーザの体内から発せられる発話と関係のない情報である。

なお、ユーザは、判定部１１０の上記判定条件を任意に組み合わせて選択することもできる。判定部１１０は、例えば、受信部１０５が受信した音情報の音量が所定の閾値より大きいか否かと、音情報にノイズが含まれているか否かを同時に判定することができる。また、判定部１１０は、例えば、受信部１０５が受信した音情報の特性から、ユーザが発話している発話期間であるか（ユーザの発声が含まれているか）否かと、音情報にノイズが含まれているか否かを同時に判定することもできる。

音情報の特性が所定の条件を満たしていると判定部１１０が判定した場合、ユーザが発話した音声が適切に検出できている可能性が高いため、変換部１０６は、音情報検出部１０３で検出された音情報を文字情報に変換する。

例えば、音情報の音量が所定の閾値より大きいと判定部１１０が判定した場合、変換部１０６は、音情報検出部１０３で検出された音情報を文字情報に変換する。

また、受信部１０５が受信した音情報のユーザが発話した音量が所定の閾値より大きく、音情報にノイズが含まれていないまたはノイズが少ない場合、変換部１０６は、音情報検出部１０３で検出された音情報を文字情報に変換する。なお、判定部１１０が音情報においてユーザの発話に関する音のＳ／Ｎが閾値より大きいと判定した場合、変換部１０６は、音情報検出部１０３で検出された音情報を文字情報に変換してもよい。一方、音情報の特性が所定の条件を満たしていないと判定部１１０が判定した場合、ユーザが発話した音声が適切に検出できていない可能性が高いため、変換部１０６は、生体情報検出部１０２で検出された生体情報を文字情報若しくは音声情報に変換する。

音情報の音量が所定の閾値以下であると判定部１１０が判定した場合、変換部１０６は、生体情報検出部１０２で検出された生体情報を文字情報若しくは音声情報に変換する。また、受信部１０５が受信した音情報に外部音によるノイズが含まれている場合、ユーザが発話している発話期間ではない場合、変換部１０６は、生体情報検出部１０２で検出された生体情報を文字情報若しくは音声情報に変換する。なお、受信部１０５が受信した音情報に咳や咀嚼音、嚥下音など体内から発せられるノイズが含まれている場合、生体情報検出部１０２で検出された生体情報もノイズが含まれている可能性が高い。そのため、変換部１０６は、生体情報検出部１０２で検出された生体情報を文字情報にも音声情報に変換しないようにすることもできる。外部音および体内から発せられるノイズの識別のために２種類のマイクを用いることも可能である。例えば外部音の取り込みのための通常のマイクと、体内から発生する音に対する骨伝導マイクや皮膚伝導マイクなどを用いることができる。

変換部１０６は、生体情報検出部１０２で検出された生体情報を文字情報若しくは音声情報に変換する際、第一の変換手法（第一の変換アルゴリズム）を用いて、生体情報を文字情報若しくは音声情報に変換する。変換部１０６は、音情報検出部１０３で検出された音情報を文字情報に変換する際、第二の変換手法（第二の変換アルゴリズム）を用いて、音情報を文字情報に変換する。

第一の変換手法における変換アルゴリズムと第二の変換手法における変換アルゴリズムには、ニューラルネットワークによって構成されたアーキテクチャによる学習済みモデルが用いられる。情報処理装置１００は、学習済みモデルを記憶する記憶部（図示しない。）を有している。変換部１０６は、学習済みモデルを用いて推論を行う機能を有している。

学習済みモデルは、ディープラーニングであるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて生成されたモデルである。ＣＮＮやＲＮＮを派生させたモデル以外にも、サポートベクターマシンやロジスティック回帰、ランダムフォレスト等の他の機械学習技術を用いてもよいし、ルールベースに基づく手法を用いてもよい。

情報処理装置１０１は、例えば、生体情報検出部１０２で検出された生体情報と文字情報若しくは音声情報とを対応づけて学習することにより、第一の変換手法で用いる学習済みモデルを生成する。情報処理装置１０１は、音情報検出部１０３で検出された音情報と文字情報とを対応づけて学習することにより、第二の変換手法で用いる学習済みモデルを生成する。

具体的には、情報処理装置１０１は、事前に、生体情報検出部１０２で検出された生体情報（例えば、筋電位信号の波形）と文字情報若しくは音声情報（例えば、あ、い、う、え、お、若しくはそれらの音とがそれぞれ対応付けられた複数のデータセットを取得する。生体情報検出部１０２は、例えば、ユーザの皮膚に接触する面（接触面）に、複数の電極を有しており、それぞれ電極においてユーザの筋電位信号を計測することができる。

図１では、学習部１１１が情報処理装置１０１に構成されている。なお、学習部１１１は、クラウド上に構成されていてもよい。学習部１１１がクラウド上に構成される場合、情報処理装置１０１のデータ転送部（図示しない。）を介して、各種データが転送される。

学習部１１１は、複数のデータセットにおける生体情報と文字情報若しくは音声情報の対応関係を教師データとし、生体情報と文字情報若しくは音声情報と対応づけて学習することにより、第一の変換手法で用いる学習済みモデルを生成する。このように、生体情報と文字情報若しくは音声情報と対応づけて学習された学習済みモデルを用いて、変換部１０６は、新たに入力された生体情報に対して推論を行ない、文字情報若しくは音声情報を出力することができる。

同様にして、学習部１１１は、事前に、音情報検出部１０３で検出された音情報（例えば、音情報の波形）と文字情報（例えば、あ、い、う、え、お）とがそれぞれ対応付けられた複数のデータセットを取得する。学習部１１１は、複数のデータセットにおける音情報と文字情報の対応関係を教師データとし、音情報の特性と文字情報と対応づけて学習することにより、第二の変換手法で用いる学習済みモデルを生成する。このように、音情報と文字情報と対応づけて学習された学習済みモデルを用いて、変換部１０６は、新たに入力された音情報に対して推論を行ない、文字情報を出力することができる。

なお、第一の変換手法における変換アルゴリズムと第二の変換手法における変換アルゴリズムを説明したが、音情報及び生体情報を含む情報を文字情報若しくは音声情報に変換する第三の変換アルゴリズムを用いることもできる。

具体的には、学習部１１１は、事前に、生体情報検出部１０２で検出された生体情報と音情報検出部１０３で検出された音情報とを含む情報と、文字情報若しくは音声情報とがそれぞれ対応付けられた複数のデータセットを取得する。学習部１１１は、複数のデータセットにおける生体情報と音情報の特性とを含む情報と文字情報若しくは音声情報の対応関係を教師データとし、生体情報と音情報とを含む情報と文字情報若しくは音声情報と対応づけて学習することにより、第三の変換手法で用いる学習済みモデルを生成する。このように、生体情報と音情報とを含む情報と文字情報と対応づけて学習された学習済みモデルを用いて、変換部１０６は、新たに入力された生体情報と音情報とを含む情報に対して推論を行ない、文字情報若しくは音声情報を出力することができる。

学習部１１１は、音情報検出部１０３によって検出された音情報を用いて第二の変換手法によって変換された文字情報と、音情報検出部１０３によって検出された音情報と同時に取得された生体情報検出部１０２によって取得された生体情報との対応関係を教師データとし、生体情報と文字情報若しくは音声情報と対応づけて学習することにより、第一の変換手法で用いる学習済みモデルを更新することができる。

なお、情報処理装置１０１は、クラウド上に構成されていてもよい。検出デバイス１００における送信部１０４は、生体情報検出部１０２で検出された生体情報と音情報検出部１０３で検出された音情報をクラウドに送信する。クラウドでは、生体情報と音情報を文字情報若しくは音声情報に変換し、該変換された文字情報を表示部１０７に送信する。表示部１０７は、文字情報を表示する。また、変換された文字情報をさらに音声情報に変換し音情報出力部１０８に送信してもよい。また、生体情報を直接、音声情報に変換し音情報出力部１０８に送信してもよい。

検出デバイス１００と情報処理装置１０１との間の通信は、有線、無線のいずれであってもよい。検出デバイス１００と情報処理装置１０１との間の通信が有線で実現される場合、検出デバイス１００における送信部１０４と情報処理装置１０１における受信部１０５は、ＵＳＢケーブル、ＨＤＭＩ（登録商標）などによる有線によって接続される。

検出デバイス１００と情報処理装置１０１との間の通信が無線で実現される場合、検出デバイス１００における送信部１０４と情報処理装置１０１における受信部１０５は、ＷｉＦｉなどの無線ＬＡＮの通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線通信などによる無線によって接続される。

情報処理装置１０１がスマートフォン、タブレットＰＣであれば、表示部１０７はディスプレイである。音情報出力部１０８はスマートフォン、タブレットＰＣに設置されたスピーカー、若しくは、スマートフォン、タブレットＰＣに接続されたイヤホンになる。

本発明の情報変換システムは、ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部１０２と、音情報を検出する音情報検出部１０３と、音情報の特性が所定の条件を満たしているか否かを判定する判定部１１０と、音情報検出部１０３で検出した音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、生体情報検出部１０２で検出した生体情報から変換された文字情報若しくは音声情報を出力し、音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、音情報検出部１０３で検出した音情報から変換された文字情報を出力する変換部１０６とを備える。

変換部１０６は、音情報検出部１０３で検出した音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、生体情報検出部１０２で検出した生体情報を文字情報若しくは音声情報に変換し、音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、音情報を文字情報に変換することができる。

変換部１０６は、音情報検出部１０３で検出した音情報の特性に応じて、第一の変換手法から第二の変換手法に、若しくは第二の変換手法から第一の変換手法に切り替え、切り替えられた変換手法によって変換された文字情報若しくは音声情報を出力することができる。

変換部１０６は、音情報検出部１０３で検出した音情報の特性が所定の条件を満たす場合、第三の変換手法を用いて、音情報及び生体情報を含む情報から変換された文字情報を出力することもできる。変換部１０６は、音情報検出部１０３で検出した音情報の特性に応じて、第一の変換手法から第三の変換手法に、若しくは第三の変換手法から第一の変換手法に切り替え、切り替えられた変換手法によって変換された文字情報若しくは音声情報を出力することができる。

判定部１１０が音情報検出部１０３で検出した音情報にノイズが含まれていると判定した場合、変換部１０６は、生体情報を文字情報にも音声情報にも変換しないようにすることができる。

判定部１１０が音情報検出部１０３で検出した音情報の音量が閾値より大きいと判定した場合、変換部１０６は、音情報を文字情報に変換し、音情報検出部１０３で検出した音情報の音量が閾値以下であると判定した場合、変換部１０６は、生体情報を文字情報に変換することもできる。

判定部１１０が音情報検出部１０３で検出した音情報がユーザの発話期間であると判定した場合、変換部１０６は、音情報を文字情報に変換する。判定部１１０が音情報検出部１０３で検出した前記音情報がユーザの非発話期間と判定した場合、変換部１０６は、生体情報を文字情報若しくは音声情報に変換する。

音情報検出部１０３で検出した音情報の特性に応じて、変換部１０６は、生体情報を文字情報若しくは音声情報に変換する第一の変換手法と、音情報を文字情報に変換する第二の変換手法のいずれか一方を設定し、生体情報又は音情報を文字情報若しくは音声情報に変換する。本発明の情報処理装置１０１は、生体情報検出部１０２で検出された生体情報と音情報検出部１０３で検出された音情報を受信する受信部１０５と、音情報の特性が所定の条件を満たしているか否かを判定する判定部１１０と、音情報検出部１０３で検出した音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、生体情報検出部１０２で検出した生体情報から変換された文字情報若しくは音声情報を出力し、音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、音情報検出部１０３で検出した音情報から変換された文字情報を出力する変換部１０６とを備える。変換部１０６は、音情報検出部１０３で検出した音情報の特性が所定の条件を満たす場合、第三の変換手法を用いて、音情報及び生体情報を含む情報から変換された文字情報若しくは音声情報を出力することもできる。

なお、情報処理装置１０１は、生体情報検出部１０２で検出した生体情報を所定の評価基準に基づいて評価し、所定の評価基準に満たない生体情報に対応する文字情報若しくは音声情報を削除する処理部を備えることもできる。

よって、本発明によれば、高精度に変換された文字情報若しくは音声情報を出力することができる。

本発明の情報変換システムの動作を示すフローチャートを図２に示す。

ユーザは、生体情報検出部１０２によって生体情報が検出できる位置に検出デバイス１００を装着する。ユーザは、検出デバイス１００を頭部、頸部、頭部や頸部の周辺などに装着する。生体情報検出部１０２は、筋電位信号、加速度情報、超音波情報、触覚情報、光情報、圧力情報などの少なくとも一つを含む生体情報を検出する。生体情報検出部１０２が生体情報を検出する際、時間情報（時刻情報）を取得する。生体情報には、時間情報に関する付帯情報が付与される。（Ｓ１００）

ユーザは、音情報検出部１０３によって音情報が検出できる位置に検出デバイス１００を設置する。ユーザは、検出デバイス１００をユーザの首～頭の任意の箇所で、ユーザの周囲の環境音を検出できる位置に設置する。生体情報検出部１０２が生体情報を検出するタイミングと同じタイミングで音情報検出部１０３は音情報を検出する。音情報検出部１０３が音情報を検出する際、時間情報（時刻情報）を取得する。音情報には、時間情報に関する付帯情報を付与される。（Ｓ１０１）

送信部１０４は、音情報と生体情報を情報処理装置１０１へ送信する。生体情報と音情報には、それぞれ、時間情報（時刻情報）に関する付帯情報が付与されている。生体情報と音情報は、付帯情報によって、紐づけられる。生体情報と音情報は、時間情報（時刻情報）に関する付帯情報によって、紐づけられているため、送信部１０４は、同じ時間帯（時刻）で検出された生体情報と音情報を情報処理装置１０１へ送信することができる。（Ｓ１０２）

検出デバイス１００で検出された音情報と生体情報は、情報処理装置１０１の受信部１０５で受信される。受信部１０５は、音情報と生体情報を変換部１０６へ伝達する。受信部１０５は、音情報を判定部１１０へ伝達する。判定部１１０は、受信部１０５が受信した音情報の特性を解析し、音情報の特性が所定の条件を満たしているか否かを判定する。例えば、判定部１１０は、音情報にユーザの発声が含まれているか否かを判定する。（Ｓ１０３）

音情報の特性が所定の条件を満たしていない場合、Ｓ１０４に移行し、音情報の特性が所定の条件を満たしている場合、Ｓ１０５に移行する。

判定部１１０による判定の結果、音情報の特性が所定の条件を満たしていない場合、変換部１０６は、第一の変換手法によって生体情報を文字情報若しくは音声情報に変換する。また、変換部１０６は、生体情報を音声情報に変換してもよく、文字情報に変換した後、音声合成を行って音声情報に変換してもよい。変換部１０６は、生体情報から変換された文字情報を出力する。（Ｓ１０４）

なお、生体情報検出部１０２によって生体情報を検出する際、その時に音情報検出部１０３で検出された音情報に発話以外のユーザの発する音情報（例えば唾下音、咳）が含まれると判定部１１０が判定した場合がある。その場合、変換部１０６が生体情報を文字情報にも音声情報にも変換しないように設定することもできる。

判定部１１０による判定の結果、音情報の特性が所定の条件を満たしている場合、変換部１０６は、第二の変換手法によって音情報を文字情報に変換する。（Ｓ１０５）

音情報検出部１０３で検出された音情報にノイズが含まれている場合、変換部１０６は、第二の変換アルゴリズムによって音情報を文字情報に変換しないように設定することもできる。また、音情報検出部１０３で検出された音情報のＳ／Ｎが悪い場合、変換部１０６は、音情報及び生体情報を含む情報を文字情報若しくは音声情報に変換する第三の変換アルゴリズムを用いて、音情報と生体情報を含む情報を文字情報若しくは音声情報に変換することもできる。なお、音情報検出部１０３で検出された音情報のＳ／Ｎが悪い場合、変換部１０６は、生体情報のみを用いて変換しても構わない。

表示部１０７は、変換部１０６で変換された文字情報を表示するし、音情報出力部は変換部１０６で変換された文字情報をさらに変換した音声情報を出力する。（Ｓ１０６）

また、変換部１０６で変換された文字情報は、情報処理装置１０１の記憶部に記憶することができる。ネットワークを介して文字情報が転送され、外部端末で表示することも可能である。

また、文字情報若しくは音声情報から音声情報に変換することにより外部端末で再生、記録することが可能であり、再生される音声についてはイヤホンを介してユーザが聞くことも可能である。これにより、ユーザは正しく変換されているかを確認することができる。さらに、ネットワークを介して音声情報が転送され、他の外部端末で再生、記録することも可能である。また、変換された文字情報を基に外部端末の制御も可能である。これら一連のフローを繰り返し行うことによって、生体情報を用いた連続的なコミュニケーションが可能となる。

次に、本発明の情報変換システムを用いた文字変換機能の実施例１を説明する。本発明の情報変換システムの概略を図３に示す。検出デバイス１００の模式図を図４に示す。

ここでは、情報変換システムの情報処理装置がスマートフォン３００である形態を示す。検出デバイス１００において、生体情報検出部４０１、４０２、４０３と音情報検出部４０４、４０５が複数である。なお、検出デバイスは、バッテリー（図示しない。）より電源供給される。また、スマートフォン３００において、表示部３０３と音情報出力部３０４の位置以外、図１に示す情報処理装置１０１の構成と同様であるので、ここでは説明を省略する。

図４（ａ）に示すように、ユーザは検出デバイス１００を頸部に装着する。検出デバイス１００は、ユーザの頸部に巻き付けて装着するチョーカー型（環状形状）であり、伸縮性がある部材（生地）で構成されている。検出デバイス１００には、ユーザの頸部に装着するために、伸縮性がある部材の両端を連結する連結部が備えられていてもよい。図４（ｂ）に示すように、検出デバイス１００は、生体情報検出部４０１、４０２、４０３と、音情報検出部４０４、４０５と、送信部４０６とによって構成されている。送信部４０６には、生体情報検出部４０１、４０２、４０３と音情報検出部４０４、４０５が接続されている。送信部４０６は、生体情報検出部４０１、４０２、４０３で検出された生体情報と、音情報検出部４０４、４０５で検出された音情報を外部に送信することができる。

生体情報検出部４０１、４０２、４０３は、例えば、６軸の加速度センサである。６軸の加速度センサは、例えば、３軸の並進加速度と、３軸の角加速度を計測することができるセンサである。生体情報検出部４０１、４０２、４０３は、チョーカー型である検出デバイス１００の内側（内周面）に設置されている。そのため、生体情報検出部４０１、４０２、４０３を、ユーザの皮膚に接触させることができ、生体情報検出部４０１、４０２、４０３で生体情報（各種加速度）を検出することができる。これにより、生体情報検出部４０１、４０２、４０３は、ユーザの部位の動きに関する情報を検出することができる。

音情報検出部４０４は、例えば、ユーザの内部から発する音を検出する骨伝導マイクである。骨伝導マイクは、ユーザの発声による振動がユーザの頸部に伝達され、頸部の骨の振動を検出し、音情報を検出するマイクである。音情報検出部４０４は、例えば、頸部の皮膚の振動を検出し、音情報を検出する皮膚伝導マイクなど様々な伝導方式に応じたマイクであってもよい。音情報検出部４０４は、チョーカー型である検出デバイス１００の内側（内周面）に設置されている。そのため、音情報検出部４０４を、ユーザの皮膚に接触させることができ、頸部の皮膚の振動を検出することができる。よって、音情報検出部４０４は、ユーザの内部から発する音を検出することができる。

音情報検出部４０５は、外部の環境音を取り込むためのマイクである。音情報検出部４０５は、チョーカー型である検出デバイス１００の外側（外周面）に設置されている。音情報検出部４０５は、外部の環境音を検出することができる。マーカ４１０は、ユーザに対して位置合わせ行うための印である。ユーザは、マーカ４１０を指標にして、生体情報検出部４０２と頸部の中心（喉など）を合わせることができ、検出デバイス１００を適切に頸部に装着することができる。

生体情報検出部４０１、４０２、４０３で検出された生体情報と、音情報検出部４０４、４０５で検出された音情報は、送信部４０６によって、例えばＢｌｕｅｔｏｏｔｈ接続のスマートフォン３００に伝達される。スマートフォン３００のアプリケーション内の受信部３０１がデータを受信する。判定部３０５は、受信部３０１が受信した音情報を解析し、音情報の特性が所定の条件を満たしているか否かを判定する。変換部３０２は、判定部３０５の判定結果に応じて、受信部３０１が受信した生体情報又は音情報を文字情報若しくは音声情報に変換する。変換部３０２で変換された文字情報は、スマートフォンの表示部３０３であるディスプレイに表示される。音情報出力部３０４は、変換部３０２で変換された音声情報を再生する。

本発明の情報変換システムの動作を示すフローチャートを図５に示す。

ユーザは、検出デバイス１００を頸部に装着する。ユーザは、生体情報検出部４０１、４０２、４０３によって生体情報が検出できる位置及び音情報検出部４０４、４０５によって音情報が検出できる位置に検出デバイス１００を装着する。生体情報検出部４０１、４０２、４０３は、ユーザの生体情報を取得する。（Ｓ５００）

生体情報検出部４０１、４０２、４０３のサンプリングレートは１ｋＨｚに設定される。

生体情報検出部４０１、４０２、４０３が生体情報を検出するタイミングと同じタイミングで音情報検出部４０４、４０５は音情報を検出する。（Ｓ５０１）

音情報検出部４０４、４０５のサンプリングレートは１６ｋＨｚに設定される。

送信部４０６は、音情報と生体情報をスマートフォン３００へ送信する。（Ｓ５０２）

音情報と生体情報は、受信部３０５を介して変換部３０６と判定部３０５へ伝達される。判定部３０５は、音情報検出部４０４が検出した音情報に対して、ユーザが発声した音声情報があるか無いかをニューラルネットワークを用いたモデルを用いて判定する。（Ｓ５０３）

音情報検出部４０４が検出した音情報に、ユーザが発声した音声情報がある場合、Ｓ５０４に移行し、音情報検出部４０４が検出した音情報に、ユーザが発声した音声情報がない場合、Ｓ５０５に移行する。

音情報検出部４０４が検出した音情報に、音声情報がある場合、音声情報がない場合それぞれに対して、変換部３０２は、変換アルゴリズムを切り替えて音情報又は生体情報を文字情報に変換する。変換部３０２は、ユーザが発声しているときの音情報又は生体情報を文字情報若しくは音声情報に変換し、文字情報を出力する。（Ｓ５０４）

判定部３０５は、音情報検出部４０４が検出した音情報に音声情報がない場合、音情報検出部４０４はユーザが意図しない動きに関する音（咳、唾の飲み込みなどに関わる）を取得して、音情報にユーザが発する発話以外の音があるか否かを判定する。（Ｓ５０５）

音情報にユーザが発する発話以外の音がある場合、Ｓ５０６に移行し、音情報検出部４０４が検出した音情報にユーザが発する発話以外の音がない場合、Ｓ５０７に移行する。

音情報検出部４０４が検出した音情報にユーザが発する発話以外の音がある場合、変換部３０２は、その情報を用いた変換処理は実施せずに終了する。（Ｓ５０６）

音情報検出部４０４が検出した音情報にユーザが発する発話以外の音がない場合、変換部３０２は、ユーザが発声していないときの生体情報を文字情報若しくは音声情報に変換し、文字情報を出力する。（Ｓ５０７）

音情報にユーザが発する発話以外の音がない場合、変換部３０２は、上述した第一の変換手法によって生体情報を文字情報若しくは音声情報に変換する。具体的には、６軸×３加速度センサの計１８軸のセンサ情報を第一の変換アルゴリズムの入力データとして用いることによって文字情報に変換される。そして、表示部３０３は、変換した文字情報を表示する。（Ｓ５０８）

また、音情報検出部４０４が検出した音情報にユーザが発する発話以外の音がある場合でも、音声情報のＳ／Ｎが悪い場合は、音声情報に加えて生体情報も用いて変換してもよい。また、生体情報のみから変換することに設定することも可能である。

次に、本発明の情報変換システムを用いた文字変換機能の実施例２を説明する。本発明の情報変換システムの概略を図６に示す。検出デバイス１００の模式図を図７に示す。

図６に示すように、検出デバイス１００は、ユーザに対して生体情報検出部７０１～７０５が装着されたことを検知する装着検知部７０８を有している。情報処理装置として用いるスマートフォン３００の構成は、図３に示すスマートフォン３００の構成と同様であるので、ここでは説明を省略する。

装着検知部７０８において、ユーザに対して生体情報検出部７０１～７０５が装着されたと検知した場合、変換部３０２は、生体情報検出部７０１～７０５で検出した生体情報を文字情報に変換することが可能になる。装着検知部７０８において、ユーザに対して生体情報検出部７０１～７０５が装着されたと検知しなかった場合、生体情報検出部７０１～７０５で検出した生体情報を文字情報若しくは音声情報に変換することができない。

検出デバイス１００は、生体情報検出部７０１～７０５と、音情報検出部７０６、７０７と、生体情報検出部で検出された生体情報と音情報検出部で検出された音情報を送信する送信部７０９とを有している。スマートフォン３００（情報処理装置）は、送信部７０９から送信された生体情報と音声情報を受信する受信部３０１と、判定部３０５と、変換部３０２とを有している。

装着検知部７０８において、ユーザに対して生体情報検出部７０１～７０５が装着されたと検知した場合、検出デバイス１００と情報処理装置３００とが通信可能な状態となる。

図７（ａ）に示すように、ユーザは検出デバイス１００を顎部に装着する。図７（ｂ）に示すように、検出デバイス１００は、生体情報検出部７０１～７０５、音情報検出部７０６、７０７、装着検知部７０８および送信部７０９によって構成されている。

検出デバイス１００は、ユーザの顎に装着する顎マスク型であり、伸縮性がある部材（生地）で構成されている。検出デバイス１００は、２つの耳掛け部７１０と、頸部及び顎接触部７１１とから形成されている。頸部及び顎接触部７１１は、伸縮性がある部材（生地）で構成されている。

頸部及び顎接触部７１１には、生体情報検出部７０１～７０５、音情報検出部７０６、７０７、装着検知部７０８が配置されている。ユーザは、耳掛け部７１０を両耳に掛け、検出デバイス１００をユーザに装着すると、生体情報検出部７０１～７０５、音情報検出部７０６、７０７、装着検知部７０８がユーザの頸部及び顎にそれぞれ設置されるようになっている。

送信部７０９には、生体情報検出部７０１～７０５と音情報検出部７０６、７０７、装着検知部７０８が接続されている。送信部７０９は、生体情報検出部７０１～７０５で検出された生体情報と、音情報検出部７０６、７０７で検出された音情報と、装着検知部７０８で検知された装着検知結果を外部に送信することができる。

生体情報検出部７０１～７０５は、例えば、筋電位センサであり、頸部及び下顎部に配置される。生体情報検出部７０１～７０５は、検出デバイス１００の裏面（接触面）に設置されている。そのため、生体情報検出部７０１～７０５を、ユーザの皮膚に接触させることができ、生体情報検出部７０１～７０５で生体情報（筋電位情報）を検出することができる。

音情報検出部７０６は、例えば、ユーザの内部から発する音を検出するための骨伝導マイクである。音情報検出部７０６は、皮膚伝導マイクであってもよい。音情報検出部７０６は、検出デバイス１００の裏面（接触面）に設置されている。そのため、音情報検出部７０６を、ユーザの皮膚に接触させ、ユーザの内部から発する音を検出することができる。音情報検出部７０７は、外部の環境音を取り込むためのマイクである。音情報検出部７０７は、検出デバイス１００の表面（非接触面）に設置されている。音情報検出部７０７は、外部の環境音を検出することができる。

装着検知部７０８は、筋電位センサの出力をモニタリングし、ユーザが検出デバイス１００を頸部及び下顎部に装着したことを検知する。装着検知部７０８は、筋電位センサの出力波形の特性に基づいて、検出デバイス１００を装着したことを検知する。筋電位センサの出力波形の特性は、例えば、筋電位の最大値、筋電位の波形パターンなどであり、筋電位の最大値が所定値を超えていれば、検出デバイス１００を装着したことを検知する。また、筋電位の波形パターンが所定の波形パターンに類似するパターンであれば、検出デバイス１００を装着したことを検知する。

図６に示すように、生体情報検出部７０１～７０５で検出された生体情報と、音情報検出部７０６、７０７で検出された音情報、装着検知部７０８で検知された装着検知結果は、送信部７０９によって、例えばＷｉｆｉ接続のスマートフォン３００に伝達される。スマートフォン３００のアプリケーション内の受信部３０１がデータを受信する。判定部３０５は、受信部３０１が受信した音情報を解析し、音情報の特性が所定の条件を満たしているか否かを判定する。判定部３０５は、装着検知部７０８で検知された装着検知結果を用いて、判定してもよい。

変換部３０２は、判定部３０５の判定結果に応じて、受信部３０１が受信した生体情報又は音情報を文字情報に変換する。変換部３０２によって変換された文字情報は、スマートフォンの表示部３０３であるディスプレイに表示される。音情報出力部３０４は、変換部３０２で変換された音声情報を再生する。

本発明の情報変換システムの動作を示すフローチャートを図８に示す。

ユーザは、生体情報検出部７０１～７０５によって生体情報が検出できる位置及び音情報検出部７０６、７０７によって音情報が検出できる位置に検出デバイス１００を装着する。検出デバイス１００の電源が投入された後に生体情報検出部７０１～７０５は生体情報を検出する。（Ｓ８０１）

生体情報検出部７０１～７０５のサンプリングレートは２ｋＨｚである。

装着検知部７０８において生体情報の特性（筋電位センサの出力波形の特性）から、検出デバイス１００が装着されたことを検知する。（Ｓ８０２）

装着検知部７０８において検出デバイス１００が装着されたことを検知した場合、検出デバイス１００と情報処理装置３００とが通信可能な状態となる。検出デバイス１００の送信部７０９はスマートフォン３００に接続され、各種情報を送信することができる。（Ｓ８０３）

生体情報検出部７０１～７０５が生体情報を取得し、音情報検出部７０６、７０７は音情報を取得する（Ｓ８０４）。音情報検出部７０６、７０７のサンプリングレートは１６ｋＨｚに設定した。音情報と生体情報を送信部７０９がスマートフォン３００へ送信する。（Ｓ８０５）

音情報と生体情報は、受信部３０５を介して変換部３０６と判定部３０５へ伝達される。判定部３０５は、音情報検出部７０６が検出した音情報に対して、ユーザが発声した音声情報があるか無いかをニューラルネットワークを用いたモデルを用いて判定する。（Ｓ８０６）

音情報検出部７０６が検出した音情報に、ユーザが発声した音声情報がある場合、Ｓ８０７に移行し、音情報検出部７０６が検出した音情報に、ユーザが発声した音声情報がない場合、Ｓ８０８に移行する。

音情報検出部７０６が検出した音情報に、音声情報がある場合、音声情報がない場合それぞれに対して、変換部３０２は、変換アルゴリズムを切り替えて音情報又は生体情報を文字情報に変換する。変換部３０２は、ユーザが発声しているときの音情報又は生体情報を文字情報に変換し、文字情報を出力する。（Ｓ８０７）

判定部３０５は、音情報検出部７０６が検出した音情報に音声情報がない場合、音情報検出部７０６はユーザが意図しない動きに関する音（咳、唾の飲み込みなどに関わる）を取得して、音情報にユーザが発する発話以外の音があるか否かを判定する。（Ｓ８０８）

音情報検出部７０６が検出した音情報にユーザが発する発話以外の音がある場合、Ｓ８０９に移行し、音情報検出部７０６が検出した音情報にユーザが発する発話以外の音がない場合、Ｓ８１０に移行する。

音情報検出部７０６が検出した音情報にユーザが発する発話以外の音がある場合、変換部３０２は、その情報を用いた変換作業は変換せずに終了する。（Ｓ８０９）

音情報検出部７０６が検出した音情報にユーザが発する発話以外の音がない場合、変換部３０２は、ユーザが発声していないときの生体情報を文字情報若しくは音声情報に変換し、文字情報若しくは音声情報を出力する。（Ｓ８１０）

音情報検出部７０６が検出した音情報にユーザが発する発話以外の音がない場合、変換部３０２は、上述した第一の変換手法によって生体情報を文字情報若しくは音声情報に変換する。具体的には、筋電位センサの筋電位情報を第一の変換アルゴリズムの入力データとして用いることによって文字情報若しくは音声情報に変換される。そして、表示部３０３は、変換した文字情報を表示する。（Ｓ８１１）

また、音情報検出部７０６が検出した音情報にユーザが発する音声情報がある場合でも、音声情報のＳ／Ｎが悪い場合は、音声情報に加えて生体情報も用いて変換してもよい。また、生体情報のみから変換することに設定することも可能である。

次に、本発明の情報変換システムを用いた文字変換機能の実施例３を説明する。検出デバイス１００の模式図を図９に示す。図９に示した検出デバイス１００を図６で示した情報変換システムに適用することができる。

検出デバイス１００は、メガネの一部に各検出部を有したメガネ型である。装着検知部９０１と、送信部９０２と、生体情報検出部９０３、９０４、９０５と、音情報検出部９０６、９０７とによって構成されている。生体情報検出部９０３、９０４は筋電位センサである。生体情報検出部９０５は、６軸の加速度センサである。生体情報検出部９０３、９０４の筋電位センサは、ユーザのこめかみ部に設置される。生体情報検出部９０５の加速度センサは、ユーザの眉間部に設置される。音情報検出部９０６は、ユーザの内部から発する音を検出するための骨伝導マイクである。音情報検出部９０７は、外部の環境音を取り込むためのマイクである。

送信部９０２には、装着検知部９０１と生体情報検出部９０３、９０４、９０５と音情報検出部９０６、９０７が接続されている。送信部９０２は、装着検知部９０１で検知された装着検知結果と、生体情報検出部９０３、９０４、９０５で検出された生体情報と、音情報検出部９０６、９０７で検出された音情報を外部に送信することができる。

装着検知部９０１は、筋電位センサ又は加速度センサの出力をモニタリングし、ユーザが検出デバイス１００をユーザに装着したことを検知する。装着検知部９０１は、筋電位センサ又は加速度センサの出力波形の特性に基づいて、検出デバイス１００をユーザに装着したことを検知する。

生体情報検出部９０３、９０４、９０５で検出された生体情報と、音情報検出部９０６、９０７で検出された音情報、装着検知部９０１で検知された装着検知結果は、送信部９０２によって、例えば、Ｂｌｕｅｔｏｏｔｈ接続のスマートフォン３００に転送される。スマートフォン３００のアプリケーション内の受信部３０１がデータを受信する。判定部３０５は、受信部３０１が受信した音情報を解析し、音情報の特性が所定の条件を満たしているか否かを判定する。判定部３０５は、装着検知部９０１で検知された装着検知結果を用いて、判定してもよい。

変換部３０２は、判定部３０５の判定結果に応じて、受信部３０１が受信した生体情報又は音情報を文字情報に変換する。変換部３０２は、生体情報検出部９０３、９０４の筋電位センサで検出された筋電位情報を文字情報若しくは音声情報に変換することができる。また、変換部３０２は、生体情報検出部９０５の加速度センサで検出された加速度情報を文字情報若しくは音声情報に変換することができる。さらに、変換部３０２は、生体情報検出部９０３、９０４の筋電位センサで検出された筋電位情報と、生体情報検出部９０５の加速度センサで検出された加速度情報とを含む情報から文字情報若しくは音声情報に変換することもできる。

変換部３０２によって変換された文字情報は、スマートフォンの表示部３０３であるディスプレイに表示される。音情報出力部３０４は、変換部３０２で変換された音声情報を再生する。

次に、本発明の情報変換システムを用いた文字変換機能の実施例４を説明する。本発明の情報変換システムの概略を図１０に示す。検出デバイス１００の模式図を図１１に示す。

検出デバイス１００は、ユーザの指に装着する指輪型（リング形状）であり、ユーザの指に嵌めて装着することができる。検出デバイス１００は、装着検知部１００１と、送信部１００２と、生体情報検出部１００３と、音情報検出部１００４とによって構成されている。生体情報検出部１００３は、例えば、６軸の触覚センサによって構成されている。６軸の触覚センサは、３軸方向の力と３軸方向のモーメントとを検知することができるセンサである。音情報検出部１００４は、ユーザが発する音などを検出するマイクである。

生体情報検出部１００３は、指輪型である検出デバイス１００の外側（外周面）に設置されている。そのため、ユーザは、検出デバイス１００をユーザの皮膚に押し当て、生体情報検出部１００３をユーザの皮膚に接触させることにより、生体情報検出部１００３で生体情報（触覚情報）を検出することができる。

音情報検出部１００４は、指輪型である検出デバイス１００の外側（外周面）に設置されている。そのため、音情報検出部１００４は、ユーザが発する音などを検出することができる。

装着検知部１００１は、生体情報検出部１００３の出力をモニタリングし、ユーザがデバイスを下顎部に接触させたこと検知する。装着検知部１００１は触覚センサの出力波形の特性に基づいて、検出デバイス１００を装着したことを検知する。

送信部１００２には、生体情報検出部１００３と音情報検出部１００４、装着検知部１００１が信号線１０１０を介して接続されている。送信部１００２は、生体情報検出部１００３で検出された生体情報と、音情報検出部１００４で検出された音情報と、装着検知部１００１で検知された装着検知結果を外部に送信することができる。

生体情報検出部１００３で検出された生体情報と、音情報検出部１００４で検出された音情報は、送信部１００２によって無線でスマートフォン１１０５に転送される。スマートフォン１１０５のアプリケーション内の受信部１１０６は、生体情報検出部１００３で検出された生体情報と、音情報検出部１００４で検出された音情報を受信する。データ転送部１１０７は、クラウド１１１１上に生体情報と音情報を転送し、クラウド１１１１上の変換部１１０８が生体情報から音声情報へ変換を行う。変換手法は、上記実施例で説明したため、説明は省略する。

変換部１１０８で変換された音声情報は、データ転送部１１０７に転送される。変換部１１０８で変換された音声情報は他のスマートフォン１１１０に転送され再生される。ユーザは、同時に変換された音声はイヤホン１００５などの音情報出力部１１０９を介して再生され変換結果を確認する。

本発明の情報変換システムの動作を示すフローチャートを図１２に示す。

ユーザは、生体情報検出部１００３によって生体情報が検出できる位置及び音情報検出部１００４によって音情報が検出できる位置に検出デバイス１００を装着する。検出デバイス１００の電源が投入された後に、生体情報検出部１００３は生体情報を検出する。（Ｓ１２０１）

触覚センサのサンプリングレートは１００Ｈｚである。

装着検知部１００１において生体情報の特性（触覚センサの出力波形の特性）から、検出デバイス１００が装着されたことを検知する。（Ｓ１２０２）

装着検知部１００１において検出デバイス１００が装着されたことを検知した場合、検出デバイス１００とスマートフォン１１１０とが通信可能な状態となる。具体的には、検出デバイス１００の送信部１００２は、スマートフォン１１１０と接続を行うことができる。（Ｓ１２０３）

生体情報検出部１００３が生体情報を検出し、音情報検出部１００４は音情報を検出する。（Ｓ１２０４）。

音情報検出部１００４のサンプリングレートは１６ｋＨｚに設定した。音情報と生体情報を送信部１００２がスマートフォン１１０５へ送信する。（Ｓ１２０５）

生体情報検出部１００３で検出された生体情報と、音情報検出部１００４で検出された音情報は、受信部１１０６からデータ転送部１１０７を介してクラウド１１１１上の変換部１１０８へ転送される。（Ｓ１２０６）

変換部１１０８は、生体情報を音声情報に変換する。変換部１１０８は音情報にユーザが意図しない動きに関する音（咳、唾の飲み込みなどに関わる）を判定する。（Ｓ１２０７）

音情報検出部１００４が検出した音情報にユーザが意図しない動きに関する音がある場合、Ｓ１２０８に移行し、音情報検出部１００４が検出した音情報にユーザが意図しない動きに関する音がない場合、Ｓ１２０９に移行する。

音情報検出部１００４が検出した音情報にユーザが意図しない動きに関する音があった場合、生体情報を変換せずに終了する（Ｓ１２０８）。

音情報検出部１００４が検出した音情報にユーザが意図しない動きに関する音がない場合、変換部１１０８は、６軸の触覚センサで取得した情報を入力情報として、変換アルゴリズムによって生体情報を音声情報に変換する。変換部１１０８で変換された音声情報はスマートフォン１１０５に転送される。（Ｓ１２０９）

変換アルゴリズムはニューラルネットワークによって構成されたアーキテクチャによる学習済みモデルを用いた。スマートフォン１１０５に転送された音声情報はデータ転送部１１０７を介してユーザのイヤホン１００５で再生される。（Ｓ１２１０）

同時に、変換した音声情報は通話相手（他のスマートフォン１１１０）へ転送される。（Ｓ１２１１）

次に、本発明の情報変換システムを用いたＷＥＢ会議の実施例５を説明する。本発明の情報変換システムの概略を図１３に示す。検出デバイス１００の模式図を図１４に示す。

検出デバイス１００は、マスクの一部に各検出部を有したマスク型である。検出デバイス１００は、送信部１３０１と、生体情報検出部１３０２～１３０５と、音情報検出部１３０６とによって構成されている。生体情報検出部１３０２～１３０５は、例えば、６軸の加速度センサである。音情報検出部１３０６は、ユーザが発する音などを検出するマイクである。

送信部１３０１には、生体情報検出部１３０２～１３０５と音情報検出部１３０６が接続されている。送信部１３０１は、生体情報検出部１３０２～１３０５で検出された生体情報と、音情報検出部１３０６で検出された音情報とを外部に送信することができる。

検出デバイス１００の電源を入れることにより、検出デバイス１００は情報処理装置１０１と接続される。その後、生体情報検出部１３０２～１３０５で検出された生体情報と、音情報検出部１３０６で検出された音情報は、送信部１３０１によって無線で情報処理装置１０１に転送される。

情報処理装置１０１のアプリケーション内の受信部１４０６が生体情報検出部１３０２～１３０５で検出された生体情報と、音情報検出部１３０６で検出された音情報を受信する。変換部１４０７は、生体情報から音声情報へ変換を行い、データ転送部１４０８を介して音声情報が通話相手（Ｗｅｂ会議相手）の情報処理装置１４１０へ転送される。同時に変換された音声情報はイヤホン１３０７などの音情報出力部１４０９を介して再生される。

本発明の情報変換システムの動作を示すフローチャートを図１５に示す。

ユーザは、生体情報検出部１３０２～１３０５によって生体情報が検出できる位置及び音情報検出部１３０６によって音情報が検出できる位置に検出デバイス１００を装着する。検出デバイス１００の電源が投入された後に生体情報検出部１３０２～１３０５は生体情報を検出する。（Ｓ１５００）

加速度センサのサンプリングレートは１ｋＨｚである。

音情報検出部１３０６は音情報を検出する。（Ｓ１５０４）音情報検出部１３０６は、マイクであり、音情報検出部１３０６のサンプリングレートは１６ｋＨｚである。生体情報検出部１３０２～１３０５で検出された生体情報と、音情報検出部１３０６で検出された音情報を送信部１３０１が情報処理装置１０１へ送信する。（Ｓ１５０２）

生体情報検出部１３０２～１３０５で検出された生体情報と、音情報検出部１３０６で検出された音情報は、受信部１４０６が受け取り変換部１４０７へ送られる。変換部１４０７若しくは判定部（図示しない。）は、音情報検出部１３０６で検出された音情報に対してユーザが発声した音声情報があるか否かについて、ニューラルネットワークを用いたモデルで判定する。（Ｓ１５０３）

音情報検出部１３０６で検出された音情報に、ユーザが発声した音声情報がある場合、Ｓ１５０４に移行し、音情報検出部１３０６で検出された音情報に、ユーザが発声した音声情報がない場合、Ｓ１５０５に移行する。

音情報検出部１３０６で検出された音情報にユーザが発声した音声情報がある場合、音声情報をＷｅｂ会議の相手の情報処理装置１４１０に転送する。（Ｓ１５０４）

音情報検出部１３０６で検出された音情報にユーザが発声した音声情報がない場合、音情報にユーザが意図しない動きに関する音（咳、唾の飲み込みなどに関わる）があるか否かを判別する。（Ｓ１５０５）

音情報検出部１３０６で検出された音情報にユーザが意図しない動きに関する音がある場合、Ｓ１５０６に移行し、音情報にユーザが意図しない動きに関する音がない場合、Ｓ１５０７に移行する。

音情報検出部１３０６で検出された音情報にユーザが意図しない動きに関する音があった場合、生体情報を用いた変換処理を行わずに終了する。（Ｓ１５０６）

音情報検出部１３０６で検出された音情報にユーザが意図しない動きに関する音がない場合、変換部１４０７は生体情報を音声情報に変換する。（Ｓ１５０７）

音声情報は、データ転送部１４０８を介してユーザのイヤホン１３０７に転送され、再生される。（Ｓ１５０８）

同時に、変換した音声情報はＷｅｂ会議の相手の情報処理装置１４１０へ転送される。（Ｓ１５０９）

次に、本発明の情報変換システムを用いたＷｅｂ会議の実施例６を説明する。検出デバイス１００の模式図を図１６に示す。図１６に示した検出デバイス１００を図１３で示した情報変換システムに適用することができる。

検出デバイス１００は、ヘッドセットの一部に各検出部を有したヘッドセット型である。検出デバイス１００は、送信部１６０１と、生体情報検出部１６０２と、音情報検出部１６０３と、イヤホン１６０４とによって構成されている。生体情報検出部１６０２は、超音波センサである。超音波センサは、超音波送受信部から対象物に向かう方向に超音波を送信し、対象物から反射された超音波を受信することにより、超音波送受信部から対象物までの距離を測定することができるセンサである。生体情報検出部１６０２は、超音波センサを用いて、ユーザが口を動かしたときの、超音波センサから口元又は喉元までの距離の変化に関する超音波情報を検出することができる。音情報検出部１６０３は、ユーザが発する音などを検出するマイクである。

送信部１６０１には、生体情報検出部１６０２と音情報検出部１６０３が接続されている。送信部１６０１は、生体情報検出部１６０２で検出された生体情報と、音情報検出部１６０３で検出された音情報とを外部に送信することができる。

検出デバイス１００の電源を入れることにより、検出デバイス１００は情報処理装置１０１と接続される。その後、生体情報検出部１６０２で検出された生体情報と、音情報検出部１６０３で検出された音情報は、送信部１６０１によって情報処理装置１０１に転送される。

情報処理装置１０１のアプリケーション内の受信部１４０６が生体情報検出部１６０２で検出された生体情報と、音情報検出部１６０３で検出された音情報を受信する。変換部１４０７は、生体情報から音声情報へ変換を行い、データ転送部１４０８を介して音声情報が通話相手（Ｗｅｂ会議相手）の情報処理装置１４１０へ転送される。同時に変換された音声情報はイヤホン１６０４などの音情報出力部１４０９を介して再生される。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記憶媒体は、本発明に含まれる。

なお、上述した本発明の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、または、その主要な特徴から逸脱することなく、様々な形で実施することができる。

Claims

ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部と、
音情報を検出する音情報検出部と、
前記音情報の特性が所定の条件を満たしているか否かを判定する判定部と、
前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、
前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報検出部で検出した前記音情報から変換された文字情報を出力する変換部とを備えることを特徴とする情報変換システム。
前記音情報の特性が所定の条件を満たす場合、前記変換部は、第三の変換手法を用いて、前記音情報検出部で検出した前記音情報と前記生体情報検出部で検出した生体情報とを含む情報から変換された文字情報若しくは音声情報を出力することを特徴とする請求項１に記載の情報変換システム。
前記音情報検出部で検出した前記音情報の特性に応じて、前記変換部は、前記第一の変換手法から前記第二の変換手法に、若しくは前記第二の変換手法から前記第一の変換手法に切り替え、切り替えられた変換手法によって変換された文字情報若しくは音声情報を出力することを特徴とする請求項１に記載の情報変換システム。
前記音情報検出部は、少なくとも二つ以上の検出部から構成されることを特徴とする請求項１に記載の情報変換システム。
前記音情報検出部は、体内から発する音情報を検出する音情報検出部と外部音を検出する音情報検出部であることを特徴とする請求項４に記載の情報変換システム。
前記体内から発する音情報を検出する音情報検出部は、骨伝導マイク、若しくは皮膚伝導マイクであることを特徴とする請求項５に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報にノイズが含まれていると判定した場合、前記変換部は、前記生体情報を文字情報にも音声情報に変換しないことを特徴とする請求項１に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報においてユーザの発話に関する音の音量が閾値より大きいと判定した場合、前記変換部は、前記音情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報においてユーザの発話に関する音のＳ／Ｎが閾値より大きいと判定した場合、前記変換部は、前記音情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報においてユーザの発話に関する音の音量が閾値以下であると判定した場合、前記変換部は、前記生体情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報がユーザの発話期間であると判定した場合、前記変換部は、前記音情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記判定部が前記音情報検出部で検出した前記音情報がユーザの非発話期間と判定した場合、前記変換部は、前記生体情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記音情報検出部で検出した前記音情報の特性に応じて、前記変換部は、生体情報を文字情報若しくは音声情報に変換する第一の変換手法と、前記音情報を文字情報に変換する第二の変換手法のいずれか一方を設定し、前記生体情報又は前記音情報を文字情報若しくは音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記生体情報は、筋電位情報、加速度情報、超音波情報、触覚情報、光情報、圧力情報の少なくとも１つであることを特徴とする請求項１に記載の情報変換システム。
前記変換部は、前記生体情報から変換された文字情報を、さらに音声情報に変換することを特徴とする請求項１に記載の情報変換システム。
ユーザの１つ以上の箇所から生体情報を検出する生体情報検出部と、
音情報を検出する音情報検出部と、
前記音情報の特性が所定の条件を満たしているか否かを判定する判定部と、
前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、
前記音情報の特性が所定の条件を満たす場合、第三の変換手法を用いて、前記音情報及び前記生体情報を含む情報から変換された文字情報を出力する変換部とを備えることを特徴とする情報変換システム。
前記音情報検出部で検出した前記音情報の特性に応じて、前記変換部は、前記第一の変換手法から前記第三の変換手法に、若しくは前記第三の変換手法から前記第一の変換手法に切り替え、切り替えられた変換手法によって変換された文字情報若しくは音声情報を出力することを特徴とする請求項１６に記載の情報変換システム。
前記ユーザに対して前記生体情報検出部が装着されたことを検知する装着検知部を備え、
前記装着検知部において、前記ユーザに対して前記生体情報検出部が装着されたと検知した場合、前記変換部は、前記生体情報検出部で検出した生体情報を文字情報若しくは音声情報に変換することが可能になることを特徴とする請求項１に記載の情報変換システム。
前記装着検知部は、前記生体情報検出部で検出した生体情報を解析して、前記ユーザに対して前記生体情報検出部が装着されたことを検知することを特徴とする請求項１８に記載の情報変換システム。
前記生体情報検出部と、前記音情報検出部と、前記生体情報検出部で検出された生体情報と前記音情報検出部で検出された音情報を送信する送信部とを有した検出デバイスと、
前記送信部から送信された生体情報と音声情報を受信する受信部と、前記判定部と、前記変換部とを有した情報処理装置とを備えることを特徴とする請求項１に記載の情報変換システム。
前記ユーザに対して前記生体情報検出部が装着されたことを検知する装着検知部を備え、
前記装着検知部において、前記ユーザに対して前記生体情報検出部が装着されたと検知した場合、前記検出デバイスと前記情報処理装置とが通信可能な状態となることを特徴とする請求項２０に記載の情報変換システム。
前記検出デバイスは、チョーカー型、顎マスク型、メガネ型、指輪型、マスク型、ヘッドセット型のいずれか１つであることを特徴とする請求項２０に記載の情報変換システム。
前記生体情報検出部で検出した生体情報を所定の評価基準に基づいて評価し、前記所定の評価基準に満たない生体情報に対応する文字情報若しくは音声情報を削除する処理部を備えることを特徴とする請求項１に記載の情報変換システム。
前記変換部は、前記音情報検出部で検出した音情報の特性が所定の条件を満たさない場合、前記第一の変換手法を用いて、前記生体情報検出部で検出した生体情報を文字情報若しくは音声情報に変換し、前記音情報の特性が所定の条件を満たす場合、前記第二の変換手法を用いて、音情報を文字情報に変換することを特徴とする請求項１に記載の情報変換システム。
前記音情報検出部によって検出された音情報を用い前記第二の変換手法によって変換された文字情報と、前記音情報検出部によって検出された音情報と同時に取得された前記生体情報検出部によって取得された生体情報との対応関係より、前記第一の変換手法で用いる学習済みモデルを更新することを特徴とする請求項１に記載の情報変換システム。
生体情報検出部で検出された生体情報と音情報検出部で検出された音情報を受信する受信部と、
前記音情報の特性が所定の条件を満たしているか否かを判定する判定部と、
前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報から変換された文字情報を出力する変換部とを備えることを特徴とする情報処理装置。
生体情報検出部で検出された生体情報と音情報検出部で検出された音情報を受信するステップと、
前記音情報の特性が所定の条件を満たしているか否かを判定するステップと、
前記音情報検出部で検出した前記音情報の特性が所定の条件を満たさない場合、第一の変換手法を用いて、前記生体情報検出部で検出した生体情報から変換された文字情報若しくは音声情報を出力し、前記音情報の特性が所定の条件を満たす場合、第二の変換手法を用いて、前記音情報から変換された文字情報を出力するステップとを含む情報処理方法。
請求項２７に記載の情報処理方法をコンピュータに実行させるためのプログラム。