JP7399413B1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7399413B1 JP7399413B1 JP2023523217A JP2023523217A JP7399413B1 JP 7399413 B1 JP7399413 B1 JP 7399413B1 JP 2023523217 A JP2023523217 A JP 2023523217A JP 2023523217 A JP2023523217 A JP 2023523217A JP 7399413 B1 JP7399413 B1 JP 7399413B1
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- map image
- microphone device
- text
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000013519 translation Methods 0.000 claims description 21
- 238000012986 modification Methods 0.000 description 36
- 230000004048 modification Effects 0.000 description 36
- 238000000034 method Methods 0.000 description 31
- 230000005236 sound signal Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 101000870046 Sus scrofa Glutamate dehydrogenase 1, mitochondrial Proteins 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 240000004050 Pentaglottis sempervirens Species 0.000 description 4
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010370 hearing loss Effects 0.000 description 3
- 231100000888 hearing loss Toxicity 0.000 description 3
- 208000016354 hearing loss disease Diseases 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 201000009487 Amblyopia Diseases 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004270 retinal projection Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
情報処理システム1は、複数のユーザによって使用される。ユーザの少なくとも1人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい(つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい)。
同様に、コントローラ30およびマルチマイクデバイス50は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetoothチャネル)を介して接続される。
コントローラの構成について説明する。図2は、本実施形態のコントローラの構成を示すブロック図である。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Array)
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
マルチマイクデバイスの構成について説明する。図3は、本実施形態のマルチマイクデバイスの外観を示す図である。
・人物による発話音
・マルチマイクデバイス50が使用される環境の音
本実施形態の一態様について説明する。図4は、本実施形態の一態様を示す図である。
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
本実施形態の音源データベースについて説明する。図5は、本実施形態の音源データベースのデータ構造を示す図である。
ただし、後述する変形例2のようにマップ画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。
本実施形態の情報処理について説明する。
本実施形態の音声処理について説明する。図6は、本実施形態の音声処理のフローチャートである。図7は、マイクロホンによる集音を説明するための図である。図8は、基準座標系における音源の方向を説明するための図である。図9は、マップ画像の一例を示す図である。
具体的には、マルチマイクデバイス50の備える複数のマイクロホン51-1,・・・、51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図7に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
マルチマイクデバイス50の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
マルチマイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
具体的には、コントローラ30は、ステップ151において取得した音源の方向(以下、「対象方向」という)の推定結果に基づいて、マルチマイクデバイス50の周囲に存在する音源を識別する。
記憶装置31には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置31の代わりに、コントローラ30がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
具体的には、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されている場合に、当該テキストの機械翻訳を行う。これにより、コントローラ30は、翻訳言語情報によって指定された言語のテキストを得る。コントローラ30は、音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。他方、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されていない場合(すなわち、音声を翻訳せずにテキストに変換する場合)に、本ステップを省略可能である。
具体的には、コントローラ30は、ステップS131における音声認識処理の結果、またはステップS132における機械翻訳処理の結果に基づくテキストを表すテキスト画像を生成する。コントローラ30は、識別済みの音源を表す音源アイコンを、当該音源のマルチマイクデバイス50に対する方向(つまり、ステップS151の推定結果)に基づいて、マイクアイコンの周囲(一例として、マイクアイコンを中心とする円周上)に配置する。コントローラ30は、前述のテキスト画像を、対応する音声の音源を表す音源アイコンに対して所定の位置に配置する。
・アニメーションの付加
・拡大表示
・色、テクスチャ、光学的効果、または形状の変更
具体的には、コントローラ30は、ステップS133において生成したマップ画像を、ディスプレイデバイス10のディスプレイ11に表示する。
本実施形態の音源設定処理について説明する。図10は、本実施形態の音源設定処理のフローチャートである。図11は、本実施形態の音源設定処理において表示される画面例を示す図である。
具体的には、コントローラ30は、ユーザが音源情報を設定するための音源設定UIをディスプレイデバイス10のディスプレイ11に表示する。一例として、コントローラ30は、図11の画面をディスプレイデバイス10のディスプレイ11に表示する。図11の画面は、マップ画像MP40と、音源設定UI(画像)CU40とを含む。
表示オブジェクトA41は、登録済み参加者の情報(例えば、音源アイコンおよび登録された音源名称)を表示する。ここで、登録済み参加者とは、図6の音源の識別(S130)において識別された音源(話者)のうち、図10に示す音源設定処理によって音源名情報が登録された音源を意味する。
具体的には、コントローラ30は、ステップS230において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ30は、選択した音源についての音源名情報を取得する。さらに、コントローラ30は、選択した音源についてのアイコン情報、認識言語情報、翻訳言語情報、またはそれらの組み合わせを取得してもよい。コントローラ30は、音源情報を取得するために、入力フォーム(例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ)をディスプレイデバイス10のディスプレイ11に表示してもよい。コントローラ30は、会話の参加者情報を取得し、当該参加者情報に基づいて入力フォーム(メニュー、ラジオボタン、またはチェックボックス)の要素を生成してもよい。会話の参加者情報は、会話の開始前に手動で設定されてもよいし、情報処理システム1、または連携する会議システムにログインしているアカウント名から取得されてもよい。
具体的には、コントローラ30は、ステップS231において取得した音源情報を、ステップS230において選択した音源を識別する音源IDに関連付けて音源データベース(図5)に登録することで、音源情報を更新する。
以上説明したように、本実施形態のコントローラ30は、マルチマイクデバイス50に対する音源の方向を示す推定結果を取得し、当該音源から発せられ、マルチマイクデバイス50によって集音された音声の内容に関する情報を取得する。コントローラ30は、テキストを、マルチマイクデバイス50に対する当該テキストに対応する音源の方向に応じた位置に配置したマップ画像を生成し、当該マップ画像をディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像の観者は、音源(例えば話者)と当該音源から発せられる音声(例えば発言)の内容との関連付けを直感的に認識することができる。
本実施形態の変形例について説明する。
変形例1について説明する。変形例1は、マップ画像に加えて議事録を生成する例である。
変形例1の一態様について説明する。図12は、変形例1の一態様を示す図である。
変形例1のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
変形例1の音源データベースについて説明する。図13は、変形例1の発言データベースのデータ構造を示す図である。
各フィールドは、互いに関連付けられている。
変形例1の情報処理について説明する。
変形例1の音声処理について説明する。図14は、変形例1の音声処理のフローチャートである。
具体的には、コントローラ30は、発言データベース(図13)を参照し、議事録を生成する。一例として、コントローラ30は、ステップS130~ステップS132の間に発言データベースに登録した発言情報(つまり、新規の発言情報)に基づいて、前回のステップS334の実行時に生成した議事録(以下、「前回議事録」という)を更新してもよい。
具体的には、コントローラ30は、ステップS133において生成したマップ画像およびステップS334において生成した議事録を、ディスプレイデバイス10のディスプレイ11に表示する。
以上説明したように、変形例1のコントローラ30は、マルチマイクデバイス50の周囲に存在する音源(話者)による発言に関するテキスト(つまり、音声認識結果、または機械翻訳結果)に基づいて議事録を生成し、当該議事録をマップ画像と並べてディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像および議事録の観者は、マップ画像を閲覧することで話者と当該話者による発言の内容との関連付けを直感的に認識することができるとともに、議事録を閲覧することでそれまでの会話の流れを容易に振り返ることができる。また、コントローラ30は、発言に関するテキストを発言日時の時系列順に配置することで議事録を生成してもよい。これにより、議事録の観者は、それまでの会話の流れを直感的に認識することができる。また、コントローラ30は、議事録に配置されたテキストをユーザ指示に応じて編集してもよい。これにより、音声認識または機械翻訳の誤りによりユーザ(特に難聴者)が発言内容を誤解した場合であっても、発言した本人または周りのユーザが誤りを速やかに訂正できるので、円滑なコミュニケーションを促進することができる。また、会議終了後に会議中の発言内容を確認するための正確な議事録を残すことができる。
変形例2について説明する。変形例2は、本実施形態とは異なるマップ画像を生成する例である。図15は、変形例2のマップ画像の一例を示す図である。図16は、変形例2のマップ画像の別の例を示す図である。
円周CI61は、円周CI31(図4)と同様に、マイクアイコンMI61を中心とする円周に相当する。
変形例3について説明する。変形例3は、異なる場所に設置された複数のマルチマイクデバイスのそれぞれについてマップ画像を生成する例である。図17は、変形例3のマップ画像の例を示す図である。
記憶装置31は、ネットワークを介して、コントローラ30と接続されてもよい。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
・Frostビームフォーマ
・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
第1例として、コントローラ30は、投稿者アイコンまたは投稿テキストを、例えば円周CI31またはCI61の外側に表示することで、音源アイコンまたは発言に関するテキストと区別してもよい。第2例として、コントローラ30は、チャット参加者がいずれかの話者と同一人物であることを検出した場合に、当該話者による発言に関するテキストと同一のルールで当該話者による投稿テキストを表示することで、同一人物による発言内容および投稿内容を集約してもよい。第3例として、コントローラ30は、ユーザ指示に応じて、マルチマイクデバイス50に対するチャット参加者の方向を決定し、決定された方向に基づいて投稿者アイコンまたは投稿テキストを配置(例えば円周CI31上に配置)してもよい。つまり、コントローラ30は、ユーザ指示に応じて、マップ画像における投稿者アイコンまたは投稿テキストの表示位置を移動してもよい。これにより、チャット参加者が全く発言せずマルチマイクデバイス50に対するチャット参加者の方向を推定することができない場合であっても、投稿者アイコンまたは投稿テキストの表示位置を適正化(例えば、発言者の音源アイコン及びテキスト画像と同様に表示)することができる。
10 :ディスプレイデバイス
11 :ディスプレイ
30 :コントローラ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :マルチマイクデバイス
Claims (16)
- 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
チャット参加者によって投稿されたテキストを取得する手段と、
前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで議事録を生成する手段と、
前記議事録を前記マップ画像とともにディスプレイデバイスの表示部に表示させる手段と
を具備する、情報処理装置。 - 前記議事録を生成する手段は、取得された前記音声の内容に関する情報と前記チャット参加者によって投稿されたテキストとを時系列順に配置することで前記議事録を生成する、
請求項1に記載の情報処理装置。 - 前記議事録に配置されたテキストをユーザ指示に応じて編集する手段をさらに具備する、
請求項1に記載の情報処理装置。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
チャット参加者によって投稿されたテキストを取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像であって、且つ前記チャット参加者によって投稿されたテキストを配置したマップ画像を生成する手段と、
前記マップ画像を出力する手段と
を具備する、情報処理装置。 - 前記マップ画像は、前記音源を表す音源アイコンと、前記チャット参加者を表す投稿者アイコンとを含み、
前記情報処理装置は、前記マップ画像における前記投稿者アイコンの表示位置をユーザ指示に応じて移動する手段をさらに具備する、
請求項4に記載の情報処理装置。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
前記マップ画像を出力する手段と
を具備し、
前記マップ画像は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置され、
前記マップ画像は、前記音源アイコンの1つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転可能である、
情報処理装置。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
前記マップ画像を出力する手段と
を具備し、
前記少なくとも1つのマルチマイクデバイスは、異なる場所に設置された第1マルチマイクデバイスおよび第2マルチマイクデバイスを含み、
前記音源の方向を示す情報を取得する手段は、前記第1マルチマイクデバイスに対する音源の方向を示す情報と前記第2マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
前記音声の内容に関する情報を取得する手段は、前記第1マルチマイクデバイスによって集音された第1音声に関する第1テキストと、前記第2マルチマイクデバイスによって集音された第2音声に関する第2テキストとを取得し、
前記マップ画像を生成する手段は、前記第1テキストを、当該第1テキストに対応する第1音声の音源の前記第1マルチマイクデバイスに対する方向に応じた位置に配置した第1マップ画像と、前記第2テキストを、当該第2テキストに対応する第2音声の音源の前記第2マルチマイクデバイスに対する方向に応じた位置に配置した第2マップ画像とを生成し、
前記マップ画像を出力する手段は、前記第1マップ画像および前記第2マップ画像を出力する、
情報処理装置。 - 前記音源の方向を示す情報に基づいて、前記マルチマイクデバイスの周囲に存在する音源を識別する手段と、
識別された前記音源に関する音源情報をユーザ指示に応じて設定する手段とをさらに具備する、
請求項1乃至請求項7のいずれかに記載の情報処理装置。 - 前記設定する手段は、前記識別された音源の名称、当該音源の使用言語、または当該音源から発せられた音声の内容に関するテキストに適用される機械翻訳の目的言語の少なくとも1つを設定する、
請求項8に記載の情報処理装置。 - 前記マップ画像は、前記音源が音声を発している間、当該音源を表すアイコンまたは当該音声の内容に関する情報を強調して示す、
請求項1乃至請求項7のいずれかに記載の情報処理装置。 - 前記マップ画像において、同一の音源から発せられた音声に関する複数のテキストが、対応する発言日時が古い順に前記マップ画像の中心から遠ざかるように配置される、
請求項1乃至請求項7のいずれかに記載の情報処理装置。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
チャット参加者によって投稿されたテキストを取得するステップと、
前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで議事録を生成するステップと、
前記議事録を前記マップ画像とともにディスプレイデバイスの表示部に表示させるステップと
を具備する、情報処理方法。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
チャット参加者によって投稿されたテキストを取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像であって、且つ前記チャット参加者によって投稿されたテキストを配置したマップ画像を生成するステップと、
前記マップ画像を出力するステップと
を具備する、情報処理方法。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
前記マップ画像を出力するステップと
を具備し、
前記マップ画像は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置され、
前記マップ画像は、前記音源アイコンの1つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転可能である、
情報処理方法。 - 少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
前記マップ画像を出力するステップと
を具備し、
前記少なくとも1つのマルチマイクデバイスは、異なる場所に設置された第1マルチマイクデバイスおよび第2マルチマイクデバイスを含み、
前記音源の方向を示す情報を取得するステップにおいて、前記第1マルチマイクデバイスに対する音源の方向を示す情報と前記第2マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
前記音声の内容に関する情報を取得するステップにおいて、前記第1マルチマイクデバイスによって集音された第1音声に関する第1テキストと、前記第2マルチマイクデバイスによって集音された第2音声に関する第2テキストとを取得し、
前記マップ画像を生成するステップにおいて、前記第1テキストを、当該第1テキストに対応する第1音声の音源の前記第1マルチマイクデバイスに対する方向に応じた位置に配置した第1マップ画像と、前記第2テキストを、当該第2テキストに対応する第2音声の音源の前記第2マルチマイクデバイスに対する方向に応じた位置に配置した第2マップ画像とを生成し、
前記マップ画像を出力するステップにおいて、前記第1マップ画像および前記第2マップ画像を出力する、
情報処理方法。 - コンピュータに、請求項1から請求項7の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023199974A JP2024027122A (ja) | 2022-02-21 | 2023-11-27 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022024504 | 2022-02-21 | ||
JP2022024504 | 2022-02-21 | ||
PCT/JP2023/005887 WO2023157963A1 (ja) | 2022-02-21 | 2023-02-20 | 情報処理装置、情報処理方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023199974A Division JP2024027122A (ja) | 2022-02-21 | 2023-11-27 | 情報処理装置、情報処理方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2023157963A1 JPWO2023157963A1 (ja) | 2023-08-24 |
JP7399413B1 true JP7399413B1 (ja) | 2023-12-18 |
JPWO2023157963A5 JPWO2023157963A5 (ja) | 2024-01-25 |
Family
ID=87578686
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023523217A Active JP7399413B1 (ja) | 2022-02-21 | 2023-02-20 | 情報処理装置、情報処理方法、及びプログラム |
JP2023199974A Pending JP2024027122A (ja) | 2022-02-21 | 2023-11-27 | 情報処理装置、情報処理方法、及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023199974A Pending JP2024027122A (ja) | 2022-02-21 | 2023-11-27 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP7399413B1 (ja) |
WO (1) | WO2023157963A1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (ja) | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | 情報処理装置及びプログラム |
JP2012059121A (ja) | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
WO2014097748A1 (ja) | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
JP2016029466A (ja) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識テキスト化システムの制御方法および携帯端末の制御方法 |
JP2021067830A (ja) | 2019-10-24 | 2021-04-30 | 日本金銭機械株式会社 | 議事録作成システム |
JP2021136606A (ja) | 2020-02-27 | 2021-09-13 | 沖電気工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
WO2021230180A1 (ja) | 2020-05-11 | 2021-11-18 | ピクシーダストテクノロジーズ株式会社 | 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム |
-
2023
- 2023-02-20 JP JP2023523217A patent/JP7399413B1/ja active Active
- 2023-02-20 WO PCT/JP2023/005887 patent/WO2023157963A1/ja active Application Filing
- 2023-11-27 JP JP2023199974A patent/JP2024027122A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165056A (ja) | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | 情報処理装置及びプログラム |
JP2012059121A (ja) | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
WO2014097748A1 (ja) | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
JP2016029466A (ja) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識テキスト化システムの制御方法および携帯端末の制御方法 |
JP2021067830A (ja) | 2019-10-24 | 2021-04-30 | 日本金銭機械株式会社 | 議事録作成システム |
JP2021136606A (ja) | 2020-02-27 | 2021-09-13 | 沖電気工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
WO2021230180A1 (ja) | 2020-05-11 | 2021-11-18 | ピクシーダストテクノロジーズ株式会社 | 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2023157963A1 (ja) | 2023-08-24 |
JP2024027122A (ja) | 2024-02-29 |
JPWO2023157963A1 (ja) | 2023-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7100092B2 (ja) | ワードフロー注釈 | |
JP6669073B2 (ja) | 情報処理装置、制御方法、およびプログラム | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
KR102002979B1 (ko) | 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징 | |
JP6594646B2 (ja) | ロボット及びロボット制御方法並びにロボットシステム | |
US20210375052A1 (en) | Information processor, information processing method, and program | |
US10409324B2 (en) | Glass-type terminal and method of controlling the same | |
CN113262465A (zh) | 一种虚拟现实交互方法、设备及系统 | |
KR20190121758A (ko) | 정보 처리 장치, 정보 처리 방법, 및 프로그램 | |
US10031718B2 (en) | Location based audio filtering | |
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
KR20190053001A (ko) | 이동이 가능한 전자 장치 및 그 동작 방법 | |
CN109784128A (zh) | 具有文本及语音处理功能的混合现实智能眼镜 | |
JP7048784B2 (ja) | 表示制御システム、表示制御方法及びプログラム | |
JP2018142090A (ja) | キャラクタ画像生成装置、キャラクタ画像生成方法、プログラム、記録媒体及びキャラクタ画像生成システム | |
WO2021230180A1 (ja) | 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
JP7399413B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20230196943A1 (en) | Narrative text and vocal computer game user interface | |
CN116755590A (zh) | 虚拟图像的处理方法、装置、增强实现设备及存储介质 | |
JP2017199085A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2007133531A (ja) | 注目状態検出装置、及び注目状態検出方法 | |
JP7124442B2 (ja) | システム、方法、及びプログラム | |
US20210271358A1 (en) | Information processing apparatus for executing in parallel plurality of pieces of processing | |
WO2023249073A1 (ja) | 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230417 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7399413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |