JP2019022011A - 情報取得装置及び情報取得装置の制御方法 - Google Patents
情報取得装置及び情報取得装置の制御方法 Download PDFInfo
- Publication number
- JP2019022011A JP2019022011A JP2017136974A JP2017136974A JP2019022011A JP 2019022011 A JP2019022011 A JP 2019022011A JP 2017136974 A JP2017136974 A JP 2017136974A JP 2017136974 A JP2017136974 A JP 2017136974A JP 2019022011 A JP2019022011 A JP 2019022011A
- Authority
- JP
- Japan
- Prior art keywords
- sound collection
- information acquisition
- sound
- unit
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【課題】機器姿勢に応じて適切な収音特性を実現できる情報取得装置を提供する。【解決手段】情報取得装置100は、収音機能を実行できる情報取得装置100であって、情報取得装置100の操作者側の面に配置されて、前記操作者側である第1の収音方向について主に収音できるように構成された操作者側マイク121と、前記操作者側の面と対向する情報取得装置100の対象側の面に配置されて、前記対象側である第2の収音方向について主に収音できるように構成された対象側マイク122とを含み、各々の収音方向について収音できるように構成された収音部120と、情報取得装置100の機器姿勢に係る情報を取得できるように構成された姿勢センサ130と、前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部112と、判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部113とを備える。【選択図】 図1
Description
本発明は、情報取得装置及び情報取得装置の制御方法に関する。
ユーザは、ICレコーダやカメラ、観察装置、検査装置といった情報機器を用いて、音声データを取得して確認したり、必要に応じて記録したりする。このような情報機器は、音声によって操作されたりする場合もある。また、取得された音声データをテキスト化して、テキストデータを取得することには需要がある。このような中、例えば、情報機器が認識しやすい音声としたり、情報機器の操作を指示する音声と収音対象の音声との切り分けを容易としたりする等、目的に応じた収音特性の実現が要求される。ところが、例えば、収音対象が移動したり、機器姿勢が変化したりして、情報機器と収音対象との相対位置又は方向が変化すると、適切な収音特性は変化し得る。このようなことから、適切な収音特性で収音できる情報機器に係る技術には需要がある。例えば特許文献1には、動画撮影時に、設定された収音対象に対するカメラの機器姿勢の変化量に応じて、収音の指向性を制御するカメラに係る技術が開示されている。
本発明は、機器の使い方に応じて適切な収音特性を実現できる情報取得装置及び情報取得装置の制御方法を提供することを目的とする。
本発明の一態様によれば、情報取得装置は、収音機能を実行できる情報取得装置であって、前記情報取得装置の操作者側の面に配置されて、前記操作者側である第1の収音方向について主に収音できるように構成された操作者側マイクと、前記操作者側の面と対向する前記情報取得装置の対象側の面に配置されて、前記対象側である第2の収音方向について主に収音できるように構成された対象側マイクとを含み、各々の収音方向について収音できるように構成された収音部と、前記情報取得装置の機器姿勢に係る情報を取得できるように構成された姿勢センサと、前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部と、判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部とを備える。
本発明の一態様によれば、情報取得装置の制御方法は、操作者側である第1の収音方向と、前記操作者側と対向する対象側である第2の収音方向との各々の収音方向について収音できるように構成された収音部を備える情報取得装置の制御方法であって、前記情報取得装置の機器姿勢に係る情報を取得することと、前記機器姿勢に係る情報に基づいて機器姿勢を判定することと、前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定することとを含む。
本発明によれば、機器の使用状況に応じて適切な収音特性を実現できる情報取得装置及び情報取得装置の制御方法を提供できる。
[第1の実施形態]
<情報取得システムの構成>
本発明の第1の実施形態について図面を参照して説明する。本実施形態に係る情報取得システム1の構成例の概略をブロック図として図1に示す。図1に示すように、本実施形態に係る情報取得システム1は、情報取得装置100と、再生記録機器200とを含む。
<情報取得システムの構成>
本発明の第1の実施形態について図面を参照して説明する。本実施形態に係る情報取得システム1の構成例の概略をブロック図として図1に示す。図1に示すように、本実施形態に係る情報取得システム1は、情報取得装置100と、再生記録機器200とを含む。
情報取得装置100は、音又は音声を収音して音声データを生成する収音機能を有する情報機器である。また、本実施形態に係る情報取得装置100又は情報取得装置100の一部は、例えば、ユーザによって把持されて使用される。情報取得装置100は、例えば、ICレコーダやカメラ、スマートフォン、タブレットPC、観察装置、検査装置等を含む。以下、本実施形態では、情報取得装置100がICレコーダである場合を例として説明をする。
再生記録機器200は、情報取得装置100で生成された音声データを記録、再生、処理できる情報機器である。ここで、音声データは、収音された音、音声以外も含む。再生記録機器200は、例えば、スマートフォンやパーソナルコンピュータ(PC)、タブレットPC等を含む。また、再生記録機器200は、例えばユーザによって入力され音声音データに係る情報を取得できる。以下、本実施形態では、再生記録機器200がPCである場合を例として説明をする。
(情報取得装置について)
本実施形態に係る情報取得装置100の構成例の概略を模式図として図2に示す。図2では、略直方体の形状を有する筐体101を備える情報取得装置100が例として示されている。また、図2は、情報取得装置100を側面から見た場合における、情報取得装置100の内部の構成例の概略を模式的に示している。
本実施形態に係る情報取得装置100の構成例の概略を模式図として図2に示す。図2では、略直方体の形状を有する筐体101を備える情報取得装置100が例として示されている。また、図2は、情報取得装置100を側面から見た場合における、情報取得装置100の内部の構成例の概略を模式的に示している。
本実施形態では、図2に示すように、ユーザU1が右手で情報取得装置100の筐体101を把持して使用する場合を例として説明をする。このとき、情報取得装置100において、操作者側(ユーザU1の口U11側)の面が背面P1であると定義する。また、収音対象側の面であり、背面P1に対して略平行な面が正面P2であると定義する。なお、背面P1は、ユーザU1の右手親指U12側(拇指側)の面と表現することもできる。同様に、正面P2は、ユーザU1の右手人差指U13側(食指側)の面と表現することもできる。
ここで、背面P1又は正面P2に対して略平行であり、かつ、筐体101の長手方向である方向をY方向と定義し、背面P1又は正面P2に対して略直交する方向(背面P1又は正面P2の法線方向)をZ方向と定義し、Y方向とZ方向とに対して互いに直交する方向をX方向と定義する。また、Y方向が重力方向に対して略平行となる機器姿勢(機器使用時の機器の使い方判定の代表例として「姿勢」という言葉を用いた)である場合に、重力方向と対向する向きをY+方向と定義し、重力方向の向きをY−方向と定義する。背面P1から正面P2へと向かう方向をZ+方向と定義し、正面P2から背面P1へと向かう方向をZ−方向と定義する。X方向のうち、ユーザU1の右手親指U12の付け根から先端へと向かう方向をX+方向と定義し、ユーザU1の右手親指U12の先端から付け根へと向かう方向をX−方向と定義する。
図1に示すように、本実施形態に係る情報取得装置100は、第1の制御部110と、収音部120と、姿勢センサ130と、第1の通信部140と、第1の記録部150と、操作部160と、時計部170とを備える。なお、第1の制御部110、姿勢センサ130、第1の通信部140、第1の記録部150、時計部170といった情報取得装置100の各部は、例えば図2に示すようにして集積回路107に形成される。
第1の制御部110は、情報取得装置100の各部の動作を制御する。また、第1の制御部110は、情報取得装置100の各部の動作に係る判定を実行する。第1の制御部110は、姿勢取得部111と、収音特性制御部113と、フレーズ判定部114としての機能を有する。
姿勢取得部111は、情報取得装置100の機器姿勢に係る情報を取得する。姿勢取得部111は、ここでの情報取得装置100を機器としたときに、この機器姿勢に係る情報として、例えば、姿勢センサ130の出力を取得する。この「機器」という言葉は、「端末」であったり「製品」、「機械」であったりしてもよい。姿勢取得部111は、姿勢判定部112としての機能を備える。姿勢センサ130から取得する値は、単一の物理量である必要はなく、複数の物理量の組合せであってもよい。例えば、取得される姿勢センサ130の出力は、加速度や角速度、方位、気圧等の高度を反映した値等の組合せであってもよい。
姿勢判定部112は、機器姿勢に係る上述のような情報に基づいて、情報取得装置100の機器姿勢を判定する姿勢判定を行う。ここで判定される機器姿勢は、例えば、情報取得装置100の位置、方位、傾きの程度、傾きの方向、必要に応じて床からの高さや利用者の顔の高さとの差異等を含む。また、姿勢判定部112は、機器姿勢として、情報取得装置100の機器姿勢の変化を判定してもよい。すなわち、姿勢判定部112は、使用時の瞬間的な状態で機器姿勢を判定するだけでなく、時間変化や状況等を加味して総合的に機器姿勢を判断してもよい。この判定では、撮像センサ等も流用して、利用者の顔や口の画像位置(撮像された位置で分かる)等、あるいは、像の大きさから判定できる距離等までが考慮されてもよい。また、機器が可動部を持つ場合、その部分の姿勢が判定されてもよい。例えば、マイクの向きが物理的に可動である場合には、その向きが判定されてもよい。また、機器姿勢は、例えば、想定される機器姿勢又は機器姿勢の変化に基づいて分類された姿勢区分であってもよい。すなわち、機器姿勢として、機器姿勢のパターン(姿勢区分)が設定されていてもよい。
ここでの姿勢は、利用者の機器の使い方を判定するための手段であり、機器姿勢と書いた部分は、機器利用時の状況とか、機器利用時の機器の特定の部分の姿勢とか、利用者と機器との相対関係とか位置関係とか、と書き直して表現することも可能である。このような状況を機器姿勢と書いて表現したのは、利用者の一般的な機器利用時の姿勢を特定の状況として仮定しているからであり、利用者が逆立ちしたり寝転がったりして利用した場合のことを無視すると、機器の姿勢で、機器と利用者との相対位置関係が特定しやすい、という理由によるものである。「姿勢」と単純化することによって、装置を簡易に出来るが、設計によっての自由度があり、簡易でない設計が許される場合であれば、「姿勢」以外を考慮してもよい。ただし、機器で簡単に取得できる物理量から制御を切り替えられれば、低コスト化や小型化、省エネ設計ができる。
こうした物理量は、センサが増える程、様々な値が得られるが、ここでは、後述のように、人間工学的な考察を盛り込んで、必要以上の複雑化を防止した。自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を想定することによって、システムを一般化して、システムを低コストで利用しやすくしている。当然、こうした考え方で、機器や装置、端末の操作部や表示部等も、大きさや操作部の検知する力量や操作量が設計され、把持部との関係に基づいて配置され、各々の相対関係がレイアウトされているので、人間工学的な考察を盛り込んだ考え方に有機的に結びついた考え方となっている。
収音特性制御部113は、情報取得装置100における収音特性を制御する。収音特性は、収音範囲(有効距離)及び収音方向(収音指向性)を含む。収音特性制御部113は、収音部120の収音に係る動作を制御する収音制御部としての機能を備えていてもよい。収音特性制御部113は、姿勢判定部112の出力する機器姿勢を取得する。収音特性制御部113は、取得した機器姿勢に応じた収音特性を決定する。例えば、機器姿勢と、収音特性に係る情報との対応は、予め設定されて、第1の記録部150に記録されている。収音特性に係る情報は、収音部120の動作に係る各種パラメータを含む。収音特性制御部113は、決定した収音特性での収音を実行させるために、収音特性に係る情報を含む制御信号を生成し、収音部120へ出力する。
フレーズ判定部114は、音声データを収音部120から取得し、当該音声データを解析する。フレーズ判定部114は、収音された音又は音声の切れ目を検出する。フレーズ判定部114は、トラック入力部115としての機能を有する。トラック入力部115は、検出された音又は音声の切れ目に基づいて、トラック名等を設定する。なお、フレーズ判定部114は、後述する特定音声抽出部123としての機能を備えていてもよい。
収音部120は、収音特性制御部113の決定した収音特性の下で、音又は音声を収音する。収音部120は、収音した音又は音声に基づいて音声データを生成する。収音部120は、複数のマイクを含む。複数のマイクは、それぞれ情報取得装置100の異なる位置に配置される。以下、本実施形態では、収音部120が2つのマイクを含む場合を例として説明をする。収音部120は、操作者側マイク121と、対象側マイク122と、特定音声抽出部123とを備える。
操作者側マイク121は、操作者であるユーザU1の音声を主に収音できるように構成されている。図2に示すように、操作者側マイク121は、情報取得装置100の操作者側の面(背面P1)に配置される。
図2に示すように、操作者側マイク121は、操作者側マイク室106aを備える。操作者側マイク室106aは、Z方向に厚さZm、Y方向に高さYmを有する。操作者側マイク121は、操作者側マイク室106aの内部に、操作者側マイクユニット102aと、操作者側弾性保持部103aと、複数層フィルタ部104aとを備える。
例えば図2中に実線矢印で示すように、ユーザU1が発する音声V1は、ユーザの口U11から情報取得装置100へ向かって伝播する。音波は、複数層フィルタ部104aを通過して操作者側マイク室106aへ侵入する。ここで、複数層フィルタ部104aに対して略直交する方向を操作者側収音軸108aと定義する。操作者側収音軸108aとユーザU1の音声V1の伝播経路との成す角を収音角度θとする。操作者側マイク室106aへ侵入した後、音波は、複数層フィルタ部104aからマイク深さZdだけ離れた位置に配置された操作者側マイクユニット102aへ到達する。
操作者側マイクユニット102aは、音声(音波)を検知する。操作者側マイクユニット102aは、検知した音声(音波)に基づいて音声信号を生成する。ここで、操作者側マイクユニット102aは、例えば音波(圧力波)によって振動する振動板を用いて、検知した音声(音波)を音声信号へと変換する。操作者側マイクユニット102aは、生成した音声信号(操作者側音声信号)を特定音声抽出部123へ出力する。
操作者側弾性保持部103aは、操作者側マイクユニット102a及び筐体101と接触しており、操作者側マイクユニット102aを操作者側マイク室106aの内部で保持する。操作者側弾性保持部103aは、弾性を有する。操作者側弾性保持部103aは、コイルや板バネ、多孔質体等の形状によって弾性を有する弾性部材でもよいし、ゴム等の組成によって弾性を有する弾性部材でもよい。
操作者側弾性保持部103aは、筐体101から操作者側マイクユニット102aへ、筐体101の振動が伝達されることを抑制する。すなわち、操作者側弾性保持部103aは、ショックマウントとして機能する。筐体101から操作者側マイクユニット102aへ伝わる振動を低減させることは、収音におけるS/N比を向上させることに寄与する。なお、筐体101の振動は、例えばユーザU1の指が筐体101の表面で擦れた際に生じる振動(こすれ音)を含む。操作者側弾性保持部103aは、振動を減衰させるために、ダンパーとしての機能をさらに有していてもよい。
なお、こすれ音の発生を抑制するために、筐体101の表面等、ユーザU1の指が触れる面は、指との間の摩擦抵抗が小さいことが好ましい。摩擦抵抗を低くするために、ユーザU1の指が触れる面には、塗料が塗布されていてもよい。例えば、艶のあるUVコートを筐体101の表面に施せば、こすれ音を低減させることができる。この場合、さらに情報取得装置100の見栄えを良くしたり、傷が付きにくくしたり、紫外線等による劣化を低減したりできる。
複数層フィルタ部104aは、少なくとも1枚のフィルタを備える。複数層フィルタ部104aは、操作者側マイク室106aの内部に、ゴミ等の異物が入り込むことを抑制できるように構成されている。また、複数層フィルタ部104aは、操作者側マイク室106aの内部へ吹き込む風の流量と流速とを低減させることができるように構成されている。
上述したように、操作者側マイク121は、情報取得装置100のユーザU1側に配置されている。このため、操作者側マイク121と収音時に操作者の口U11との間の距離が短い場合がある。このような場合、特にユーザU1が破裂音を発声する場合には、ユーザU1の発した息が、操作者側マイクユニット102aに対して強く当たり、ポップノイズ(吹かれ)が生じ得る。本実施形態に係る複数層フィルタ部104aは、操作者側マイク室106aの内部へ吹き込む息(風)の流量と流速とを低減させることで、ポップノイズを低減することができる。
また、複数層フィルタ部104aは、操作者側マイク室106aの内部へ吹き込む息(風)の流量と流速とを低減させるため、要求されるマイク深さZdの値を小さくできる。したがって、複数層フィルタ部104aは、厚さZmを薄くすることができ、情報取得装置100の薄型化に寄与する。
対象側マイク122は、操作者が収音したい対象の音又は音声を主に収音できるように構成されている。図2に示すように、対象側マイク122は、情報取得装置100の対象側の面(正面P2)に配置される。
対象側マイク122は、対象側マイク室106bを備える。また、対象側マイク122は、対象側マイク室106bの内部に、対象側マイクユニット102bと、対象側弾性保持部103bと、フィルタ部104bとを備える。
対象側マイクユニット102bは、操作者側マイクユニット102aと同様にして、検知した音声(音波)に基づいて音声信号を生成する。対象側マイクユニット102bは、生成した音声信号(対象側音声信号)を特定音声抽出部123へ出力する。
対象側弾性保持部103bは、対象側マイクユニット102b及び筐体101と接触しており、対象側マイクユニット102bを対象側マイク室106bの内部で保持する。対象側弾性保持部103bは、操作者側弾性保持部103aと同様であり、ショックマウントとして機能する。対象側弾性保持部103bは、筐体101から対象側マイクユニット102bへ振動が伝達することを抑制する。
フィルタ部104bは、少なくとも1枚のフィルタを備える。フィルタ部104bは、複数層フィルタ部104aと同様に、対象側マイク室106bの内部へ、ゴミ等の異物、吹かれの原因となり得る風が入ることを抑制できるように構成されている。ここで、フィルタ部104bに対して略直交する方向を対象側収音軸108bと定義する。
特定音声抽出部123は、例えば音声信号に対して演算等の処理を行う。特定音声抽出部123による処理によって、情報取得装置100の収音特性は調整される。特定音声抽出部123は、操作者側マイクユニット102a及び対象側マイクユニット102bの出力する音声信号と、第1の制御部110の出力する制御信号とを取得する。特定音声抽出部123は、取得した音声信号と制御信号とに基づいて、当該音声信号に対して処理を施す。特定音声抽出部123は、処理後の音声データを第1の制御部110へ出力する。特定音声抽出部123は、有効距離設定部124と、指向性設定部125とを備える。
有効距離設定部124は、収音範囲を変化させる処理を行う。有効距離設定部124は、操作者側マイクユニット102a及び対象側マイクユニット102bの出力する音声信号に含まれる音声のうち、収音範囲に含まれる音源から発せられた音声を強調して出力する。収音範囲内の音声の抽出は、第1の制御部110の出力する制御信号に含まれる有効距離に係る情報に基づく。ここで、有効距離は、操作者側マイクユニット102a又は対象側マイクユニット102bから、収音される音声の音源までの距離である。機器姿勢と有効距離との関係は、例えば情報取得装置100の内部に予め設定されて記録されている。有効距離に係る情報は、遅延時間差の値を含む。遅延時間差は、異なる位置に配置された2つのマイク間における、同一の音声が到達して収音される時間の差である。
指向性設定部125は、情報取得装置100の収音時の指向性を変化させる処理を行う。本実施形態に係る指向性設定部125は、第1の制御部110の出力する制御信号に基づいて、操作者側マイクユニット102a及び対象側マイクユニット102bの出力する音声信号の各々を、増幅したり減衰させたりする。すなわち、本実施形態に係る収音時の指向性の制御は、ユーザU1の音声と対象の音声(音)とのうち、何れの音声(音)を優先的に収音するかを決定する収音方向の制御であると表現できる。指向性設定部125は、操作者側マイクユニット102a及び対象側マイクユニット102bの音波の検知感度を増減させることで、収音方向に対する収音の感度を調整してもよい。
姿勢センサ130は、情報取得装置100の機器姿勢に係る情報を取得する。姿勢センサ130は、情報取得装置100の傾きを検知する角速度センサ(ジャイロセンサ)を含む。姿勢センサ130は、情報取得装置100の向く方向を検知する電子コンパスを含んでいてもよい。なお、姿勢センサ130は、単一のセンサである必要はなく、複数のセンサの組合せで構成されていてもよい。例えば、姿勢センサ130は、加速度センサやジャイロや方位センサ、気圧センサ等の高度を反映したもの等の組合せで構成されていてもよい。また、本願の課題解決のためには、「姿勢」という言葉そのものから想定される諸元に限るものではなく、最終的にユーザと機器と対象物との相対関係が明らかになれば良いので、撮像部等を併用して、画像の位置や得られた顔画像の大きさ等から距離情報が得られても良い。ここでの姿勢は、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。
第1の通信部140は、再生記録機器200との間で通信を行う。第1の通信部140は、情報取得装置100で得られた音声データ等の各種情報を、再生記録機器200へ送信する。通信には、例えばWi−Fi(登録商標)、Bluetooth(登録商標)等を利用した無線通信が利用される。また、情報取得装置100と再生記録機器200とは、有線によって接続されて互いに通信が行われてもよいし、互いにインターネット等の電気通信回線に接続されてインターネット等の電気通信回線を介して通信が行われてもよい。なお、情報取得装置100と再生記録機器200との間におけるデータの移動は、例えばUSBメモリ、CD−ROM等の情報取得システム1の外部にある記録媒体が用いられて、ユーザによって行われてもよい。
第1の記録部150には、情報取得装置100の備える各部で用いられるプログラムや各種パラメータ等の情報が記録される。第1の記録部150に記録される情報は、収音特性に係る情報、機器姿勢と収音特性に係る情報との対応を含む。なお、第1の記録部150には、情報取得装置100で取得された情報が記録されてもよい。また、第1の記録部150には、情報取得装置100が取得した記録用の情報、動作時の処理情報といった各種情報が一時的に記録される。第1の記録部150は、姿勢区分情報151を含む(区分情報記録部)。
姿勢区分情報151は、想定される情報取得装置100の機器姿勢又は機器姿勢の変化に基づいて分類された情報取得装置100の姿勢区分に係る情報を格納する。この場合、姿勢区分に係る情報として、例えば、設定された各々の姿勢区分が含む機器姿勢の傾きの値(ジャイロセンサの出力値)の範囲が格納される。姿勢区分情報151が格納する情報は、姿勢判定部112によって姿勢判定の際に参照される。
操作部160は、ユーザ操作を取得する。操作部160は、ユーザ操作を取得できる要素であればよく、例えばタッチパネル、押しボタン、つまみ、スライダ、ダイヤル、レバー、キーボード等を含む。操作部160の備える各要素は、ユーザの想定される情報取得装置100の把持の仕方に基づいて配置されている。例えば、収音の開始や終了を指示する操作を取得する要素、収音中に操作され得る要素は、ユーザが右手で把持した場合に右手親指U12で操作可能な位置に配置される。右手親指U12で操作可能な位置は、例えば、背面P1上であったり、右側面上であったりする。時計部170は、日付や時刻に係る情報を生成し、第1の制御部110へ出力する。
(再生記録機器について)
再生記録機器200は、第2の制御部210と、音声再生部220と、入力部230と、第2の通信部240と、第2の記録部250とを備える。
再生記録機器200は、第2の制御部210と、音声再生部220と、入力部230と、第2の通信部240と、第2の記録部250とを備える。
第2の制御部210は、再生記録機器200の各部の動作を制御する。また、第2の制御部210は、再生記録機器200の各部の動作に係る判定を実行する。第2の制御部210は、記録制御部211としての機能を備える。
記録制御部211は、第2の記録部250への各種情報の記録を制御する。また、記録制御部211は、情報取得装置100から取得する音声データと、当該音声データに係る補助情報とを関連付けて第2の記録部250に記録させる。ここで、音声データに係る補助情報は、収音時の機器姿勢に係る情報、収音時に適用されていた収音特性に係る情報、収音時の日付や時刻に係る情報を含む。また、音声データに係る補助情報は、再生記録機器200の備える入力部230が取得するユーザの入力情報を含む。
音声再生部220は、情報取得装置100から取得した音声データを再生する。音声再生部220は、例えばスピーカである。入力部230は、ユーザの入力結果を取得する。入力部230は、例えばタッチパネル、キーボード等を含む。例えば再生記録機器200のユーザは、音声再生部220によって再生された音声データを聞き、入力部230へ入力してテキストデータを生成させ、音声のテキスト化(音声起こし)を行う。また、再生記録機器200のユーザは、音声データについて、タイトルや内容の要点等の補足情報を入力することもあり得る。このような場合、テキスト化された音声や補足情報は、上述した音声データに係る補助情報に含まれ得る。第2の通信部240は、情報取得装置100との間で通信を行う。第2の記録部250は、再生記録機器200の備える各部で用いられるプログラムや各種パラメータ、ユーザの入力したテキストデータ等の情報が記録される。また、第2の記録部250には、再生記録機器200が取得した情報、記録用の情報、動作時の処理情報といった各種情報が一時的に記録される。
なお、第1の制御部110及び第2の制御部210は、Central Processing Unit(CPU)、Application Specific Integrated Circuit(ASIC)、又はField Programmable Gate Array(FPGA)等の集積回路等を含む。第1の制御部110及び第2の制御部210は、それぞれ1つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第1の制御部110は、1つの集積回路等で構成されてもよい。また、第1の制御部110の備える各部は、それぞれ1つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第1の制御部110の備える各部のうち2つ以上が1つの集積回路等で構成されてもよい。また、第2の制御部210の備える各部は、それぞれ1つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第2の制御部210の備える各部のうち2つ以上が1つの集積回路等で構成されてもよい。これら集積回路の動作は、例えば第1の記録部150又は第2の記録部250や集積回路内の記録領域に記録されたプログラムに従って行われる。
なお、第1の記録部150、第2の記録部250又はこれらの備える各要素は、例えばフラッシュメモリのような不揮発性メモリであるが、Static Random Access Memory(SRAM)やDynamic Random Access Memory(DRAM)のような揮発性メモリをさらに有していてもよい。また、第1の記録部150又はこれらの備える各要素と、第2の記録部250又はこれらの備える各要素とは、それぞれ1つのメモリ等で構成されてもよいし、複数のメモリ等が組み合わされて構成されてもよい。また、情報取得システム1の外部にあるデータサーバ等を、そのメモリの一部として利用してもよい。
<機器姿勢に応じた収音特性制御の概要>
本実施形態に係る情報取得装置100では、情報取得装置100の傾きに係る機器姿勢が分類される姿勢区分として、例えば、次のような姿勢区分が設定されているとする。第1の姿勢区分は、情報取得装置100の操作者側マイク121がユーザU1に近づく方向に傾いた状態の機器姿勢を含む。第2の姿勢区分は、情報取得装置100の操作者側マイク121がユーザU1から離れる方向に傾いた状態の機器姿勢を含む。第3の姿勢区分は、第1の姿勢区分及び第2の姿勢区分に分類されない状態の機器姿勢を含む。
本実施形態に係る情報取得装置100では、情報取得装置100の傾きに係る機器姿勢が分類される姿勢区分として、例えば、次のような姿勢区分が設定されているとする。第1の姿勢区分は、情報取得装置100の操作者側マイク121がユーザU1に近づく方向に傾いた状態の機器姿勢を含む。第2の姿勢区分は、情報取得装置100の操作者側マイク121がユーザU1から離れる方向に傾いた状態の機器姿勢を含む。第3の姿勢区分は、第1の姿勢区分及び第2の姿勢区分に分類されない状態の機器姿勢を含む。
ここで、本実施形態に係る情報取得装置100の機器姿勢に応じた収音特性制御について説明するための模式図を図3A、図3B及び図3Cに示し、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。図3A、図3B及び図3Cには、ユーザU1側に配置されて、主にユーザU1の音声を収音できるように構成されている操作者側マイク121の操作者側収音範囲105aと、ユーザU2側(対象側)に配置されて、主にユーザU2の音声を収音できるように構成されている対象側マイク122の対象側収音範囲105bとの一例が破線で模式的に示されている。
図3A、図3B及び図3Cに示す模式図には、ユーザU1とユーザU2とが対面した状況で会話をしている様子が、それぞれ示している。ユーザU1は、本実施形態に係る情報取得装置100を右手に持ってユーザU2との会話を収音している。以下の説明では、本実施形態に係る情報取得装置100の収音対象は、ユーザU1とユーザU2との各々が発する音声である場合を例とする。
ユーザU1が情報取得装置100を手に持って使用する場合には、情報取得装置100の機器姿勢によって、情報取得装置100とユーザU1又はユーザU2との相対位置又は相対角度は異なる。図3Aには、情報取得装置100の機器姿勢が、上述した第3の姿勢区分に分類される場合の収音の様子が示されている。図3Bには、情報取得装置100の機器姿勢が、上述した第1の姿勢区分に分類される場合の収音の様子が示されている。図3Cには、情報取得装置100の機器姿勢が、上述した第2の姿勢区分に分類される場合の収音の様子が示されている。
このとき、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置(必要に応じて表示部等の視認性も考慮)等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図3A、図3B及び図3Cに示すような機器の使われ方が想定されている場合を説明する。このとき、ユーザU1は、ICレコーダ(情報取得装置100)を右手で把持している。ユーザU1は、右手親指U12で背面P1や右側面上に配置された操作部160の要素を操作する。情報取得装置100が表示部を備える場合には、例えば表示部は、背面P1上に配置される。ユーザU1は、必要に応じて表示部の表示を見ながら収音できるように情報取得装置100を把持する。ユーザU1は、操作者側マイク121が自身に向くように情報取得装置100を把持する。また、ユーザU1は、対象側マイク122が収音対象に向くように情報取得装置100を把持する。このように、想定された機器の使われ方に適した操作部160や表示部、マイクの配置となっている。これは、操作部160や表示部、マイクの配置によって、想定しているように、ユーザU1に情報取得装置100を把持させる手法であるとも表現できる。想定された持ち方で把持された情報取得装置100は、次に説明するような収音特性制御を行う。
例えば、ユーザU1は、自身の音声とユーザU2の音声とを同時に収音したい場合、背景の音や音声を収音したい場合、自身とユーザU2との何れも音声を発していない場合等に、図3Aに示す機器姿勢で収音する。このような場合、ユーザU1は、自身の音声及びユーザU2の音声が収音され得るように、情報取得装置100の操作者側マイク121を自身に向け、対象側マイク122をユーザU2へ向ける。すなわち、情報取得装置100の機器姿勢は、図3Aに示すように、傾きが少ない第3の姿勢区分に分類される状態となる。
例えば、ユーザU1は、自身が話している場合等、自身の音声を収音したい場合には、情報取得装置100を把持している右手を身体側へ引き、操作者側マイク121を自身の口U11へ近づける。すなわち、情報取得装置100の機器姿勢は、図3Bに示すように、ユーザU1へ傾けられた第1の姿勢区分に分類される状態となる。
例えば、ユーザU1は、ユーザU2の音声を収音したい場合等、対象の音声を収音したい場合には、情報取得装置100を把持している右手をユーザU2へ向けて伸ばし、対象側マイク122をユーザU2へ近づける。すなわち、情報取得装置100の機器姿勢は、図3Cに示すように、ユーザU2へ傾けられた第2の姿勢区分に分類される状態となる。
このように、情報取得装置100の機器姿勢は、ユーザの動作に伴い変化する。そのため、機器姿勢によっては、適切な収音特性の下での収音が実現しない可能性がある。そこで、姿勢判定部112は、機器姿勢を判定し、また、姿勢区分情報151を参照して姿勢区分を判定する。収音特性制御部113は、判定結果に応じて姿勢区分情報151を参照し、機器姿勢に応じた収音特性を決定する。ここで決定される収音特性は、収音の方向(収音指向性)と、収音の有効距離である。収音特性制御部113は、決定した収音特性を特定音声抽出部123に設定させる。また、収音特性制御部113は、決定した収音特性の下で収音部120に収音させる。
例えば、特定音声抽出部123は、第3の姿勢区分に分類される機器姿勢であると判定された場合、図3Aに示すように、ユーザU1の音声を収音できるように操作者側収音範囲105aを設定し、同時に、ユーザU2の音声を収音できるように対象側収音範囲105bを設定する。すなわち、第3の姿勢区分に分類される機器姿勢の時、収音部120は、操作者であるユーザU1と収音の対象であるユーザU2との両方の音声に対して収音の感度が高い状態となる。
例えば、特定音声抽出部123は、第1の姿勢区分に分類される機器姿勢であると判定された場合、図3Bに示すように、ユーザU1の音声を収音できるように操作者側収音範囲105aを設定する。一方で、ユーザU2側の音声は収音されにくくなるように対象側収音範囲105bを設定する。すなわち、第1の姿勢区分に分類される機器姿勢の時、収音部120は、操作者であるユーザU1の音声に対して収音の感度が高い状態となる。
例えば、特定音声抽出部123は、第2の姿勢区分に分類される機器姿勢であると判定された場合、図3Cに示すように、ユーザU2の音声を収音できるように対象側収音範囲105bを設定する。一方で、ユーザU1側の音声は収音されにくくなるように操作者側収音範囲105aを設定する。すなわち、第2の姿勢区分に分類される機器姿勢の時、収音部120は、収音の対象であるユーザU2の音声に対して収音の感度が高い状態となる。
このように、本実施形態に係る情報取得装置100は、ユーザの動作に伴って生じた機器姿勢を判定し、機器姿勢が変化しても適切な収音ができるように機器姿勢に応じた収音特性を決定する。特にICレコーダ等では、収音して記録した後に、音声を確認したり、テキスト化したりする場合がある。そのため、機器姿勢に応じて適切な収音ができる技術には需要がある。ここでも、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。
<情報取得システムの動作>
ここで、本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図4に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置100が操作者であるユーザU1によって把持された状態で開始される。
ここで、本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図4に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置100が操作者であるユーザU1によって把持された状態で開始される。
ステップS101において、第1の制御部110は、例えばユーザ操作に応じた操作部160の出力に基づいて、機器姿勢情報の初期化を行う。このとき、第1の制御部110は、姿勢センサ130の出力を初期状態の機器姿勢情報として取得する。
ステップS102において、第1の制御部110は、情報取得装置100の機器姿勢を判定する。機器姿勢の判定は、姿勢センサ130の出力と初期状態の機器姿勢情報とに基づいて行われる。なお、姿勢センサ130の出力が、重力方向との傾きである場合等、初期化が不要な場合もあり得る。この場合には、ステップS101は行われなくてもよく、本ステップでは姿勢センサ130の出力に基づいて、機器姿勢の判定が行われればよい。
ステップS103において、第1の制御部110は、機器姿勢の判定結果に基づいて、機器姿勢が変化したか否かの判定を行う。情報取得システム制御処理は、機器姿勢が変化したと判定された場合はステップS104へ進み、判定されなかった場合はステップS105へ進む。
ステップS104において、第1の制御部110は、機器姿勢が変化したと判定された状態であることから、収音特性を、現在の機器姿勢(姿勢区分)に応じた収音特性へと変更する。その後、情報取得システム制御処理は、ステップS105へ進む。
ステップS105において、第1の制御部110は、収音処理を実行する。すなわち、第1の制御部110は、機器姿勢に応じた収音特性の下で、収音部120に収音を実行させる。
ステップS106において、第1の制御部110は、操作部160の出力に基づいて、ユーザU1による情報取得装置100の操作の有無を判定する。情報取得システム制御処理は、操作部160がユーザU1の操作を検知したと判定された場合はステップS107へ進み、判定されなかった場合はステップS108へ進む。
ステップS107において、第1の制御部110は、操作部160の検出したユーザ操作の結果に基づいて、情報取得装置100の各部の設定等を調整する。例えばユーザU1は、収音特性の設定を調節したり、録音開始や録音終了の操作を行ったりする。
ステップS108において、第1の制御部110は、例えばユーザ操作に応じた操作部160の出力に基づいて、録音開始又は録音継続するか否かの判定を行う。情報取得システム制御処理は、録音開始又は録音継続すると判定された場合はステップS109へ進み、判定されなかった場合はステップS110へ進む。
ステップS109において、第1の制御部110は、音声データと補助データとを関連付ける。また、第1の制御部110は、関連付けされた音声データと補助データとを、第1の通信部140に再生記録機器200へ送信させ、再生記録機器200に記録させる。ここで、補助データは、例えば収音時の機器姿勢に係る情報、収音特性に係る情報等を含む。その後、情報取得システム制御処理は、ステップS102へ戻る。
ステップS110において、第1の制御部110は、例えばユーザ操作に応じた操作部160の出力に基づいて、情報取得システム制御処理を終了するか否かの判定を行う。情報取得システム制御処理は、終了すると判定されなかった場合はステップS102へ戻り、ステップS102乃至ステップS110の処理を繰り返す。情報取得システム制御処理は、終了すると判定された場合は、ステップS109と同様にして音声データを記録して処理を終了する。
再生記録機器200は、上述のようにして、通信を介して音声データを取得する。第2の制御部210は、取得した音声データを第2の記録部250に記録する。音声再生部220は、例えば音声データを第2の記録部250から読み出し、音声データを再生する。
ここで、ユーザは、適切な収音環境で記録された音声データを聞きながら、音声データをテキスト化できる。このとき、入力部230は、ユーザのテキスト入力を取得して、第2の記録部250へ出力する。第2の記録部250では、音声データと、当該音声データがテキスト化されたテキストデータとが関連付けられて記録される。
なお、ステップS109において、第1の制御部110は、関連付けされた音声データと補助データとを、第1の記録部150に記録させてもよい。
<情報取得システムの利点>
本実施形態に係る情報取得装置100は、機器姿勢に応じて収音特性を決定し、決定した収音特性の下で収音する。したがって、ユーザは情報取得装置100を使用すれば、機器姿勢が変化する度に収音特性を随時調整する手間なく、適切な収音環境で収音された音声データを取得できる。そのため、本実施形態に係る情報取得装置100を使用すれば、ユーザは、聞き取りやすい音質で収音された会話等の音声データを容易に取得できる。
本実施形態に係る情報取得装置100は、機器姿勢に応じて収音特性を決定し、決定した収音特性の下で収音する。したがって、ユーザは情報取得装置100を使用すれば、機器姿勢が変化する度に収音特性を随時調整する手間なく、適切な収音環境で収音された音声データを取得できる。そのため、本実施形態に係る情報取得装置100を使用すれば、ユーザは、聞き取りやすい音質で収音された会話等の音声データを容易に取得できる。
また、聞き取りやすい音質の音声データは、テキスト化に適した音声データであるとも表現できる。ユーザは、本実施形態に係る情報取得装置100を使用すれば、テキスト化に適した音声データを容易に取得でき、音声データをテキスト化する作業に係るトランスクライバー(ユーザ)の負担を軽減できる。同様に、情報取得装置100は、音声認識に適した収音特性で収音させることもできる。すなわち、本技術は、音声操作や音声データのテキスト化における音声の認識精度を向上させることもできる。
本実施形態に係る情報取得装置100は、音声データと、補助データとを関連付けて記録する。したがって、ユーザは、収音後に音声処理を施して、聞き取りやすい音質とした音声データを取得することもできる。
本実施形態に係る情報取得装置100は、姿勢センサ130の出力に基づいて機器姿勢を取得する。すなわち、情報取得装置100は、例えばマイク間における音量差や収音の時間差(遅延時間差)等に基づいて機器姿勢を演算しなくてもよい。したがって、本実施形態に係る情報取得装置100は、収音特性制御に係る計算コスト低減することができる。そのため、本技術は、小型化が要求される携帯機器での機器姿勢に応じた収音特性制御において、高負荷の演算に伴う発熱で生じ得るノイズを抑制したり、バッテリ消費を低減したりできる。
<収音特性制御の第1の変形例>
第1の実施形態では、操作者側マイク121と対象側マイク122との収音の感度が調整されて収音方向を制御する収音特性制御について説明をしたが、これに限らない。例えば、ステレオマイクで行われるような指向性制御が適用されて、操作者側と対象側との各々の収音方向の感度が調整されてもよい。ここで、本変形例に係る指向性設定部125の構成の一例をブロック図として図5に示す。図5を参照して、指向性設定部125における処理の一例を説明する。
第1の実施形態では、操作者側マイク121と対象側マイク122との収音の感度が調整されて収音方向を制御する収音特性制御について説明をしたが、これに限らない。例えば、ステレオマイクで行われるような指向性制御が適用されて、操作者側と対象側との各々の収音方向の感度が調整されてもよい。ここで、本変形例に係る指向性設定部125の構成の一例をブロック図として図5に示す。図5を参照して、指向性設定部125における処理の一例を説明する。
図5に示すように、指向性設定部125は、AD変換器20と、加算・乗算器30と、出力端40とを備える。また、図5には、指向性設定部125に加えて、操作者側マイクユニット102aの出力端11と、対象側マイクユニット102bの出力端12と、第1の制御部110の出力端13とが併せて示されている。
AD変換器20は、操作者側AD変換器21と、対象側AD変換器22とを備える。操作者側AD変換器21の入力端は、操作者側マイクユニット102aの出力端11と接続されている。また、操作者側AD変換器21の出力端は、加算・乗算器30と接続されている。操作者側AD変換器21は、操作者側音声信号を取得し、デジタル信号化する。操作者側AD変換器21は、デジタル化された操作者側音声信号を加算・乗算器30へ出力する。対象側AD変換器22の入力端は、対象側マイクユニット102bの出力端12と接続されている。また、対象側AD変換器22の出力端は、加算・乗算器30と接続されている。対象側AD変換器22は、対象側音声信号を取得し、デジタル信号化する。対象側AD変換器22は、デジタル化された対象側音声信号を加算・乗算器30へ出力する。
加算・乗算器30は、加算器31と、乗算器32と、加算器33と、加算器34と、乗算器35と、加算器36とを備える。
加算器31のマイナス側入力端は、操作者側AD変換器21の出力端と接続される。加算器31のプラス側入力端は、対象側AD変換器22の出力端と接続される。すなわち、加算器31は、対象側音声信号から操作者側音声信号を減算した差分を算出する。加算器31の出力端は、乗算器32の入力端に接続される。乗算器32の制御端は、第1の制御部110の出力端13に接続される。すなわち、乗算器32は、第1の制御部110の出力するゲインの値に応じて、操作者側音声信号と対象側音声信号との差分を増幅したり減衰させたりする。加算器33の入力端は、操作者側AD変換器21の出力端と、乗算器32の出力端と接続される。すなわち、加算器33は、操作者側音声信号に乗算器32の出力を加算した音声信号を出力する。
加算器34のマイナス側入力端は、対象側AD変換器22の出力端と接続される。加算器34のプラス側入力端は、操作者側AD変換器21の出力端と接続される。すなわち、加算器34は、操作者側音声信号から対象側音声信号を減算した差分を算出する。加算器34の出力端は、乗算器35の入力端に接続される。乗算器35の制御端は、第1の制御部110の出力端13に接続される。すなわち、乗算器35は、第1の制御部110の出力するゲインの値に応じて、操作者側音声信号と対象側音声信号との差分を増幅したり減衰させたりする。加算器36の入力端は、対象側AD変換器22の出力端と、乗算器35の出力端と接続される。すなわち、加算器36は、対象側音声信号に乗算器35の出力を加算した音声信号を出力する。
指向性設定部125の出力端40には、加算器33の出力端と、加算器36の出力端とが接続され、処理後の操作者側音声信号と対象側音声信号とがそれぞれ第1の通信部140へ出力される。また、指向性設定部125の出力端40には、操作者側AD変換器21の出力端と、対象側AD変換器22の出力端とがさらに接続され、外部でこれらの出力を確認できる。
このように収音部120は、収音した複数の音声信号のバランスを制御する。これにより、収音部120は、操作者側と対象側との収音感度を調整して、収音方向を変えることができる。
加算器31及び加算器34で算出される差分は、配置される位置が異なる2つのマイクの間における音の差異である。例えば、この差異を強調することにより、操作者側音声信号と対象側音声信号との何れかを強調することができる。したがって、乗算器32又は乗算器35におけるゲインを調整することで、何れの音声に対して感度を高めた収音とするかを制御できる。
なお、本実施形態に係る2つのマイクは、情報取得装置100において、互いに対向する面にそれぞれ配置されている。このため、2つのマイクの間における音の差異には、音の遅延により生じる差異が含まれる。そこで、指向性設定部125は、2つのマイクの間における遅延時間差を考慮するために、遅延回路が含まれていてもよい。なお、遅延時間差は、収音された音声から取得することもできる。
<収音特性制御の第2の変形例>
第1の実施形態では、操作者側マイク121と対象側マイク122との2つのマイクを備え、操作者側と対象側との何れの収音方向に対する収音感度を調整するかを決定する収音特性制御を行う情報取得装置100について説明したが、これに限らない。情報取得装置100の備えるマイクは、2つ以上の複数であってもよい。例えば、操作者側マイク121及び対象側マイク122の少なくとも一方が、一対のY方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側における収音角度θ(収音指向性)も制御され得る。すなわち、操作者側における収音角度θに対する収音感度が機器姿勢に応じて調整される収音特性制御がさらに行われてもよい。同様に、操作者側マイク121及び対象側マイク122の少なくとも一方が、一対のX方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側におけるX方向の収音角度(収音指向性)も制御され得る。これらは、図5を参照して説明したような収音特性制御が、操作者側に配置される一対のステレオマイクの出力に対して行われれば実現できる。このような構成であれば、機器姿勢の変化に応じて、操作者側か対象側かを制御する収音特性制御に加えて、操作者側と対象側との各々における収音角度をさらに制御して、特定の方向にフォーカスした音声を収音する収音特性制御ができる。
第1の実施形態では、操作者側マイク121と対象側マイク122との2つのマイクを備え、操作者側と対象側との何れの収音方向に対する収音感度を調整するかを決定する収音特性制御を行う情報取得装置100について説明したが、これに限らない。情報取得装置100の備えるマイクは、2つ以上の複数であってもよい。例えば、操作者側マイク121及び対象側マイク122の少なくとも一方が、一対のY方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側における収音角度θ(収音指向性)も制御され得る。すなわち、操作者側における収音角度θに対する収音感度が機器姿勢に応じて調整される収音特性制御がさらに行われてもよい。同様に、操作者側マイク121及び対象側マイク122の少なくとも一方が、一対のX方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側におけるX方向の収音角度(収音指向性)も制御され得る。これらは、図5を参照して説明したような収音特性制御が、操作者側に配置される一対のステレオマイクの出力に対して行われれば実現できる。このような構成であれば、機器姿勢の変化に応じて、操作者側か対象側かを制御する収音特性制御に加えて、操作者側と対象側との各々における収音角度をさらに制御して、特定の方向にフォーカスした音声を収音する収音特性制御ができる。
また、情報取得装置100は、機器姿勢に対応した収音特性制御が行われずにステレオ収音するステレオ収音モードと、機器姿勢に応じて収音特性制御が行われて、収音方向等が調整される収音特性制御モードとを備えていてもよい。この場合、第1の制御部110は、例えば操作部160の取得するユーザの操作結果に基づいて、実行されるモードを切り替えるモード制御部としての機能をさらに備えていてもよい。
なお、第1の実施形態又は収音特性制御の第1の変形例における操作者側マイク121と対象側マイク122とは、一体となった1つのマイクであってもよい。この場合、例えば、双極型の指向性を有するマイクが使用されればよい。また、同様に、収音特性制御の第2の変形例における一対のステレオマイクが、1つのマイクで構成されていてもよい。
また、操作者側マイク121と、対象側マイク122との2つのマイクを備える情報取得装置において、これら2つのマイクは、X方向及びZ方向のそれぞれの方向に互いに異なる位置に配置されていてもよい。この場合、Z方向の位置の差から、上述の操作者側と対象側との収音方向の制御が実現し、X方向の位置の差から、上述のステレオ収音が実現する。同様に、2つのマイクが、Y方向及びZ方向のそれぞれの方向に互いに異なる位置に配置されて、縦ステレオでのステレオ収音が行われてもよい。このような構成によれば、2つのマイクによって、収音方向と、各々の収音方向に対する収音角度θとに対する収音の感度を制御する収音特性制御が実現する。
<収音特性制御の第3の変形例>
収音特性制御部113は、遅延時間差を取得してもよい。ここで、遅延時間差は、同一の音声が、操作者側マイクユニット102aで収音される時刻と、対象側マイクユニット102bで収音される時刻との間の時間差である。操作者側マイクユニット102aと、対象側マイクユニット102bとの位置が固定されていれば、とある値の遅延時間差が生じる音源は、操作者側マイクユニット102aと、対象側マイクユニット102bとの位置を焦点に持ち、操作者側マイクユニット102aと、対象側マイクユニット102bとを結ぶ線分上に頂点を持つ双曲線上に位置することになる。このように、情報取得装置100は、設定された遅延時間差を有する音を収音すれば、指向性のある収音ができる。
収音特性制御部113は、遅延時間差を取得してもよい。ここで、遅延時間差は、同一の音声が、操作者側マイクユニット102aで収音される時刻と、対象側マイクユニット102bで収音される時刻との間の時間差である。操作者側マイクユニット102aと、対象側マイクユニット102bとの位置が固定されていれば、とある値の遅延時間差が生じる音源は、操作者側マイクユニット102aと、対象側マイクユニット102bとの位置を焦点に持ち、操作者側マイクユニット102aと、対象側マイクユニット102bとを結ぶ線分上に頂点を持つ双曲線上に位置することになる。このように、情報取得装置100は、設定された遅延時間差を有する音を収音すれば、指向性のある収音ができる。
例えば、各々の機器姿勢における情報取得装置100とユーザU1又は収音対象との相対位置が予めパターン化されて、情報取得装置100の内部に記録されているとする。この場合、収音の機器姿勢に応じた遅延時間差が決定されれば、機器姿勢に応じて特定の指向性を持たせて収音することができる。収音特性制御部113は、取得した遅延時間差等、有効距離に係る情報を、収音部120へ出力する。
<情報取得装置の構成に係る変形例>
上述の実施形態及び変形例において、音声信号の処理によって収音特性制御が実現される情報取得装置100について説明をしたが、これに限らない。収音特性制御は、マイクの配置される向きが機械的に調整されて行われてもよい。すなわち、機器姿勢に応じてマイクの方向を駆動させるマイク方向制御が行われる情報取得装置100であっても、同様の効果が得られ得る。
上述の実施形態及び変形例において、音声信号の処理によって収音特性制御が実現される情報取得装置100について説明をしたが、これに限らない。収音特性制御は、マイクの配置される向きが機械的に調整されて行われてもよい。すなわち、機器姿勢に応じてマイクの方向を駆動させるマイク方向制御が行われる情報取得装置100であっても、同様の効果が得られ得る。
上述の実施形態及び変形例において、情報取得装置100と再生記録機器200とを含む情報取得システム1について説明をしたが、これに限らない。例えば、情報取得装置100と再生記録機器200とが一体となった構成の情報取得装置100であってもよい。この場合、情報取得装置100は、音声再生部をさらに備え、第1の記録部150が収音した音声データを記録すればよい。一方で、情報取得装置100は、操作者側マイク121と、対象側マイク122と、姿勢センサ130と、第1の通信部140とを備える収音機器であってもよい。この場合、収音に係る制御、ユーザの操作結果の取得等が再生記録機器200によって行われる等、情報取得装置100の構成及び機能の一部は、再生記録機器200によって行われればよい。このように、情報取得システム1において、情報取得装置100と再生記録機器200との構成及び機能は組み合わせたり、分離したりすることができ得る。
なお、情報取得装置100の傾きは、姿勢センサ130として加速度センサが用いられて、位置変位の方向に基づいて検知されてもよい。また、姿勢センサ130は撮像部を備えていてもよい。この場合、姿勢判定部112は、当該撮像部によって撮像された後に画像処理が施された画像に基づいて、情報取得装置100の機器姿勢を判定する。ここでの画像処理は、例えばエッジ検出等の画像処理である。また、姿勢センサ130は、気圧を計測できる圧力センサや温度センサ、輝度センサ等を備えて、特定の周囲環境に応じた機器姿勢に係る情報を取得してもよい。
上述の実施形態及び変形例において、機器姿勢に係る情報は、姿勢センサ130によって計測されて、姿勢取得部111によって取得されるとした場合を例として説明をしたが、これに限らない。例えば、機器姿勢に係る情報は、情報取得装置100の外部に設けられたセンサによって取得されてもよい。例えば、外部から情報取得装置100を撮影する外部カメラが用いられてもよい。この場合、外部カメラが取得した画像を取得して解析することによって、機器姿勢に係る情報が取得され得る。
なお、機器姿勢に応じて収音特性を制御する情報取得装置100において、さらに、音声を検知した方向に指向性を変化させる制御を行うことも可能である。また、情報取得装置100が加速度センサを備える場合には、機器姿勢の変化に応じて収音特性が制御されてもよい。ユーザは、とっさに収音したい対象を認識した時、急激に機器姿勢を変化させ得る。例えば、機器姿勢が急激に変化した場合には、収音の指向性を広げたり、有効距離を伸ばしたりする制御が行われればよい。また、情報取得装置100は、さらに温度センサを備えていてもよい。この場合、機器姿勢に応じた収音特性制御に加えて、寒いからユーザの音声が小さい可能性があり、収音の有効距離を伸ばすといった収音特性制御もできる。
なお、上述の実施形態及び変形例において、ユーザU1とユーザU2との会話を収音する場合を例として説明をしたが、対象側の収音対象は人の音声に限らない。例えば、ユーザは、情報取得装置100を使用して鳥の鳴き声等を収音しながら、自身の音声メモを収音させる場合もあり得る。
[第2の実施形態]
本発明における第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第1の実施形態では、機器姿勢に応じた収音特性制御を行い、聞き易い音声での収音ができる情報取得システム1について説明をした。一般に、音声認識による音声データのテキスト化には需要がある。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる情報取得システム1について説明をする。
本発明における第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第1の実施形態では、機器姿勢に応じた収音特性制御を行い、聞き易い音声での収音ができる情報取得システム1について説明をした。一般に、音声認識による音声データのテキスト化には需要がある。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる情報取得システム1について説明をする。
なお、ここでの「姿勢」は、第1の実施形態において上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。
<情報取得システムの構成>
本実施形態に係る情報取得システム1の構成例の概略をブロック図として図6に示し、これを参照して本実施形態に係る情報取得システム1の構成について説明をする。図6に示すように、本実施形態に係る情報取得システム1は、情報取得装置100を含む。本実施形態に係る情報取得装置100は、第1の実施形態と同様に、例えばICレコーダである。
本実施形態に係る情報取得システム1の構成例の概略をブロック図として図6に示し、これを参照して本実施形態に係る情報取得システム1の構成について説明をする。図6に示すように、本実施形態に係る情報取得システム1は、情報取得装置100を含む。本実施形態に係る情報取得装置100は、第1の実施形態と同様に、例えばICレコーダである。
本実施形態に係る有効距離設定部124は、収音特性制御部113の出力する制御信号に基づいて、有効距離の設定を行う。第1の実施形態では、有効距離内の音声を強調して出力する有効距離設定部124について説明したが、本実施形態に係る有効距離設定部124は、有効距離内の音声を特定又は抽出する。有効距離内の音声は、例えば2つのマイク間での遅延時間差が所定の値に収まる音声である。なお、ここで抽出される有効距離内の音声は、音声認識が行われる対象となる音声である。
本実施形態に係る第1の記録部150には、ディクテーション部190の備える各部で用いられるプログラムや各種パラメータがさらに記録される。また、第1の記録部150には、ディクテーション部190が取得又は生成した情報、ディクテーション部190の動作時の処理情報といった各種情報が一時的にさらに記録される。本実施形態に係る第1の記録部150は、音声処理テーブル152と、音声テキスト化辞書153と、フォーマット情報154と、取得データ155とをさらに記録する。
音声処理テーブル152には、例えば、収音した音声と比較するための音響モデルが記録されている。また、音声処理テーブル152には、テキストデータと、当該テキストデータに対応する音声データとの対応も記録されている。音声処理テーブル152には、情報取得システム1を音声によって操作するための操作音声に係る音響モデルと、当該操作音声に対応する制御信号及びテキストデータとがさらに記録されている。なお、音声処理テーブル152には、予めユーザ毎の音声データが収集されて記録されていてもよい。
音声テキスト化辞書153には、単語や、単語の係り及び単語の並び方等の統計データに係る情報(言語モデル)が記録されている。
フォーマット情報154には、音声認識や音声データのテキスト化によって得られた各種情報を記録する際のデータフォーマットに係る情報が記録されている。また、フォーマット情報154には、収音された音声データと当該音声データがテキスト化されて生成されるテキストデータとを関連付けて記録する際のデータフォーマットに係る情報がさらに記録されている。
取得データ155には、情報取得装置100で取得された各種データが記録される。取得データ155の記録する情報は、例えば、第1の実施形態に係る再生記録機器200の備える第2の記録部250の記録する情報を含み得る。
図6に示すように、本実施形態に係る情報取得装置100は、音声再生部180と、ディクテーション部190とをさらに備える。
音声再生部180は、第1の実施形態に係る再生記録機器200の備える音声再生部220に相当する。音声再生部180は、第1の記録部150に記録されている音声データを再生する。
ディクテーション部190は、第1の記録部150の記録する情報を参照し、収音部120で取得された音声データに対して音声認識を実行する。また、ディクテーション部190は、音声認識の結果に基づいて、音声データのテキスト化を実行する。ディクテーション部190は、話者識別部191と、テキスト化部192と、ドキュメント化部193としての機能を備える。
話者識別部191は、収音した音声信号を解析して、当該音声信号を発した話者を特定する。なお、話者の識別は、音声処理テーブル152に記録されているユーザ毎の音声データに基づいて行われてもよいし、音声信号の周波数特性が解析されて行われてもよいし、操作者側マイク121と対象側マイク122との音量差に基づいて行われてもよい。例えば、同一の音声に対する操作者側マイク121の収音時の音量が対象側マイク122の音量と比較して大きければ、当該音声は、操作者の音声であると判定される。
テキスト化部192は、音声処理テーブル152及び音声テキスト化辞書153に記録されている音響モデル、言語モデル等に基づいて、収音した音声をテキスト化する。
ドキュメント化部193は、フォーマット情報154に記録されている情報に基づいて、テキスト化した音声等の収音した音声に係るドキュメント300を生成する。ここで、本実施形態に係るドキュメント300の構成の一例を図7に模式図として示す。
図7に示すように、本実施形態に係るドキュメント300は、操作結果311と、音声操作結果321と、状況331と、会話341と、対象351と、日付361との項目を含む。
操作結果311の項目には、ユーザが操作部160を操作した操作結果に係る情報312が記録される。音声操作結果321の項目には、テキスト化部192においてテキスト化された操作音声に係る情報322が記録される。操作結果311の項目又は音声操作結果321の項目に記録される操作結果は、例えばユーザが収音の感度を変更した結果、収音モードを切り替えた結果等が含まれ得る。状況331の項目には、収音時の機器姿勢に係る情報、ユーザが入力した収音時の状況に係る情報等の収音時の情報取得装置100の状況332が記録される。会話341の項目には、テキスト化部192によってテキスト化された会話のテキストデータである会話テキスト342が記録される。対象351の項目には、例えばユーザが入力した収音対象に係る情報352が記録される。なお、話者識別によって収音対象が判定できる場合には、判定された話者に係る情報が記録され得る。日付361の項目には、収音時の日付、時刻等の収音日時に係る情報362が記録される。なお、日付361の項目には、収音時の位置情報が合わせて記録されてもよい。
なお、ディクテーション部190の機能の一部又は全ては、第1の制御部110によって行われてもよいし、第1の通信部140を介して音声データが外部のサーバ等に送信されて、外部のサーバにおいて行われてもよい。また、ディクテーション部190の機能の一部又は全ては、人工知能(AI)が用いられて実行されてもよい。この場合、情報取得装置100は、例えば、判定や機械学習可能に構築されたDigital Signal Processor (DSP)を含んでいてもよい。また、特定音声抽出部123としての機能を、ディクテーション部190が備えていてもよい。
本実施形態に係る第1の制御部110は、ディクテーション制御部116と、記録制御部117としての機能をさらに備える。
ディクテーション制御部116は、ディクテーション部190の動作を制御する。ディクテーション制御部116は、ディクテーション部190に、収音部120の出力する音声データについて、音声認識させ、音声認識の結果に基づいたテキストデータと当該テキストデータを含むドキュメントを生成させる。
記録制御部117は、情報取得装置100における記録動作を制御する。本実施形態に係る記録制御部117の機能は、第1の実施形態に係る再生記録機器200の備える記録制御部211の機能と同様である。例えば、記録制御部117は、情報取得装置100から取得する音声データと、当該音声データに係る補助情報とを関連付けて第1の記録部150に記録させる。音声データに係る補助情報は、ドキュメント300を含む。
本実施形態に係る第1の制御部110の備えるフレーズ判定部114は、さらに音声認識の機能を有する。フレーズ判定部114は、音声処理テーブル152を参照して、収音した音声が操作音声であるかを判定する。第1の制御部110は、操作音声を検知した場合には、音声処理テーブル152を参照して、当該操作音声に対応する制御信号を取得し、情報取得装置100の動作を制御する。
なお、操作音声か否かの判定は、例えば、話者識別部191の出力に基づいて行われてもよい。また、操作音声か否かの判定は、例えば、会話と操作音声との音量や音色の差異に基づいて行われてもよい。例えば、操作音声は、会話に比べて小声であったり、低い音色であったりする。
<情報取得システムの動作>
本実施形態に係る情報取得システム1の動作について図面を参照して説明する。ここで、本実施形態に係る収音処理の一例をフローチャートとして図8に示す。
本実施形態に係る情報取得システム1の動作について図面を参照して説明する。ここで、本実施形態に係る収音処理の一例をフローチャートとして図8に示す。
ステップS201において、情報取得装置100の備える第1の制御部110は、機器姿勢に応じた収音特性の下で、収音部120に収音させる。第1の制御部110は、得られた音声データを第1の通信部140にディクテーション部190へ送信させる。
ステップS202において、第1の制御部110は、音声認識できる音声であるか否かの判定をする。当該判定は、例えば、収音された音声の音量や音質に基づく。当該判定は、ディクテーション部190によって行われてもよい。収音処理は、音声認識可能であると判定された場合はステップS204へ進み、判定されなかった場合はステップS203へ進む。
ステップS203において、第1の制御部110は、音声認識できない旨の警告を行う。当該警告は、例えば予め第1の記録部150に記録されている音声データを再生することによって行われてもよい。また、情報取得装置100は表示部を備えていてもよく、この場合には、当該表示部に警告文を表示させることによって警告が行われてもよい。その後、収音処理はステップS204へ進む。
ステップS204において、第1の制御部110は、収音された音声データが操作音声であるか否かの判定を行う。当該判定は、第1の記録部150に記録されている操作音声の音響データに基づく。収音処理は、操作音声であると判定された場合はステップS205へ進み、判定されなかった場合はステップS206へ進む。
ステップS205において、第1の制御部110は、音声認識された操作音声の指示に従って、ディクテーション部190の各部の設定又は動作を制御する。また、第1の制御部110は、操作音声が情報取得装置100の制御に係る指示である場合には、情報取得装置100の各部の設定又は動作を制御するための制御信号を生成し、各部の設定又は動作を制御する。その後、収音処理はステップS207へ進む。
ステップS206において、第1の制御部110は、音声処理テーブル152及び音声テキスト化辞書153に記録されている音響データと言語データとに基づいて、収音した音声データをテキスト化し、テキストデータを生成する。第1の制御部110は、生成されたテキストデータを第1の記録部150に記録させる。
ステップS207において、第1の制御部110は、音声テキスト化辞書153に記録されている言語データに基づいて、収音された音声データが会話であるか否かを判定する。収音処理は、会話であると判定された場合はステップS209へ進み、判定されなかった場合はステップS208へ進む。
ステップS208において、第1の制御部110は、テキストデータを単独文字と分類して記録させる。第1の制御部110は、単独文字のテキストデータと、対応する音声データとを関連付けて記録させる。ここで、単独文字は、音声認識によって単語が特定されているものの、会話ではないと判定される場合に記録され得る。また、単独文字は、音声データを特定したり、検索したりする際のタグとして使用され得る。その後、収音処理は終了し、情報取得システム制御処理のステップS106へ進む。
ステップS209において、第1の制御部110は、テキストデータを会話と分類して記録させる。第1の制御部110は、会話のテキストデータと、対応する音声データとを関連付けて記録させる。その後、収音処理は終了し、情報取得システム制御処理のステップS106へ進む。
<情報取得システムの利点>
本実施形態に係る情報取得装置100は、第1の実施形態に係る情報取得装置100で得られる利点に加え、以下のような利点をさらに有する。本実施形態に係る情報取得装置100は、機器姿勢に応じた収音特性制御によって、機器姿勢によらず、音声認識に適した音声データの取得ができる。
本実施形態に係る情報取得装置100は、第1の実施形態に係る情報取得装置100で得られる利点に加え、以下のような利点をさらに有する。本実施形態に係る情報取得装置100は、機器姿勢に応じた収音特性制御によって、機器姿勢によらず、音声認識に適した音声データの取得ができる。
したがって、本実施形態に係る技術は、音声認識の精度及び音声操作の精度を向上させることができる。また、ユーザは、本実施形態に係る情報取得装置100を利用すれば、テキスト化された音声データを容易に取得できる。
また、本技術が活用されれば、ユーザは、音声操作によって、複雑な操作なしに、任意の機能を簡易に選択して使用することができる。また、音声操作の活用によって操作部の構造を簡素化できるため、情報取得装置100の小型化や軽量化ができる。
[第3の実施形態]
本発明における第3の実施形態について説明する。ここでは、第2の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第2の実施形態では、機器姿勢に応じた収音特性制御を行い、音声認識及び音声データのテキスト化に適した収音ができる情報取得システム1について説明をした。このような技術は、収音機能を有する電子機器に対して適用できる。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置について説明をする。
本発明における第3の実施形態について説明する。ここでは、第2の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第2の実施形態では、機器姿勢に応じた収音特性制御を行い、音声認識及び音声データのテキスト化に適した収音ができる情報取得システム1について説明をした。このような技術は、収音機能を有する電子機器に対して適用できる。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置について説明をする。
なお、ここでの「姿勢」は、上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。以下は、各要素の配置等に基づいて、把持の仕方、機器と操作者との相対位置及び相対角度等の使われ方が想定されている撮像装置について説明をする。
<情報取得システムの構成>
本実施形態に係る情報取得システム1の構成例の概略をブロック図として図9に示し、これを参照して本実施形態に係る情報取得システム1の構成について説明をする。図9に示すように、本実施形態に係る情報取得システム1は、情報取得装置100である撮像装置400と、サーバ500とを含む。撮像装置400は、収音機能と撮像機能とを実行できるように構成された情報機器であり、本実施形態では、撮像装置400がカメラである場合を例として説明をする。
本実施形態に係る情報取得システム1の構成例の概略をブロック図として図9に示し、これを参照して本実施形態に係る情報取得システム1の構成について説明をする。図9に示すように、本実施形態に係る情報取得システム1は、情報取得装置100である撮像装置400と、サーバ500とを含む。撮像装置400は、収音機能と撮像機能とを実行できるように構成された情報機器であり、本実施形態では、撮像装置400がカメラである場合を例として説明をする。
本実施形態に係る撮像装置400(情報取得装置100)の構成例の概略を模式図として図10A及び図10Bに示す。図10A及び図10Bでは、略直方体の形状を有する筐体101と、レンズ鏡筒413とを備える撮像装置400が例として示されている。また、図10A及び図10Bは、撮像装置400を側面から見た場合の撮像装置400の内部の構成例の概略を模式的に示している。
本実施形態では、図10A及び図10Bに示すように、ユーザU1が右手で筐体101を把持し、左手でレンズ鏡筒413を把持して撮像装置400を使用する場合を例として説明をする。このとき、撮像装置400において、操作者側(ユーザU1の口U11側)の面が背面P1であると定義する。また、収音対象側の面であり、背面P1に対して略平行な面が正面P2であると定義する。なお、背面P1は、ユーザU1の右手親指U12側(拇指側)の面と表現することもできる。同様に、正面P2は、ユーザU1の右手中指U14側の面又は操作者左手側の面と表現することもできる。また、撮像装置400の上面をユーザU1の右手人差指U13側(食指側)の面と定義し、上面に対向する面を下面と定義する。また、ユーザU1の右手掌側の面を右側面と定義し、右側面に対向する面を左側面と定義する。したがって、図10A及び図10Bに示す模式図は、撮像装置400を左側面側から見た断面を示すと表現できる。
ここで、Y方向は、下面又は上面に対して略直交する方向(下面又は上面の法線方向)であり、X方向は、右側面又は左側面に対して略直交する方向(右側面又は左側面の法線方向)と定義される。また、下面から上面に向かう方向と、右側面から左側面に向かう方向とは、それぞれ、Y+方向と、X+方向と定義される。
撮像装置400(情報取得装置100)は、撮像部410と、画像処理回路420と、表示部480とをさらに備える。
撮像部410は、撮像素子411と、撮像光学系412とを備える。撮像部410は、撮像光学系412を介して撮像素子411の撮像面に結像した像に基づいて、画像データを生成する。撮像光学系412は、レンズ鏡筒413の中に設けられ、撮像素子411の撮像面に像を結像させる。なお、撮像装置400の筐体101におけるレンズ鏡筒413の上側(Y+側)の位置には、対象側マイク122が配置されている。
画像処理回路420は、撮像部410の生成した画像データに対して、各種画像処理を施す。画像処理回路420による画像処理後のデータは、例えば第1の記録部150に記録されたり、第1の通信部140を介して外部に送信されたりする。また、第1の制御部110又は画像処理回路420は、得られた画像データに基づく各種解析を行ってもよい。例えば、撮像装置400の機器姿勢が、画像データが解析されて取得され得る。
表示部480は、表示情報を取得して表示する。表示情報は、撮像部410の取得する画像データ、第1の制御部110の出力する警告等を含む。表示部480は、例えば液晶ディスプレイを含む。図10A及び図10Bに示すように、本実施形態に係る表示部480の表示面は、表示部480のY+側の端部近傍を支点として回転し得る。すなわち、表示部480の背面P1に対する表示面の角度φは可変である。なお、撮像装置400の筐体101における表示部480の表示面の上側(Y+側)の位置には操作者側マイク121が配置されている。さらに、操作者側マイク121の上側の位置には、ファインダ416が配置されている。ファインダ416は、ファインダ表示部414と、ファインダ光学系415とを備える。ファインダ表示部414は、例えば液晶ディスプレイを含む。ファインダ光学系415は、ファインダ表示部414に表示された画像を、ファインダ416を覗き込んだユーザU1の目に結像させる。表示部480は、上述したように、想定された使用状況において、ユーザU1が視認できる位置に配置される。同様に、表示部480の配置や表示面の可動範囲によって、ユーザの使用状況を想定することもできる。
撮像装置400(情報取得装置100)の備える第1の制御部110は、撮像制御部118と、表示制御部119としての機能をさらに備える。撮像制御部118は、撮像部410の動作を制御する。表示制御部119は、表示部480の動作を制御する。表示制御部119は、画像データ、警告等を表示部480に表示させるための表示情報を生成して出力する。
撮像装置400(情報取得装置100)の備える第1の記録部150は、第2の実施形態に係る音声処理テーブル152に記録されている情報のうち、操作音声に係る情報を記録する操作音声処理テーブル152aを備える。
撮像装置400(情報取得装置100)の備える第1の通信部140は、サーバ500との間で通信を行う。ここで通信される情報は、撮像装置400の取得する音声データ、当該音声データに係る補助情報、画像データ等を含む。
なお、第2の実施形態に係るディクテーション部190は、後述するサーバ500が備える。また、第2の実施形態に係る第1の記録部150が記録する音声処理テーブル152と、音声テキスト化辞書153と、フォーマット情報154とは、後述するサーバ500の内部に記録される。
サーバ500は、撮像装置400の取得した音声データを含む各種情報に基づいて、テキストデータやドキュメントを生成する。生成されたテキストデータやドキュメントは、撮像装置400へ送信されてもよいし、サーバ記録部550に記録されてもよい。
サーバ500は、ディクテーション部190と、サーバ通信部540と、サーバ記録部550とを備える。ディクテーション部190は、サーバ通信部540を介して取得する音声データに対して、音声認識やテキスト化の処理を実行する。ディクテーション部190は、サーバ記録部550に記録されている情報を参照して、音声認識やテキスト化の処理を行う。サーバ通信部540は、撮像装置400との間で通信を行う。サーバ記録部550は、上述したように、第2の実施形態に係る第1の記録部150が記録する音声処理テーブル152と、音声テキスト化辞書153と、フォーマット情報154とを記録している。
<機器姿勢に応じた収音特性制御の概要>
ここで、本実施形態に係る撮像装置400の利用シーンと機器姿勢との関係について説明するための模式図を図11A及び図11Bに示す。また、本実施形態に係る撮像装置400の機器姿勢に応じた収音特性制御について説明するための模式図を図12A及び図12Bに示す。以下、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。
ここで、本実施形態に係る撮像装置400の利用シーンと機器姿勢との関係について説明するための模式図を図11A及び図11Bに示す。また、本実施形態に係る撮像装置400の機器姿勢に応じた収音特性制御について説明するための模式図を図12A及び図12Bに示す。以下、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。
このとき、上述したように、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置(必要に応じて表示部480等の視認性も考慮)等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図11A乃至図12Bに示すような機器の使われ方が想定されている場合を説明する。
ユーザU1は、図11Aに示すように立って被写体を撮影したり、図11Bに示すようにしゃがんで(ローアングルで)被写体を撮影したりする。このように、撮影時のユーザU1の姿勢に応じて、操作者側マイク121と、ユーザU1の口U11との相対位置や相対角度は変化する。なお、操作者側マイク121は、図10A及び図10Bを参照して説明したように、本実施形態に係る撮像装置400のユーザU1側に配置される。
例えば、図11Aに示すような利用シーンにおける機器姿勢、すなわちユーザU1に対する撮像装置400の位置及び角度は、図10Aに示すような状態である。ユーザU1は、右手親指U12と右手中指U14とを、それぞれ背面P1と正面P2とに配置し、左手親指U15をレンズ423の左側面側に位置するように配置する。また、撮像を指示する場合には、右手人差指U13をレリーズボタンの位置に配置する。レリーズボタンは、操作部160に含まれ、例えば撮像装置400の上面に配置される。
このように撮像装置400を把持する場合、ユーザU1は、ファインダ表示部414から出射する光線を見るために、ユーザU1の視線E2と、ファインダ416の備えるファインダ光学系415の光軸とが概ね等しくなるようにする。したがって、ユーザU1の口U11は、操作者側マイク121と比較してY−方向に位置する。ユーザU1の発する音声V2と操作者側収音軸108aとの成す角である収音角度θは、図10Aに示すように収音角度θ2となる。
一方で、例えば、図11Aに示すような利用シーンにおける機器姿勢、すなわちユーザU1に対する撮像装置400の位置及び角度は、図10Aに示すような状態である。このとき、ユーザU1は、撮像装置400を口U11よりも下方に位置させる。また、ユーザU1は、ファインダ416ではなく、表示部480の表示面を見るために、ユーザU1の視線E3と、表示部480の表示方向とが概ね等しくなるようにする。ここで、表示部480の角度φは可変である。ユーザU1の発する音声V3と操作者側収音軸108aとの成す角である収音角度θは、図10Aに示すように収音角度θ3となる。
このように、想定された機器の使われ方に適した操作部160や表示部480、マイクの配置となっている。同様に、操作部160や表示部480、マイクの配置によって、ユーザU1による撮像装置400の把持の仕方等を想定しているとも表現できる。想定された持ち方で把持された場合、撮像装置400は、次に説明するような収音特性制御を行う。
そこで、本実施形態に係る情報取得システム1では、図12A及び図12Bに示すように姿勢区分を設定し、操作者側における収音特性制御を行う。操作者側における収音特性制御では、操作者側の収音角度θに対する収音感度が調整される。例えば、図12Aに示す状態では、図10A及び図11Aを参照して上述したように、ユーザU1は、手を身体側へ引いて口U11の近傍で撮像装置400を使用する。本実施形態では、このときの機器姿勢が分類される姿勢区分を第4の姿勢区分とする。例えば、図12Bに示す状態では、図10B及び図11Bを参照して上述したように、ユーザU1は、手を下方へ伸ばして撮像装置400を使用する。本実施形態では、このときの機器姿勢が分類される姿勢区分を第5の姿勢区分とする。
収音特性制御部113は、判定された姿勢区分に応じて収音特性を決定する。ここで決定される収音特性は、操作者側の収音角度θに対する収音感度(収音指向性)と、音声認識に係る有効距離である。
例えば、特定音声抽出部123は、第4の姿勢区分に分類される機器姿勢であると判定された場合、図12Aに示すように、収音角度θ2の方向に操作者側収音範囲105aを設定する。有効距離の値は、例えば、ユーザが撮像装置400を構えた時の操作者側マイク121とユーザの口U11との間の距離に基づく。有効距離の値は、ユーザが表示部480に表示されるライブビュー表示を見ながら構える場合と、ユーザがファインダ表示部414に表示されるライブビュー表示を見ながら構える場合とで異なる値としてもよい。例えば、5〜20cm程度の有効距離が設定され得る。
例えば、特定音声抽出部123は、第5の姿勢区分に分類される機器姿勢であると判定された場合、図12Bに示すように、収音角度θ3の方向に操作者側収音範囲105aを設定する。このとき設定される有効距離の値は、第4の姿勢区分であると判定された場合と比較して大きい。有効距離の値は、例えば、ユーザの腕の長さに基づく。例えば、60〜80cm程度の有効距離が設定され得る。
<情報取得システムの動作>
本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図13に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置100が操作者であるユーザU1によって把持された状態で開始される。なお、以下の説明は、図4に示す第1の実施形態に係る情報取得システム制御処理と比較しながら行う。
本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図13に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置100が操作者であるユーザU1によって把持された状態で開始される。なお、以下の説明は、図4に示す第1の実施形態に係る情報取得システム制御処理と比較しながら行う。
ステップS301乃至ステップS304において、第1の制御部110は、ステップS101乃至ステップS104と同様にして、機器姿勢を判定し、機器姿勢に応じた収音特性を決定する。なお、本実施形態では、機器姿勢が第4の姿勢区分と第5の姿勢区分との何れの姿勢区分に分類されるかが判定される。また、収音特性として、操作者側の収音角度θ(操作者側マイク121からユーザU1の口U11近傍へ向かう方向)に対する収音感度と、操作者側と被写体側との各々の方向における収音範囲とが調整され得る。
ステップS305において、第1の制御部110は、決定した収音特性で収音部120に収音させ、ディクテーション部190に音声データをテキスト化させる。ここで、本実施形態に係る収音処理の一例をフローチャートとして図14に示し、これを参照して情報取得システムの動作について説明をする。なお、収音処理の説明は、図8に示す第2の実施形態に係る収音処理と比較しながら行う。
ステップS401乃至ステップS403において、第1の制御部110は、ステップS201乃至ステップS203と同様にして収音部120に収音させ、音声認識できるか否かを判定する。なお、音声認識できるか否かの判定は、サーバ500の備えるディクテーション部190で行われてもよい。また、ステップS403における警告は、表示部480に表示されて行われる。収音処理は、警告を表示した後にステップS407へ進む。
ステップS404において、第1の制御部110は、音声データをディクテーション部190へ出力する。ディクテーション部190は、音声データをテキスト化する。第1の制御部110は、テキストデータを取得し、表示部480に表示させる。その後、収音処理はステップS405へ進む。
ステップS405及びステップS406において、第1の制御部110は、ステップS204及びステップS205と同様にして、操作音声であるか否かを判定し、操作音声を取得した場合は操作音声に応じた機器制御を行う。
ステップS407において、第1の制御部110は、例えば、ステップS401において収音された音声がユーザU1の音声であった場合等に、指向性を広げてさらに収音させる。なお、本ステップにおける指向性を広げた収音は、操作者側の収音方向と被写体側の収音方向との各々の収音方向に対して収音の感度を高めた収音であったり、各々の収音方向に対する有効距離の設定が長い収音であったりする。これは、ユーザU1が話した後、ユーザU2等の被写体側の音声を取得する可能性を考慮した処理である。
ステップS408乃至ステップS410において、第1の制御部110及びディクテーション部190は、ステップS402乃至ステップS404と同様にして、ステップS407で取得された音声データのテキスト化を行い、テキストデータを取得し、表示部480に表示させる。ステップS409で警告表示をした後は、処理は情報取得システム制御処理のステップS306へ進む。
ステップS411乃至ステップS413において、第1の制御部110は、ステップS207乃至ステップS209と同様にして、収音した音声が会話であるか否かを判定し、会話又は単独文字のタグ付けをして第1の記録部150に記録させる。記録後、収音処理は終了し、情報取得システム制御処理のステップS306へ進む。
ステップS306及びステップS307において、第1の制御部110は、ステップS106及びS107と同様にして、ユーザU1による操作部160の操作を取得した場合には、操作に応じた機器制御を行う。
ステップS308において、第1の制御部110は、例えば操作部160の備えるレリーズボタンの出力する操作信号に基づいて、撮影を指示する撮影操作が行われたか否かを判定する。情報取得システム制御処理は、撮影操作が行われたと判定された場合はステップS309へ進み、判定されなかった場合はステップS310へ進む。
ステップS309において、第1の制御部110は、撮像部410に撮像させて画像データを取得させ、ディクテーション部190に補助データを出力させる。第1の制御部110は、画像データと補助データとを関連付けて記録させる。ここで関連付けて記録される情報(画像ファイル600)の一例を模式図として図15に示す。図15に示すように、画像ファイル600は、ファイル名611と、操作者側音声データ621と、被写体側音声データ622と、画像データ631と、補助データ640とを含む。補助データ640は、収音された日時641と、会話として記録されたテキストデータである会話テキスト642と、単独文字として記録されたテキストデータである単独テキスト643と、撮像又は収音時の操作履歴を示す操作履歴644とを含む。なお、補助データとして、ドキュメント300が用いられてもよい。記録後、情報取得システム制御処理はステップS302へ戻る。
ステップS310において、第1の制御部110は、ステップS110と同様にして、処理を終了するか否かを判定する。
<情報取得システムの利点>
本実施形態に係る情報取得システム1は、第1の実施形態又は第2の実施形態に係る情報取得システム1に加えて、以下の利点を有する。
本実施形態に係る情報取得システム1は、第1の実施形態又は第2の実施形態に係る情報取得システム1に加えて、以下の利点を有する。
本実施形態に係る情報取得システム1は、機器姿勢に応じて操作者側の収音特性を制御する。このため、ユーザは撮影する姿勢が変わっても適切な収音特性で音声データを取得できる。また、本実施形態に係る情報取得システム1では、撮影して得た画像データと、テキスト化された音声データとが関連付けて記録される。なお、画像処理回路420は、テキスト化した会話等の音声を、収音時に撮影された画像データに重畳表示させる画像処理を行ってよい。このように本技術によって得られる情報は、視覚の情報と聴覚の情報とを含むため、ユーザは、撮影時の状況を容易に把握したり、より詳細に思い出したりできる。
また、本実施形態に係る撮像装置400は、会話の音声認識及びテキスト化を外部のサーバ500に実行させる。電力消費が大きい音声処理が外部で行われることで、携帯機器である撮像装置400のバッテリ消費を低減させることができる。一方で、音声によって撮像装置400の操作を指示するための操作音声の認識は、撮像装置400において実行される。これにより、音声操作の機能を損なうことなく、バッテリ消費を低減させることができる。
また、本実施形態に係る撮像装置400は、機器姿勢に応じて適切な収音特性を決定することにより、音声認識の精度を向上させることができる。そのため、音声操作を活用することができる。そのため、ユーザは、どのように起動させればよいか分かりづらい機能であっても、すぐに使用することができる。また、音声操作が活用される場合、特定の操作に特化した専用のボタン等の操作部の数を減らすことができる。これは、携帯機器である情報取得装置100の小型化、軽量化に寄与する。
なお、会話の音声認識をサーバ500で実行させる場合を例として説明したが、これに限定されない。例えば、会話の音声認識及びテキスト化の処理は、撮像や収音の終了後に撮像装置400において行われてもよい。この場合、ユーザは、帰宅後等のバッテリ残量の心配がないタイミングで音声処理を行うことができる。また、テキスト化する音声データを取捨選択できる利点もある。
なお、適切な収音角度や有効距離の設定値は、例えば、ユーザU1の個人差によって変化する。そのため、ユーザU1が身長等を入力して予め収音特性に係る値をユーザ毎に設定できるようにしてもよい。この場合、機器姿勢に応じた収音特性が、より適切に運用され得る。
なお、姿勢区分(機器姿勢)は、表示部480の表示方向に基づいて判定されてもよい。表示部480の表示方向は、例えば、図10A及び図10Bに示すように、ユーザU1の右手親指U12が、表示部480に対して何れの方向に配置されているかに基づいて判定されてもよい。また、表示部480においてライブビュー表示が行われている場合は第4の姿勢区分に分類される機器姿勢であり、表示部480においてライブビュー表示が行われていない場合は第5の姿勢区分に分類される機器姿勢であると判定されてもよい。
[第4の実施形態]
本発明における第4の実施形態について説明する。ここでは、第3の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第3の実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置400について説明した。本実施形態では、撮像装置400(情報取得装置100)を備える内視鏡カメラについて説明をする。
本発明における第4の実施形態について説明する。ここでは、第3の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第3の実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置400について説明した。本実施形態では、撮像装置400(情報取得装置100)を備える内視鏡カメラについて説明をする。
なお、ここでの「姿勢」は、上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。以下は、各要素の配置等に基づいて、把持の仕方、機器と操作者との相対位置及び相対角度等の使われ方が想定されている内視鏡カメラについて説明をする。
<情報取得システムの構成>
本実施形態に係る内視鏡カメラ700の構成例の概略を模式図として図16に示す。本実施形態に係る内視鏡カメラ700は、第3の実施形態に係る撮像装置400(情報取得装置100)を含む。また、図16は、内視鏡カメラ700の把持部を側面から見た場合の内部の構成例の概略を模式的に示している。
本実施形態に係る内視鏡カメラ700の構成例の概略を模式図として図16に示す。本実施形態に係る内視鏡カメラ700は、第3の実施形態に係る撮像装置400(情報取得装置100)を含む。また、図16は、内視鏡カメラ700の把持部を側面から見た場合の内部の構成例の概略を模式的に示している。
本実施形態では、図16に示すように、ユーザU1が左手で筐体101を把持し、内視鏡カメラ700を使用する場合を例として説明をする。
このとき、内視鏡カメラ700において、操作者側(ユーザU1の口U11側)の面が背面P1であると定義する。また、収音対象側の面であり、背面P1に対して略平行な面が正面P2であると定義する。なお、背面P1は、ユーザU1の左手親指U15側(拇指側)の面と表現することもできる。同様に、正面P2は、ユーザU1の左手人差指U16側(食指側)の面又は左手中指U17側の面と表現することもできる。また、内視鏡カメラ700の上面を、ユーザU1が背面P1に設けられたボタン161を操作する時に、ユーザU1の左手親指U15の先端が向く方向にある背面P1と略直交する面と定義し、上面に対向する面を下面と定義する。また、ユーザU1の左手掌側の面を左側面と定義し、右側面に対向する面を左側面と定義する。したがって、図10A及び図10Bに示す模式図は、内視鏡カメラ700を右側面側から見た断面を示すと表現できる。
ここで、Y方向は、下面又は上面に対して略直交する方向(下面又は上面の法線方向)であり、X方向は、右側面又は左側面に対して略直交する方向(右側面又は左側面の法線方向)と定義される。また、下面から上面に向かう方向と、右側面から左側面に向かう方向とは、それぞれ、Y+方向と、X+方向と定義される。
<機器姿勢に応じた収音特性制御について>
ここで、本実施形態に係る内視鏡カメラ700の利用シーンと機器姿勢との関係について説明するための模式図を図17A及び図17Bに示す。なお、本実施形態に係る情報取得システム1は、第3の実施形態に係る表示部480に相当する表示部780を備える。表示部780は、内視鏡カメラ700の備える撮像部410の取得した画像データ、テキスト化された音声データ、警告等を表示する。
ここで、本実施形態に係る内視鏡カメラ700の利用シーンと機器姿勢との関係について説明するための模式図を図17A及び図17Bに示す。なお、本実施形態に係る情報取得システム1は、第3の実施形態に係る表示部480に相当する表示部780を備える。表示部780は、内視鏡カメラ700の備える撮像部410の取得した画像データ、テキスト化された音声データ、警告等を表示する。
図17A及び図17Bに示すように、内視鏡カメラ700の操作者であるユーザU1は、操作音声を発したり、補助者であるユーザU2と会話をして指示を出したりして、ユーザU3に対する処置を行ったりする。このような場合にも、処置中のユーザU1の動きに伴って、内視鏡カメラ700の機器姿勢は変化し得る。
ここで、本実施形態に係る内視鏡カメラ700の機器姿勢に応じた収音特性制御について説明するための模式図を図18A、図18B、図19A及び図19Bに示す。以下、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。本実施形態に係る姿勢区分は、例えばユーザU1の動きに伴い変化し得る機器姿勢に対して設定される。
このとき、上述したように、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置(必要に応じて表示部780等の視認性も考慮)等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図18A乃至図19Bに示すような機器の使われ方が想定されている場合を説明する。
例えば、ユーザU1は、音声を発する場合に、左手の前腕部を身体側に引いて、操作者側マイク121を自身の口U11へ近づけるようにする。したがって、機器姿勢は、例えば図18A及び図19Aに示すような傾き又は位置(機器姿勢)となる。ここで、ユーザU1が発する音声には、例えば、ユーザU2へ指示する音声、所見等の音声メモを入力するための音声、内視鏡カメラ700の操作を指示する操作音声等が含まれる。
また、処置中の内視鏡カメラ700の機器姿勢は、例えば、図18Bに示すように傾けられた状態の時、図19Bに示すように傾きは変化せずに位置のみ変化させられた情報の時もあり得る。
ところが、ユーザU1は、例えば内視鏡カメラ700のような、収音機能が主機能ではない情報取得装置100を使用する場合に、収音のために機器姿勢を変えることができない場合があり得る。例えば、ユーザU1は、処置中に音声操作や音声メモをしたい場合であっても、処置の状況によっては、内視鏡カメラ700の機器姿勢を自由に変えることができない場合がある。また、処置中は、図17A及び図17Bに示すように、ユーザU1が移動する等、ユーザの位置又は向きが変化する場合がある。このような場合、本実施形態に係る情報取得システム1では、機器姿勢は、内視鏡カメラ700の位置情報、方位、方位変化、角速度等に基づいて判定される。また、ユーザU2が移動する等、機器姿勢が変化しない場合であっても、操作者側マイク121又は対象側マイク122と、ユーザU1又はユーザU2との相対位置又は角度が変化し得る。
このように、想定された機器の使われ方に適した操作部160や表示部780、マイクの配置となっている。同様に、操作部160や表示部780、マイクの配置によって、ユーザU1による内視鏡カメラ700の把持の仕方等を想定しているとも表現できる。想定された持ち方で把持された場合、内視鏡カメラ700は、次に説明するような収音特性制御を行う。
そこで、本実施形態に係る内視鏡カメラ700の機器姿勢が分類される姿勢区分は、使用状況に応じて複数用意されていてもよい。使用状況は、処置の種類、ユーザの配置の種類を含む。使用状況は、例えば図17A及び図17Bに示すように、外部カメラ730の取得する画像データが解析されて、取得され得る。処置の種類には、処置中の動作による分類が含まれる。
例えば、ユーザU1が内視鏡カメラ700をユーザU3の体内へ挿入している途中では、ユーザU1は、挿管に係る動作等、決められた手順で作業を実行したり、素早く機械的に作業したりする。このようなユーザU1の動作によって使用状況は取得され得る。ユーザU1は、挿管の動作を、例えば表示部780の表示を注視し、ユーザU2によるユーザU3の状態等の報告を聞きながら行ったりする。このようなことから、本実施形態に係る情報取得システム1では、例えば、挿管に係る動作を検知した時は、ユーザU2の音声を主に収音できるように収音特性が決定される。
例えば、ユーザU1が内視鏡カメラ700を使用して観察等を行っている場合では、ユーザは、ゆっくりとした動きで内視鏡カメラ700を操作する。観察時には、ユーザU1は所見を述べたりし得る。このようなことから、本実施形態に係る情報取得システム1では、例えば、ゆっくりした動作で行われる観察に係る動作を検知した時は、ユーザU1の音声を主に収音できるように収音特性が決定される。
なお、処置が長時間に及ぶ場合等、ユーザU1が疲れたりして、同じ機器姿勢が続かない場合もあり得る。このような場合に、経過時間に応じて、姿勢区分が更新されてもよい。
本実施形態に係る情報取得システム1では、このような内視鏡カメラ700の機器姿勢に応じて、上述したような収音特性制御が行われる。
<情報取得システムの利点>
本実施形態に係る情報取得システム1は、第3の実施形態に係る情報取得システム1に加えて、以下の利点を有する。
本実施形態に係る情報取得システム1は、第3の実施形態に係る情報取得システム1に加えて、以下の利点を有する。
本実施形態に係る情報取得システム1は、機器姿勢に応じた収音特性を、情報取得装置100の仕様状況によって変更する。したがってユーザは、機器の利用シーンに応じた適切な収音が容易にできる。
また、本実施形態に係る情報取得システム1では、テキスト化された収音データを複数のユーザ間で共有できるように表示する。したがって本技術は、特に収音機能が主機能ではない情報機器において、ユーザ間の過不足ないコミュニケーションに寄与する。
また、本実施形態に係る情報取得システム1では、適切な収音特性の下で、音声認識されやすい音声データを取得できる。したがって、本技術は、ユーザの音声メモや他のユーザへの指示等を高精度にテキストデータとして取得できる。
また、取得されたテキストデータは、画像データと関連付けられて記録される。したがってユーザは、観察時の様子を示す画像データと観察時の所見とを確認できる資料を簡易に取得できる。
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
1…情報取得システム、100…情報取得装置、101…筐体、102a…操作者側マイクユニット、102b…対象側マイクユニット、105a…操作者側収音範囲、105b…対象側収音範囲、110…第1の制御部、111…姿勢取得部、112…姿勢判定部、113…収音特性制御部、114…フレーズ判定部、115…トラック入力部、116…ディクテーション制御部、117…記録制御部、118…撮像制御部、119…表示制御部、120…収音部、121…操作者側マイク、122…対象側マイク、123…特定音声抽出部、124…有効距離設定部、125…指向性設定部、130…姿勢センサ、140…第1の通信部、150…第1の記録部、151…姿勢区分情報、152…音声処理テーブル、153…音声テキスト化辞書、154…フォーマット情報、155…取得データ、160…操作部、170…時計部、180…音声再生部、190…ディクテーション部、191…話者識別部、192…テキスト化部、193…ドキュメント化部、200…再生記録機器、210…第2の制御部、211…記録制御部、220…音声再生部、230…入力部、240…第2の通信部、250…第2の記録部、400…撮像装置、410…撮像部、411…撮像素子、412…撮像光学系、420…画像処理回路、480…表示部、500…サーバ、540…サーバ通信部、550…サーバ記録部、700…内視鏡カメラ、730…外部カメラ、780…表示部、P1…背面、P2…正面。
Claims (19)
- 収音機能を実行できる情報取得装置であって、
前記情報取得装置の操作者側の面に配置されて、前記操作者側である第1の収音方向について主に収音できるように構成された操作者側マイクと、
前記操作者側の面と対向する前記情報取得装置の対象側の面に配置されて、前記対象側である第2の収音方向について主に収音できるように構成された対象側マイクと
を含み、各々の収音方向について収音できるように構成された収音部と、
前記情報取得装置の機器姿勢に係る情報を取得できるように構成された姿勢センサと、
前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部と、
判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部と
を備える、情報取得装置。 - 前記機器姿勢を分類した姿勢区分に係る情報と、前記姿勢区分と前記収音特性との対応とが記録されている区分情報記録部をさらに備え、
前記姿勢判定部は、前記機器姿勢として、前記姿勢区分を判定し、
前記収音特性制御部は、前記区分情報記録部を参照して、前記姿勢区分に対応した前記収音特性を決定する、請求項1に記載の情報取得装置。 - 前記収音特性制御部は、前記収音特性として、各々の前記収音方向に対する収音感度を決定する、請求項1に記載の情報取得装置。
- 前記姿勢センサは、前記情報取得装置の傾きを計測し、
前記姿勢判定部は、前記機器姿勢として、前記情報取得装置の傾き方向を判定し、
前記収音特性制御部は、前記操作者側マイクが前記操作者側へ傾く方向の前記傾き方向であると判定された場合に、前記第1の収音方向に対する収音感度を前記第2の収音方向に対する収音感度と比較して高くすると決定する、
請求項3に記載の情報取得装置。 - 前記姿勢センサは、前記情報取得装置の位置変位を計測し、
前記姿勢判定部は、前記機器姿勢として、前記情報取得装置の位置変位を判定し、
前記収音特性制御部は、前記操作者側への前記位置変位であると判定された場合に、前記第1の収音方向に対する収音感度を前記第2の収音方向に対する収音感度と比較して高くすると決定する、
請求項3に記載の情報取得装置。 - 前記収音部は、前記操作者側において前記第1の収音方向を変化させることができるように構成されており、
前記収音特性制御部は、前記収音特性として、前記第1の収音方向を決定する、
請求項1に記載の情報取得装置。 - 前記姿勢センサは、前記情報取得装置の位置情報を計測し、
前記姿勢判定部は、前記機器姿勢として、前記操作者側マイクから前記情報取得装置の操作者の口近傍へ向かう操作者方向を判定し、
前記収音特性制御部は、前記操作者方向を、前記第1の収音方向とすると決定する、
請求項6に記載の情報取得装置。 - 表示部をさらに備え、
前記姿勢判定部は、前記機器姿勢として、前記表示部の表示面が向いている表示方向を判定し、
前記収音特性制御部は、前記表示方向に基づいて、前記第1の収音方向とすると決定する、
請求項6に記載の情報取得装置。 - 前記第1の収音方向と前記第2の収音方向とは略平行である、請求項1に記載の情報取得装置。
- 前記操作者側マイクと前記対象側マイクとは、前記操作者側の面又は前記対象側の面の法線方向に略直交する方向おいて、互いに異なる位置に配置される、請求項9に記載の情報取得装置。
- 操作者の操作結果を取得する操作部をさらに備え、
前記収音特性制御部は、前記機器姿勢に応じた前記収音特性の制御を実行する収音特性制御モードと、前記操作者側マイクと前記対象側マイクとを用いて前記第2の収音方向についてステレオ収音を実行するステレオ収音モードとの何れのモードを実行するか、前記操作部の出力に基づいて決定する、
請求項10に記載の情報取得装置。 - 収音して得られた音情報と、前記音情報が得られた時の前記機器姿勢とを関連付けて記録させる記録制御部をさらに備える、請求項1に記載の情報取得装置。
- 収音した音声に対して音声認識を行う音声認識部をさらに備え、
前記収音特性制御部は、前記音声認識に適した前記収音特性を決定する、
請求項1に記載の情報取得装置。 - 前記収音特性制御部は、前記収音特性として、前記第1の収音方向と前記第2の収音方向との間における音声の遅延時間差を決定し、
前記音声認識部は、前記収音した音声のうち、前記遅延時間差に収まる音声に対して前記音声認識を実行する、
請求項13に記載の情報取得装置。 - 前記音声認識部は、前記第1の収音方向と前記第2の収音方向との間における音声の音量差に基づいて、前記操作者側の音声と対象側の音声とを分離する、
請求項13に記載の情報取得装置。 - 前記情報取得装置の制御を指示する操作音声に係る音響データが記録されている操作音声記録部をさらに備え、
前記音声認識部は、収音した音声から操作音声を分離する、
請求項13に記載の情報取得装置。 - 撮像して第1の画像データを出力する撮像部と、
記録に係る動作を制御する記録制御部と
をさらに備え、
前記音声認識部は、前記音声認識の結果をテキストデータとして出力し、
前記記録制御部は、前記第1の画像データと、前記テキストデータとを関連付けて記録させる、
請求項13に記載の情報取得装置。 - 前記第1の画像データに前記テキストデータの示すテキストを重畳した第2の画像データを生成する画像処理回路をさらに備える、請求項17に記載の情報取得装置。
- 操作者側である第1の収音方向と、前記操作者側と対向する対象側である第2の収音方向との各々の収音方向について収音できるように構成された収音部を備える情報取得装置の制御方法であって、
前記情報取得装置の機器姿勢に係る情報を取得することと、
前記機器姿勢に係る情報に基づいて機器姿勢を判定することと、
前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定することと
を含む、情報取得装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017136974A JP2019022011A (ja) | 2017-07-13 | 2017-07-13 | 情報取得装置及び情報取得装置の制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017136974A JP2019022011A (ja) | 2017-07-13 | 2017-07-13 | 情報取得装置及び情報取得装置の制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019022011A true JP2019022011A (ja) | 2019-02-07 |
Family
ID=65355776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017136974A Pending JP2019022011A (ja) | 2017-07-13 | 2017-07-13 | 情報取得装置及び情報取得装置の制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019022011A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020202680A1 (ja) * | 2019-03-29 | 2020-10-08 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
KR102624336B1 (ko) * | 2023-08-09 | 2024-01-12 | ㈜에이치엔엠 | 자동 온-오프 기능을 가지는 마이크로폰 |
-
2017
- 2017-07-13 JP JP2017136974A patent/JP2019022011A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020202680A1 (ja) * | 2019-03-29 | 2020-10-08 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
KR102624336B1 (ko) * | 2023-08-09 | 2024-01-12 | ㈜에이치엔엠 | 자동 온-오프 기능을 가지는 마이크로폰 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022160406A (ja) | ワードフロー注釈 | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN107004414B (zh) | 信息处理设备、信息处理方法及记录介质 | |
WO2015162949A1 (ja) | 通信システム、制御方法、および記憶媒体 | |
CN109040641B (zh) | 一种视频数据合成方法及装置 | |
US10564712B2 (en) | Information processing device, information processing method, and program | |
JPWO2018150831A1 (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
CN109885162B (zh) | 振动方法及移动终端 | |
KR20190053001A (ko) | 이동이 가능한 전자 장치 및 그 동작 방법 | |
CN112735429B (zh) | 确定歌词时间戳信息的方法和声学模型的训练方法 | |
WO2019105238A1 (zh) | 重构语音信号的方法、终端及计算机存储介质 | |
KR20160001465A (ko) | 글래스 타입 단말기 및 이의 제어방법 | |
JP2011215856A (ja) | 情報処理システム及び情報処理方法 | |
CN109819167A (zh) | 一种图像处理方法、装置和移动终端 | |
WO2019039591A4 (ja) | 読み上げシステム及び読み上げ方法 | |
JP6627775B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2019022011A (ja) | 情報取得装置及び情報取得装置の制御方法 | |
JP2008299135A (ja) | 音声合成装置、音声合成方法、および音声合成用プログラム | |
JP2010122369A (ja) | 音声再生装置 | |
JP2011061461A (ja) | 撮像装置、指向性制御方法及びそのプログラム | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム |