JP2019022011A

JP2019022011A - 情報取得装置及び情報取得装置の制御方法

Info

Publication number: JP2019022011A
Application number: JP2017136974A
Authority: JP
Inventors: 純一内田; Junichi Uchida; 貴大中代; Takahiro Nakadai; 和彦長; Kazuhiko Cho; 野中　修; Osamu Nonaka; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2019-02-07

Abstract

【課題】機器姿勢に応じて適切な収音特性を実現できる情報取得装置を提供する。【解決手段】情報取得装置１００は、収音機能を実行できる情報取得装置１００であって、情報取得装置１００の操作者側の面に配置されて、前記操作者側である第１の収音方向について主に収音できるように構成された操作者側マイク１２１と、前記操作者側の面と対向する情報取得装置１００の対象側の面に配置されて、前記対象側である第２の収音方向について主に収音できるように構成された対象側マイク１２２とを含み、各々の収音方向について収音できるように構成された収音部１２０と、情報取得装置１００の機器姿勢に係る情報を取得できるように構成された姿勢センサ１３０と、前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部１１２と、判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部１１３とを備える。【選択図】図１

Description

本発明は、情報取得装置及び情報取得装置の制御方法に関する。

ユーザは、ＩＣレコーダやカメラ、観察装置、検査装置といった情報機器を用いて、音声データを取得して確認したり、必要に応じて記録したりする。このような情報機器は、音声によって操作されたりする場合もある。また、取得された音声データをテキスト化して、テキストデータを取得することには需要がある。このような中、例えば、情報機器が認識しやすい音声としたり、情報機器の操作を指示する音声と収音対象の音声との切り分けを容易としたりする等、目的に応じた収音特性の実現が要求される。ところが、例えば、収音対象が移動したり、機器姿勢が変化したりして、情報機器と収音対象との相対位置又は方向が変化すると、適切な収音特性は変化し得る。このようなことから、適切な収音特性で収音できる情報機器に係る技術には需要がある。例えば特許文献１には、動画撮影時に、設定された収音対象に対するカメラの機器姿勢の変化量に応じて、収音の指向性を制御するカメラに係る技術が開示されている。

特開２０１２−１２９８５４号公報

本発明は、機器の使い方に応じて適切な収音特性を実現できる情報取得装置及び情報取得装置の制御方法を提供することを目的とする。

本発明の一態様によれば、情報取得装置は、収音機能を実行できる情報取得装置であって、前記情報取得装置の操作者側の面に配置されて、前記操作者側である第１の収音方向について主に収音できるように構成された操作者側マイクと、前記操作者側の面と対向する前記情報取得装置の対象側の面に配置されて、前記対象側である第２の収音方向について主に収音できるように構成された対象側マイクとを含み、各々の収音方向について収音できるように構成された収音部と、前記情報取得装置の機器姿勢に係る情報を取得できるように構成された姿勢センサと、前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部と、判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部とを備える。

本発明の一態様によれば、情報取得装置の制御方法は、操作者側である第１の収音方向と、前記操作者側と対向する対象側である第２の収音方向との各々の収音方向について収音できるように構成された収音部を備える情報取得装置の制御方法であって、前記情報取得装置の機器姿勢に係る情報を取得することと、前記機器姿勢に係る情報に基づいて機器姿勢を判定することと、前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定することとを含む。

本発明によれば、機器の使用状況に応じて適切な収音特性を実現できる情報取得装置及び情報取得装置の制御方法を提供できる。

図１は、第１の実施形態に係る情報取得システムの構成例の概略を示すブロック図である。図２は、第１の実施形態に係る情報取得装置の構成例の概略を示す模式図である。図３Ａは、第１の実施形態に係る情報取得装置の機器姿勢が第１の姿勢区分に分類される場合の収音特性について説明するための図である。図３Ｂは、第１の実施形態に係る情報取得装置の機器姿勢が第２の姿勢区分に分類される場合の収音特性について説明するための図である。図３Ｃは、第１の実施形態に係る情報取得装置の機器姿勢が第３の姿勢区分に分類される場合の収音特性について説明するための図である。図４は、第１の実施形態に係る情報取得装置制御処理の一例を示すフローチャートである。図５は、第１の実施形態の変形例に係る指向性設定部の構成例の概略を示すブロック図である。図６は、第２の実施形態に係る情報取得システムの構成例の概略を示すブロック図である。図７は、第２の実施形態に係るドキュメントの構成の一例を示す模式図である。図８は、第２の実施形態に係る収音処理の一例を示すフローチャートである。図９は、第３の実施形態に係る情報取得システムの構成例の概略を示すブロック図である。図１０Ａは、第３の実施形態に係る撮像装置の機器姿勢が第４の姿勢区分に分類される場合の、撮像装置の構成例の概略を示す模式図である。図１０Ｂは、第３の実施形態に係る撮像装置の機器姿勢が第５の姿勢区分に分類される場合の、撮像装置の構成例の概略を示す模式図である。図１１Ａは、第３の実施形態に係る撮像装置の利用シーンと機器姿勢との関係について説明するための模式図である。図１１Ｂは、第３の実施形態に係る撮像装置の利用シーンと機器姿勢との関係について説明するための模式図である。図１２Ａは、第３の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。図１２Ｂは、第３の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。図１３は、第３の実施形態に係る情報取得システム制御処理の一例を示すフローチャートである。図１４は、第３の実施形態に係る収音処理の一例を示すフローチャートである。図１５は、第３の実施形態に係る画像ファイルの一例を示す模式図である。図１６は、第４の実施形態に係る撮像装置の構成例の概略を示す模式図である。図１７Ａは、第４の実施形態に係る撮像装置の利用シーンと機器姿勢との関係について説明するための模式図である。図１７Ｂは、第４の実施形態に係る撮像装置の利用シーンと機器姿勢との関係について説明するための模式図である。図１８Ａは、第４の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。図１８Ｂは、第４の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。図１９Ａは、第４の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。図１９Ｂは、第４の実施形態に係る撮像装置の機器姿勢に応じた収音特性制御について説明するための模式図である。

［第１の実施形態］
＜情報取得システムの構成＞
本発明の第１の実施形態について図面を参照して説明する。本実施形態に係る情報取得システム１の構成例の概略をブロック図として図１に示す。図１に示すように、本実施形態に係る情報取得システム１は、情報取得装置１００と、再生記録機器２００とを含む。

情報取得装置１００は、音又は音声を収音して音声データを生成する収音機能を有する情報機器である。また、本実施形態に係る情報取得装置１００又は情報取得装置１００の一部は、例えば、ユーザによって把持されて使用される。情報取得装置１００は、例えば、ＩＣレコーダやカメラ、スマートフォン、タブレットＰＣ、観察装置、検査装置等を含む。以下、本実施形態では、情報取得装置１００がＩＣレコーダである場合を例として説明をする。

再生記録機器２００は、情報取得装置１００で生成された音声データを記録、再生、処理できる情報機器である。ここで、音声データは、収音された音、音声以外も含む。再生記録機器２００は、例えば、スマートフォンやパーソナルコンピュータ（ＰＣ）、タブレットＰＣ等を含む。また、再生記録機器２００は、例えばユーザによって入力され音声音データに係る情報を取得できる。以下、本実施形態では、再生記録機器２００がＰＣである場合を例として説明をする。

（情報取得装置について）
本実施形態に係る情報取得装置１００の構成例の概略を模式図として図２に示す。図２では、略直方体の形状を有する筐体１０１を備える情報取得装置１００が例として示されている。また、図２は、情報取得装置１００を側面から見た場合における、情報取得装置１００の内部の構成例の概略を模式的に示している。

本実施形態では、図２に示すように、ユーザＵ１が右手で情報取得装置１００の筐体１０１を把持して使用する場合を例として説明をする。このとき、情報取得装置１００において、操作者側（ユーザＵ１の口Ｕ１１側）の面が背面Ｐ１であると定義する。また、収音対象側の面であり、背面Ｐ１に対して略平行な面が正面Ｐ２であると定義する。なお、背面Ｐ１は、ユーザＵ１の右手親指Ｕ１２側（拇指側）の面と表現することもできる。同様に、正面Ｐ２は、ユーザＵ１の右手人差指Ｕ１３側（食指側）の面と表現することもできる。

ここで、背面Ｐ１又は正面Ｐ２に対して略平行であり、かつ、筐体１０１の長手方向である方向をＹ方向と定義し、背面Ｐ１又は正面Ｐ２に対して略直交する方向（背面Ｐ１又は正面Ｐ２の法線方向）をＺ方向と定義し、Ｙ方向とＺ方向とに対して互いに直交する方向をＸ方向と定義する。また、Ｙ方向が重力方向に対して略平行となる機器姿勢（機器使用時の機器の使い方判定の代表例として「姿勢」という言葉を用いた）である場合に、重力方向と対向する向きをＹ＋方向と定義し、重力方向の向きをＹ−方向と定義する。背面Ｐ１から正面Ｐ２へと向かう方向をＺ＋方向と定義し、正面Ｐ２から背面Ｐ１へと向かう方向をＺ−方向と定義する。Ｘ方向のうち、ユーザＵ１の右手親指Ｕ１２の付け根から先端へと向かう方向をＸ＋方向と定義し、ユーザＵ１の右手親指Ｕ１２の先端から付け根へと向かう方向をＸ−方向と定義する。

図１に示すように、本実施形態に係る情報取得装置１００は、第１の制御部１１０と、収音部１２０と、姿勢センサ１３０と、第１の通信部１４０と、第１の記録部１５０と、操作部１６０と、時計部１７０とを備える。なお、第１の制御部１１０、姿勢センサ１３０、第１の通信部１４０、第１の記録部１５０、時計部１７０といった情報取得装置１００の各部は、例えば図２に示すようにして集積回路１０７に形成される。

第１の制御部１１０は、情報取得装置１００の各部の動作を制御する。また、第１の制御部１１０は、情報取得装置１００の各部の動作に係る判定を実行する。第１の制御部１１０は、姿勢取得部１１１と、収音特性制御部１１３と、フレーズ判定部１１４としての機能を有する。

姿勢取得部１１１は、情報取得装置１００の機器姿勢に係る情報を取得する。姿勢取得部１１１は、ここでの情報取得装置１００を機器としたときに、この機器姿勢に係る情報として、例えば、姿勢センサ１３０の出力を取得する。この「機器」という言葉は、「端末」であったり「製品」、「機械」であったりしてもよい。姿勢取得部１１１は、姿勢判定部１１２としての機能を備える。姿勢センサ１３０から取得する値は、単一の物理量である必要はなく、複数の物理量の組合せであってもよい。例えば、取得される姿勢センサ１３０の出力は、加速度や角速度、方位、気圧等の高度を反映した値等の組合せであってもよい。

姿勢判定部１１２は、機器姿勢に係る上述のような情報に基づいて、情報取得装置１００の機器姿勢を判定する姿勢判定を行う。ここで判定される機器姿勢は、例えば、情報取得装置１００の位置、方位、傾きの程度、傾きの方向、必要に応じて床からの高さや利用者の顔の高さとの差異等を含む。また、姿勢判定部１１２は、機器姿勢として、情報取得装置１００の機器姿勢の変化を判定してもよい。すなわち、姿勢判定部１１２は、使用時の瞬間的な状態で機器姿勢を判定するだけでなく、時間変化や状況等を加味して総合的に機器姿勢を判断してもよい。この判定では、撮像センサ等も流用して、利用者の顔や口の画像位置（撮像された位置で分かる）等、あるいは、像の大きさから判定できる距離等までが考慮されてもよい。また、機器が可動部を持つ場合、その部分の姿勢が判定されてもよい。例えば、マイクの向きが物理的に可動である場合には、その向きが判定されてもよい。また、機器姿勢は、例えば、想定される機器姿勢又は機器姿勢の変化に基づいて分類された姿勢区分であってもよい。すなわち、機器姿勢として、機器姿勢のパターン（姿勢区分）が設定されていてもよい。

ここでの姿勢は、利用者の機器の使い方を判定するための手段であり、機器姿勢と書いた部分は、機器利用時の状況とか、機器利用時の機器の特定の部分の姿勢とか、利用者と機器との相対関係とか位置関係とか、と書き直して表現することも可能である。このような状況を機器姿勢と書いて表現したのは、利用者の一般的な機器利用時の姿勢を特定の状況として仮定しているからであり、利用者が逆立ちしたり寝転がったりして利用した場合のことを無視すると、機器の姿勢で、機器と利用者との相対位置関係が特定しやすい、という理由によるものである。「姿勢」と単純化することによって、装置を簡易に出来るが、設計によっての自由度があり、簡易でない設計が許される場合であれば、「姿勢」以外を考慮してもよい。ただし、機器で簡単に取得できる物理量から制御を切り替えられれば、低コスト化や小型化、省エネ設計ができる。

こうした物理量は、センサが増える程、様々な値が得られるが、ここでは、後述のように、人間工学的な考察を盛り込んで、必要以上の複雑化を防止した。自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を想定することによって、システムを一般化して、システムを低コストで利用しやすくしている。当然、こうした考え方で、機器や装置、端末の操作部や表示部等も、大きさや操作部の検知する力量や操作量が設計され、把持部との関係に基づいて配置され、各々の相対関係がレイアウトされているので、人間工学的な考察を盛り込んだ考え方に有機的に結びついた考え方となっている。

収音特性制御部１１３は、情報取得装置１００における収音特性を制御する。収音特性は、収音範囲（有効距離）及び収音方向（収音指向性）を含む。収音特性制御部１１３は、収音部１２０の収音に係る動作を制御する収音制御部としての機能を備えていてもよい。収音特性制御部１１３は、姿勢判定部１１２の出力する機器姿勢を取得する。収音特性制御部１１３は、取得した機器姿勢に応じた収音特性を決定する。例えば、機器姿勢と、収音特性に係る情報との対応は、予め設定されて、第１の記録部１５０に記録されている。収音特性に係る情報は、収音部１２０の動作に係る各種パラメータを含む。収音特性制御部１１３は、決定した収音特性での収音を実行させるために、収音特性に係る情報を含む制御信号を生成し、収音部１２０へ出力する。

フレーズ判定部１１４は、音声データを収音部１２０から取得し、当該音声データを解析する。フレーズ判定部１１４は、収音された音又は音声の切れ目を検出する。フレーズ判定部１１４は、トラック入力部１１５としての機能を有する。トラック入力部１１５は、検出された音又は音声の切れ目に基づいて、トラック名等を設定する。なお、フレーズ判定部１１４は、後述する特定音声抽出部１２３としての機能を備えていてもよい。

収音部１２０は、収音特性制御部１１３の決定した収音特性の下で、音又は音声を収音する。収音部１２０は、収音した音又は音声に基づいて音声データを生成する。収音部１２０は、複数のマイクを含む。複数のマイクは、それぞれ情報取得装置１００の異なる位置に配置される。以下、本実施形態では、収音部１２０が２つのマイクを含む場合を例として説明をする。収音部１２０は、操作者側マイク１２１と、対象側マイク１２２と、特定音声抽出部１２３とを備える。

操作者側マイク１２１は、操作者であるユーザＵ１の音声を主に収音できるように構成されている。図２に示すように、操作者側マイク１２１は、情報取得装置１００の操作者側の面（背面Ｐ１）に配置される。

図２に示すように、操作者側マイク１２１は、操作者側マイク室１０６ａを備える。操作者側マイク室１０６ａは、Ｚ方向に厚さＺｍ、Ｙ方向に高さＹｍを有する。操作者側マイク１２１は、操作者側マイク室１０６ａの内部に、操作者側マイクユニット１０２ａと、操作者側弾性保持部１０３ａと、複数層フィルタ部１０４ａとを備える。

例えば図２中に実線矢印で示すように、ユーザＵ１が発する音声Ｖ１は、ユーザの口Ｕ１１から情報取得装置１００へ向かって伝播する。音波は、複数層フィルタ部１０４ａを通過して操作者側マイク室１０６ａへ侵入する。ここで、複数層フィルタ部１０４ａに対して略直交する方向を操作者側収音軸１０８ａと定義する。操作者側収音軸１０８ａとユーザＵ１の音声Ｖ１の伝播経路との成す角を収音角度θとする。操作者側マイク室１０６ａへ侵入した後、音波は、複数層フィルタ部１０４ａからマイク深さＺｄだけ離れた位置に配置された操作者側マイクユニット１０２ａへ到達する。

操作者側マイクユニット１０２ａは、音声（音波）を検知する。操作者側マイクユニット１０２ａは、検知した音声（音波）に基づいて音声信号を生成する。ここで、操作者側マイクユニット１０２ａは、例えば音波（圧力波）によって振動する振動板を用いて、検知した音声（音波）を音声信号へと変換する。操作者側マイクユニット１０２ａは、生成した音声信号（操作者側音声信号）を特定音声抽出部１２３へ出力する。

操作者側弾性保持部１０３ａは、操作者側マイクユニット１０２ａ及び筐体１０１と接触しており、操作者側マイクユニット１０２ａを操作者側マイク室１０６ａの内部で保持する。操作者側弾性保持部１０３ａは、弾性を有する。操作者側弾性保持部１０３ａは、コイルや板バネ、多孔質体等の形状によって弾性を有する弾性部材でもよいし、ゴム等の組成によって弾性を有する弾性部材でもよい。

操作者側弾性保持部１０３ａは、筐体１０１から操作者側マイクユニット１０２ａへ、筐体１０１の振動が伝達されることを抑制する。すなわち、操作者側弾性保持部１０３ａは、ショックマウントとして機能する。筐体１０１から操作者側マイクユニット１０２ａへ伝わる振動を低減させることは、収音におけるＳ／Ｎ比を向上させることに寄与する。なお、筐体１０１の振動は、例えばユーザＵ１の指が筐体１０１の表面で擦れた際に生じる振動（こすれ音）を含む。操作者側弾性保持部１０３ａは、振動を減衰させるために、ダンパーとしての機能をさらに有していてもよい。

なお、こすれ音の発生を抑制するために、筐体１０１の表面等、ユーザＵ１の指が触れる面は、指との間の摩擦抵抗が小さいことが好ましい。摩擦抵抗を低くするために、ユーザＵ１の指が触れる面には、塗料が塗布されていてもよい。例えば、艶のあるＵＶコートを筐体１０１の表面に施せば、こすれ音を低減させることができる。この場合、さらに情報取得装置１００の見栄えを良くしたり、傷が付きにくくしたり、紫外線等による劣化を低減したりできる。

複数層フィルタ部１０４ａは、少なくとも１枚のフィルタを備える。複数層フィルタ部１０４ａは、操作者側マイク室１０６ａの内部に、ゴミ等の異物が入り込むことを抑制できるように構成されている。また、複数層フィルタ部１０４ａは、操作者側マイク室１０６ａの内部へ吹き込む風の流量と流速とを低減させることができるように構成されている。

上述したように、操作者側マイク１２１は、情報取得装置１００のユーザＵ１側に配置されている。このため、操作者側マイク１２１と収音時に操作者の口Ｕ１１との間の距離が短い場合がある。このような場合、特にユーザＵ１が破裂音を発声する場合には、ユーザＵ１の発した息が、操作者側マイクユニット１０２ａに対して強く当たり、ポップノイズ（吹かれ）が生じ得る。本実施形態に係る複数層フィルタ部１０４ａは、操作者側マイク室１０６ａの内部へ吹き込む息（風）の流量と流速とを低減させることで、ポップノイズを低減することができる。

また、複数層フィルタ部１０４ａは、操作者側マイク室１０６ａの内部へ吹き込む息（風）の流量と流速とを低減させるため、要求されるマイク深さＺｄの値を小さくできる。したがって、複数層フィルタ部１０４ａは、厚さＺｍを薄くすることができ、情報取得装置１００の薄型化に寄与する。

対象側マイク１２２は、操作者が収音したい対象の音又は音声を主に収音できるように構成されている。図２に示すように、対象側マイク１２２は、情報取得装置１００の対象側の面（正面Ｐ２）に配置される。

対象側マイク１２２は、対象側マイク室１０６ｂを備える。また、対象側マイク１２２は、対象側マイク室１０６ｂの内部に、対象側マイクユニット１０２ｂと、対象側弾性保持部１０３ｂと、フィルタ部１０４ｂとを備える。

対象側マイクユニット１０２ｂは、操作者側マイクユニット１０２ａと同様にして、検知した音声（音波）に基づいて音声信号を生成する。対象側マイクユニット１０２ｂは、生成した音声信号（対象側音声信号）を特定音声抽出部１２３へ出力する。

対象側弾性保持部１０３ｂは、対象側マイクユニット１０２ｂ及び筐体１０１と接触しており、対象側マイクユニット１０２ｂを対象側マイク室１０６ｂの内部で保持する。対象側弾性保持部１０３ｂは、操作者側弾性保持部１０３ａと同様であり、ショックマウントとして機能する。対象側弾性保持部１０３ｂは、筐体１０１から対象側マイクユニット１０２ｂへ振動が伝達することを抑制する。

フィルタ部１０４ｂは、少なくとも１枚のフィルタを備える。フィルタ部１０４ｂは、複数層フィルタ部１０４ａと同様に、対象側マイク室１０６ｂの内部へ、ゴミ等の異物、吹かれの原因となり得る風が入ることを抑制できるように構成されている。ここで、フィルタ部１０４ｂに対して略直交する方向を対象側収音軸１０８ｂと定義する。

特定音声抽出部１２３は、例えば音声信号に対して演算等の処理を行う。特定音声抽出部１２３による処理によって、情報取得装置１００の収音特性は調整される。特定音声抽出部１２３は、操作者側マイクユニット１０２ａ及び対象側マイクユニット１０２ｂの出力する音声信号と、第１の制御部１１０の出力する制御信号とを取得する。特定音声抽出部１２３は、取得した音声信号と制御信号とに基づいて、当該音声信号に対して処理を施す。特定音声抽出部１２３は、処理後の音声データを第１の制御部１１０へ出力する。特定音声抽出部１２３は、有効距離設定部１２４と、指向性設定部１２５とを備える。

有効距離設定部１２４は、収音範囲を変化させる処理を行う。有効距離設定部１２４は、操作者側マイクユニット１０２ａ及び対象側マイクユニット１０２ｂの出力する音声信号に含まれる音声のうち、収音範囲に含まれる音源から発せられた音声を強調して出力する。収音範囲内の音声の抽出は、第１の制御部１１０の出力する制御信号に含まれる有効距離に係る情報に基づく。ここで、有効距離は、操作者側マイクユニット１０２ａ又は対象側マイクユニット１０２ｂから、収音される音声の音源までの距離である。機器姿勢と有効距離との関係は、例えば情報取得装置１００の内部に予め設定されて記録されている。有効距離に係る情報は、遅延時間差の値を含む。遅延時間差は、異なる位置に配置された２つのマイク間における、同一の音声が到達して収音される時間の差である。

指向性設定部１２５は、情報取得装置１００の収音時の指向性を変化させる処理を行う。本実施形態に係る指向性設定部１２５は、第１の制御部１１０の出力する制御信号に基づいて、操作者側マイクユニット１０２ａ及び対象側マイクユニット１０２ｂの出力する音声信号の各々を、増幅したり減衰させたりする。すなわち、本実施形態に係る収音時の指向性の制御は、ユーザＵ１の音声と対象の音声（音）とのうち、何れの音声（音）を優先的に収音するかを決定する収音方向の制御であると表現できる。指向性設定部１２５は、操作者側マイクユニット１０２ａ及び対象側マイクユニット１０２ｂの音波の検知感度を増減させることで、収音方向に対する収音の感度を調整してもよい。

姿勢センサ１３０は、情報取得装置１００の機器姿勢に係る情報を取得する。姿勢センサ１３０は、情報取得装置１００の傾きを検知する角速度センサ（ジャイロセンサ）を含む。姿勢センサ１３０は、情報取得装置１００の向く方向を検知する電子コンパスを含んでいてもよい。なお、姿勢センサ１３０は、単一のセンサである必要はなく、複数のセンサの組合せで構成されていてもよい。例えば、姿勢センサ１３０は、加速度センサやジャイロや方位センサ、気圧センサ等の高度を反映したもの等の組合せで構成されていてもよい。また、本願の課題解決のためには、「姿勢」という言葉そのものから想定される諸元に限るものではなく、最終的にユーザと機器と対象物との相対関係が明らかになれば良いので、撮像部等を併用して、画像の位置や得られた顔画像の大きさ等から距離情報が得られても良い。ここでの姿勢は、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。

第１の通信部１４０は、再生記録機器２００との間で通信を行う。第１の通信部１４０は、情報取得装置１００で得られた音声データ等の各種情報を、再生記録機器２００へ送信する。通信には、例えばＷｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等を利用した無線通信が利用される。また、情報取得装置１００と再生記録機器２００とは、有線によって接続されて互いに通信が行われてもよいし、互いにインターネット等の電気通信回線に接続されてインターネット等の電気通信回線を介して通信が行われてもよい。なお、情報取得装置１００と再生記録機器２００との間におけるデータの移動は、例えばＵＳＢメモリ、ＣＤ−ＲＯＭ等の情報取得システム１の外部にある記録媒体が用いられて、ユーザによって行われてもよい。

第１の記録部１５０には、情報取得装置１００の備える各部で用いられるプログラムや各種パラメータ等の情報が記録される。第１の記録部１５０に記録される情報は、収音特性に係る情報、機器姿勢と収音特性に係る情報との対応を含む。なお、第１の記録部１５０には、情報取得装置１００で取得された情報が記録されてもよい。また、第１の記録部１５０には、情報取得装置１００が取得した記録用の情報、動作時の処理情報といった各種情報が一時的に記録される。第１の記録部１５０は、姿勢区分情報１５１を含む（区分情報記録部）。

姿勢区分情報１５１は、想定される情報取得装置１００の機器姿勢又は機器姿勢の変化に基づいて分類された情報取得装置１００の姿勢区分に係る情報を格納する。この場合、姿勢区分に係る情報として、例えば、設定された各々の姿勢区分が含む機器姿勢の傾きの値（ジャイロセンサの出力値）の範囲が格納される。姿勢区分情報１５１が格納する情報は、姿勢判定部１１２によって姿勢判定の際に参照される。

操作部１６０は、ユーザ操作を取得する。操作部１６０は、ユーザ操作を取得できる要素であればよく、例えばタッチパネル、押しボタン、つまみ、スライダ、ダイヤル、レバー、キーボード等を含む。操作部１６０の備える各要素は、ユーザの想定される情報取得装置１００の把持の仕方に基づいて配置されている。例えば、収音の開始や終了を指示する操作を取得する要素、収音中に操作され得る要素は、ユーザが右手で把持した場合に右手親指Ｕ１２で操作可能な位置に配置される。右手親指Ｕ１２で操作可能な位置は、例えば、背面Ｐ１上であったり、右側面上であったりする。時計部１７０は、日付や時刻に係る情報を生成し、第１の制御部１１０へ出力する。

（再生記録機器について）
再生記録機器２００は、第２の制御部２１０と、音声再生部２２０と、入力部２３０と、第２の通信部２４０と、第２の記録部２５０とを備える。

第２の制御部２１０は、再生記録機器２００の各部の動作を制御する。また、第２の制御部２１０は、再生記録機器２００の各部の動作に係る判定を実行する。第２の制御部２１０は、記録制御部２１１としての機能を備える。

記録制御部２１１は、第２の記録部２５０への各種情報の記録を制御する。また、記録制御部２１１は、情報取得装置１００から取得する音声データと、当該音声データに係る補助情報とを関連付けて第２の記録部２５０に記録させる。ここで、音声データに係る補助情報は、収音時の機器姿勢に係る情報、収音時に適用されていた収音特性に係る情報、収音時の日付や時刻に係る情報を含む。また、音声データに係る補助情報は、再生記録機器２００の備える入力部２３０が取得するユーザの入力情報を含む。

音声再生部２２０は、情報取得装置１００から取得した音声データを再生する。音声再生部２２０は、例えばスピーカである。入力部２３０は、ユーザの入力結果を取得する。入力部２３０は、例えばタッチパネル、キーボード等を含む。例えば再生記録機器２００のユーザは、音声再生部２２０によって再生された音声データを聞き、入力部２３０へ入力してテキストデータを生成させ、音声のテキスト化（音声起こし）を行う。また、再生記録機器２００のユーザは、音声データについて、タイトルや内容の要点等の補足情報を入力することもあり得る。このような場合、テキスト化された音声や補足情報は、上述した音声データに係る補助情報に含まれ得る。第２の通信部２４０は、情報取得装置１００との間で通信を行う。第２の記録部２５０は、再生記録機器２００の備える各部で用いられるプログラムや各種パラメータ、ユーザの入力したテキストデータ等の情報が記録される。また、第２の記録部２５０には、再生記録機器２００が取得した情報、記録用の情報、動作時の処理情報といった各種情報が一時的に記録される。

なお、第１の制御部１１０及び第２の制御部２１０は、Central Processing Unit（ＣＰＵ）、Application Specific Integrated Circuit（ＡＳＩＣ）、又はField Programmable Gate Array（ＦＰＧＡ）等の集積回路等を含む。第１の制御部１１０及び第２の制御部２１０は、それぞれ１つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第１の制御部１１０は、１つの集積回路等で構成されてもよい。また、第１の制御部１１０の備える各部は、それぞれ１つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第１の制御部１１０の備える各部のうち２つ以上が１つの集積回路等で構成されてもよい。また、第２の制御部２１０の備える各部は、それぞれ１つの集積回路等で構成されてもよいし、複数の集積回路等が組み合わされて構成されてもよい。また、第２の制御部２１０の備える各部のうち２つ以上が１つの集積回路等で構成されてもよい。これら集積回路の動作は、例えば第１の記録部１５０又は第２の記録部２５０や集積回路内の記録領域に記録されたプログラムに従って行われる。

なお、第１の記録部１５０、第２の記録部２５０又はこれらの備える各要素は、例えばフラッシュメモリのような不揮発性メモリであるが、Static Random Access Memory（ＳＲＡＭ）やDynamic Random Access Memory（ＤＲＡＭ）のような揮発性メモリをさらに有していてもよい。また、第１の記録部１５０又はこれらの備える各要素と、第２の記録部２５０又はこれらの備える各要素とは、それぞれ１つのメモリ等で構成されてもよいし、複数のメモリ等が組み合わされて構成されてもよい。また、情報取得システム１の外部にあるデータサーバ等を、そのメモリの一部として利用してもよい。

＜機器姿勢に応じた収音特性制御の概要＞
本実施形態に係る情報取得装置１００では、情報取得装置１００の傾きに係る機器姿勢が分類される姿勢区分として、例えば、次のような姿勢区分が設定されているとする。第１の姿勢区分は、情報取得装置１００の操作者側マイク１２１がユーザＵ１に近づく方向に傾いた状態の機器姿勢を含む。第２の姿勢区分は、情報取得装置１００の操作者側マイク１２１がユーザＵ１から離れる方向に傾いた状態の機器姿勢を含む。第３の姿勢区分は、第１の姿勢区分及び第２の姿勢区分に分類されない状態の機器姿勢を含む。

ここで、本実施形態に係る情報取得装置１００の機器姿勢に応じた収音特性制御について説明するための模式図を図３Ａ、図３Ｂ及び図３Ｃに示し、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。図３Ａ、図３Ｂ及び図３Ｃには、ユーザＵ１側に配置されて、主にユーザＵ１の音声を収音できるように構成されている操作者側マイク１２１の操作者側収音範囲１０５ａと、ユーザＵ２側（対象側）に配置されて、主にユーザＵ２の音声を収音できるように構成されている対象側マイク１２２の対象側収音範囲１０５ｂとの一例が破線で模式的に示されている。

図３Ａ、図３Ｂ及び図３Ｃに示す模式図には、ユーザＵ１とユーザＵ２とが対面した状況で会話をしている様子が、それぞれ示している。ユーザＵ１は、本実施形態に係る情報取得装置１００を右手に持ってユーザＵ２との会話を収音している。以下の説明では、本実施形態に係る情報取得装置１００の収音対象は、ユーザＵ１とユーザＵ２との各々が発する音声である場合を例とする。

ユーザＵ１が情報取得装置１００を手に持って使用する場合には、情報取得装置１００の機器姿勢によって、情報取得装置１００とユーザＵ１又はユーザＵ２との相対位置又は相対角度は異なる。図３Ａには、情報取得装置１００の機器姿勢が、上述した第３の姿勢区分に分類される場合の収音の様子が示されている。図３Ｂには、情報取得装置１００の機器姿勢が、上述した第１の姿勢区分に分類される場合の収音の様子が示されている。図３Ｃには、情報取得装置１００の機器姿勢が、上述した第２の姿勢区分に分類される場合の収音の様子が示されている。

このとき、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置（必要に応じて表示部等の視認性も考慮）等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図３Ａ、図３Ｂ及び図３Ｃに示すような機器の使われ方が想定されている場合を説明する。このとき、ユーザＵ１は、ＩＣレコーダ（情報取得装置１００）を右手で把持している。ユーザＵ１は、右手親指Ｕ１２で背面Ｐ１や右側面上に配置された操作部１６０の要素を操作する。情報取得装置１００が表示部を備える場合には、例えば表示部は、背面Ｐ１上に配置される。ユーザＵ１は、必要に応じて表示部の表示を見ながら収音できるように情報取得装置１００を把持する。ユーザＵ１は、操作者側マイク１２１が自身に向くように情報取得装置１００を把持する。また、ユーザＵ１は、対象側マイク１２２が収音対象に向くように情報取得装置１００を把持する。このように、想定された機器の使われ方に適した操作部１６０や表示部、マイクの配置となっている。これは、操作部１６０や表示部、マイクの配置によって、想定しているように、ユーザＵ１に情報取得装置１００を把持させる手法であるとも表現できる。想定された持ち方で把持された情報取得装置１００は、次に説明するような収音特性制御を行う。

例えば、ユーザＵ１は、自身の音声とユーザＵ２の音声とを同時に収音したい場合、背景の音や音声を収音したい場合、自身とユーザＵ２との何れも音声を発していない場合等に、図３Ａに示す機器姿勢で収音する。このような場合、ユーザＵ１は、自身の音声及びユーザＵ２の音声が収音され得るように、情報取得装置１００の操作者側マイク１２１を自身に向け、対象側マイク１２２をユーザＵ２へ向ける。すなわち、情報取得装置１００の機器姿勢は、図３Ａに示すように、傾きが少ない第３の姿勢区分に分類される状態となる。

例えば、ユーザＵ１は、自身が話している場合等、自身の音声を収音したい場合には、情報取得装置１００を把持している右手を身体側へ引き、操作者側マイク１２１を自身の口Ｕ１１へ近づける。すなわち、情報取得装置１００の機器姿勢は、図３Ｂに示すように、ユーザＵ１へ傾けられた第１の姿勢区分に分類される状態となる。

例えば、ユーザＵ１は、ユーザＵ２の音声を収音したい場合等、対象の音声を収音したい場合には、情報取得装置１００を把持している右手をユーザＵ２へ向けて伸ばし、対象側マイク１２２をユーザＵ２へ近づける。すなわち、情報取得装置１００の機器姿勢は、図３Ｃに示すように、ユーザＵ２へ傾けられた第２の姿勢区分に分類される状態となる。

このように、情報取得装置１００の機器姿勢は、ユーザの動作に伴い変化する。そのため、機器姿勢によっては、適切な収音特性の下での収音が実現しない可能性がある。そこで、姿勢判定部１１２は、機器姿勢を判定し、また、姿勢区分情報１５１を参照して姿勢区分を判定する。収音特性制御部１１３は、判定結果に応じて姿勢区分情報１５１を参照し、機器姿勢に応じた収音特性を決定する。ここで決定される収音特性は、収音の方向（収音指向性）と、収音の有効距離である。収音特性制御部１１３は、決定した収音特性を特定音声抽出部１２３に設定させる。また、収音特性制御部１１３は、決定した収音特性の下で収音部１２０に収音させる。

例えば、特定音声抽出部１２３は、第３の姿勢区分に分類される機器姿勢であると判定された場合、図３Ａに示すように、ユーザＵ１の音声を収音できるように操作者側収音範囲１０５ａを設定し、同時に、ユーザＵ２の音声を収音できるように対象側収音範囲１０５ｂを設定する。すなわち、第３の姿勢区分に分類される機器姿勢の時、収音部１２０は、操作者であるユーザＵ１と収音の対象であるユーザＵ２との両方の音声に対して収音の感度が高い状態となる。

例えば、特定音声抽出部１２３は、第１の姿勢区分に分類される機器姿勢であると判定された場合、図３Ｂに示すように、ユーザＵ１の音声を収音できるように操作者側収音範囲１０５ａを設定する。一方で、ユーザＵ２側の音声は収音されにくくなるように対象側収音範囲１０５ｂを設定する。すなわち、第１の姿勢区分に分類される機器姿勢の時、収音部１２０は、操作者であるユーザＵ１の音声に対して収音の感度が高い状態となる。

例えば、特定音声抽出部１２３は、第２の姿勢区分に分類される機器姿勢であると判定された場合、図３Ｃに示すように、ユーザＵ２の音声を収音できるように対象側収音範囲１０５ｂを設定する。一方で、ユーザＵ１側の音声は収音されにくくなるように操作者側収音範囲１０５ａを設定する。すなわち、第２の姿勢区分に分類される機器姿勢の時、収音部１２０は、収音の対象であるユーザＵ２の音声に対して収音の感度が高い状態となる。

このように、本実施形態に係る情報取得装置１００は、ユーザの動作に伴って生じた機器姿勢を判定し、機器姿勢が変化しても適切な収音ができるように機器姿勢に応じた収音特性を決定する。特にＩＣレコーダ等では、収音して記録した後に、音声を確認したり、テキスト化したりする場合がある。そのため、機器姿勢に応じて適切な収音ができる技術には需要がある。ここでも、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。

＜情報取得システムの動作＞
ここで、本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図４に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置１００が操作者であるユーザＵ１によって把持された状態で開始される。

ステップＳ１０１において、第１の制御部１１０は、例えばユーザ操作に応じた操作部１６０の出力に基づいて、機器姿勢情報の初期化を行う。このとき、第１の制御部１１０は、姿勢センサ１３０の出力を初期状態の機器姿勢情報として取得する。

ステップＳ１０２において、第１の制御部１１０は、情報取得装置１００の機器姿勢を判定する。機器姿勢の判定は、姿勢センサ１３０の出力と初期状態の機器姿勢情報とに基づいて行われる。なお、姿勢センサ１３０の出力が、重力方向との傾きである場合等、初期化が不要な場合もあり得る。この場合には、ステップＳ１０１は行われなくてもよく、本ステップでは姿勢センサ１３０の出力に基づいて、機器姿勢の判定が行われればよい。

ステップＳ１０３において、第１の制御部１１０は、機器姿勢の判定結果に基づいて、機器姿勢が変化したか否かの判定を行う。情報取得システム制御処理は、機器姿勢が変化したと判定された場合はステップＳ１０４へ進み、判定されなかった場合はステップＳ１０５へ進む。

ステップＳ１０４において、第１の制御部１１０は、機器姿勢が変化したと判定された状態であることから、収音特性を、現在の機器姿勢（姿勢区分）に応じた収音特性へと変更する。その後、情報取得システム制御処理は、ステップＳ１０５へ進む。

ステップＳ１０５において、第１の制御部１１０は、収音処理を実行する。すなわち、第１の制御部１１０は、機器姿勢に応じた収音特性の下で、収音部１２０に収音を実行させる。

ステップＳ１０６において、第１の制御部１１０は、操作部１６０の出力に基づいて、ユーザＵ１による情報取得装置１００の操作の有無を判定する。情報取得システム制御処理は、操作部１６０がユーザＵ１の操作を検知したと判定された場合はステップＳ１０７へ進み、判定されなかった場合はステップＳ１０８へ進む。

ステップＳ１０７において、第１の制御部１１０は、操作部１６０の検出したユーザ操作の結果に基づいて、情報取得装置１００の各部の設定等を調整する。例えばユーザＵ１は、収音特性の設定を調節したり、録音開始や録音終了の操作を行ったりする。

ステップＳ１０８において、第１の制御部１１０は、例えばユーザ操作に応じた操作部１６０の出力に基づいて、録音開始又は録音継続するか否かの判定を行う。情報取得システム制御処理は、録音開始又は録音継続すると判定された場合はステップＳ１０９へ進み、判定されなかった場合はステップＳ１１０へ進む。

ステップＳ１０９において、第１の制御部１１０は、音声データと補助データとを関連付ける。また、第１の制御部１１０は、関連付けされた音声データと補助データとを、第１の通信部１４０に再生記録機器２００へ送信させ、再生記録機器２００に記録させる。ここで、補助データは、例えば収音時の機器姿勢に係る情報、収音特性に係る情報等を含む。その後、情報取得システム制御処理は、ステップＳ１０２へ戻る。

ステップＳ１１０において、第１の制御部１１０は、例えばユーザ操作に応じた操作部１６０の出力に基づいて、情報取得システム制御処理を終了するか否かの判定を行う。情報取得システム制御処理は、終了すると判定されなかった場合はステップＳ１０２へ戻り、ステップＳ１０２乃至ステップＳ１１０の処理を繰り返す。情報取得システム制御処理は、終了すると判定された場合は、ステップＳ１０９と同様にして音声データを記録して処理を終了する。

再生記録機器２００は、上述のようにして、通信を介して音声データを取得する。第２の制御部２１０は、取得した音声データを第２の記録部２５０に記録する。音声再生部２２０は、例えば音声データを第２の記録部２５０から読み出し、音声データを再生する。

ここで、ユーザは、適切な収音環境で記録された音声データを聞きながら、音声データをテキスト化できる。このとき、入力部２３０は、ユーザのテキスト入力を取得して、第２の記録部２５０へ出力する。第２の記録部２５０では、音声データと、当該音声データがテキスト化されたテキストデータとが関連付けられて記録される。

なお、ステップＳ１０９において、第１の制御部１１０は、関連付けされた音声データと補助データとを、第１の記録部１５０に記録させてもよい。

＜情報取得システムの利点＞
本実施形態に係る情報取得装置１００は、機器姿勢に応じて収音特性を決定し、決定した収音特性の下で収音する。したがって、ユーザは情報取得装置１００を使用すれば、機器姿勢が変化する度に収音特性を随時調整する手間なく、適切な収音環境で収音された音声データを取得できる。そのため、本実施形態に係る情報取得装置１００を使用すれば、ユーザは、聞き取りやすい音質で収音された会話等の音声データを容易に取得できる。

また、聞き取りやすい音質の音声データは、テキスト化に適した音声データであるとも表現できる。ユーザは、本実施形態に係る情報取得装置１００を使用すれば、テキスト化に適した音声データを容易に取得でき、音声データをテキスト化する作業に係るトランスクライバー（ユーザ）の負担を軽減できる。同様に、情報取得装置１００は、音声認識に適した収音特性で収音させることもできる。すなわち、本技術は、音声操作や音声データのテキスト化における音声の認識精度を向上させることもできる。

本実施形態に係る情報取得装置１００は、音声データと、補助データとを関連付けて記録する。したがって、ユーザは、収音後に音声処理を施して、聞き取りやすい音質とした音声データを取得することもできる。

本実施形態に係る情報取得装置１００は、姿勢センサ１３０の出力に基づいて機器姿勢を取得する。すなわち、情報取得装置１００は、例えばマイク間における音量差や収音の時間差（遅延時間差）等に基づいて機器姿勢を演算しなくてもよい。したがって、本実施形態に係る情報取得装置１００は、収音特性制御に係る計算コスト低減することができる。そのため、本技術は、小型化が要求される携帯機器での機器姿勢に応じた収音特性制御において、高負荷の演算に伴う発熱で生じ得るノイズを抑制したり、バッテリ消費を低減したりできる。

＜収音特性制御の第１の変形例＞
第１の実施形態では、操作者側マイク１２１と対象側マイク１２２との収音の感度が調整されて収音方向を制御する収音特性制御について説明をしたが、これに限らない。例えば、ステレオマイクで行われるような指向性制御が適用されて、操作者側と対象側との各々の収音方向の感度が調整されてもよい。ここで、本変形例に係る指向性設定部１２５の構成の一例をブロック図として図５に示す。図５を参照して、指向性設定部１２５における処理の一例を説明する。

図５に示すように、指向性設定部１２５は、ＡＤ変換器２０と、加算・乗算器３０と、出力端４０とを備える。また、図５には、指向性設定部１２５に加えて、操作者側マイクユニット１０２ａの出力端１１と、対象側マイクユニット１０２ｂの出力端１２と、第１の制御部１１０の出力端１３とが併せて示されている。

ＡＤ変換器２０は、操作者側ＡＤ変換器２１と、対象側ＡＤ変換器２２とを備える。操作者側ＡＤ変換器２１の入力端は、操作者側マイクユニット１０２ａの出力端１１と接続されている。また、操作者側ＡＤ変換器２１の出力端は、加算・乗算器３０と接続されている。操作者側ＡＤ変換器２１は、操作者側音声信号を取得し、デジタル信号化する。操作者側ＡＤ変換器２１は、デジタル化された操作者側音声信号を加算・乗算器３０へ出力する。対象側ＡＤ変換器２２の入力端は、対象側マイクユニット１０２ｂの出力端１２と接続されている。また、対象側ＡＤ変換器２２の出力端は、加算・乗算器３０と接続されている。対象側ＡＤ変換器２２は、対象側音声信号を取得し、デジタル信号化する。対象側ＡＤ変換器２２は、デジタル化された対象側音声信号を加算・乗算器３０へ出力する。

加算・乗算器３０は、加算器３１と、乗算器３２と、加算器３３と、加算器３４と、乗算器３５と、加算器３６とを備える。

加算器３１のマイナス側入力端は、操作者側ＡＤ変換器２１の出力端と接続される。加算器３１のプラス側入力端は、対象側ＡＤ変換器２２の出力端と接続される。すなわち、加算器３１は、対象側音声信号から操作者側音声信号を減算した差分を算出する。加算器３１の出力端は、乗算器３２の入力端に接続される。乗算器３２の制御端は、第１の制御部１１０の出力端１３に接続される。すなわち、乗算器３２は、第１の制御部１１０の出力するゲインの値に応じて、操作者側音声信号と対象側音声信号との差分を増幅したり減衰させたりする。加算器３３の入力端は、操作者側ＡＤ変換器２１の出力端と、乗算器３２の出力端と接続される。すなわち、加算器３３は、操作者側音声信号に乗算器３２の出力を加算した音声信号を出力する。

加算器３４のマイナス側入力端は、対象側ＡＤ変換器２２の出力端と接続される。加算器３４のプラス側入力端は、操作者側ＡＤ変換器２１の出力端と接続される。すなわち、加算器３４は、操作者側音声信号から対象側音声信号を減算した差分を算出する。加算器３４の出力端は、乗算器３５の入力端に接続される。乗算器３５の制御端は、第１の制御部１１０の出力端１３に接続される。すなわち、乗算器３５は、第１の制御部１１０の出力するゲインの値に応じて、操作者側音声信号と対象側音声信号との差分を増幅したり減衰させたりする。加算器３６の入力端は、対象側ＡＤ変換器２２の出力端と、乗算器３５の出力端と接続される。すなわち、加算器３６は、対象側音声信号に乗算器３５の出力を加算した音声信号を出力する。

指向性設定部１２５の出力端４０には、加算器３３の出力端と、加算器３６の出力端とが接続され、処理後の操作者側音声信号と対象側音声信号とがそれぞれ第１の通信部１４０へ出力される。また、指向性設定部１２５の出力端４０には、操作者側ＡＤ変換器２１の出力端と、対象側ＡＤ変換器２２の出力端とがさらに接続され、外部でこれらの出力を確認できる。

このように収音部１２０は、収音した複数の音声信号のバランスを制御する。これにより、収音部１２０は、操作者側と対象側との収音感度を調整して、収音方向を変えることができる。

加算器３１及び加算器３４で算出される差分は、配置される位置が異なる２つのマイクの間における音の差異である。例えば、この差異を強調することにより、操作者側音声信号と対象側音声信号との何れかを強調することができる。したがって、乗算器３２又は乗算器３５におけるゲインを調整することで、何れの音声に対して感度を高めた収音とするかを制御できる。

なお、本実施形態に係る２つのマイクは、情報取得装置１００において、互いに対向する面にそれぞれ配置されている。このため、２つのマイクの間における音の差異には、音の遅延により生じる差異が含まれる。そこで、指向性設定部１２５は、２つのマイクの間における遅延時間差を考慮するために、遅延回路が含まれていてもよい。なお、遅延時間差は、収音された音声から取得することもできる。

＜収音特性制御の第２の変形例＞
第１の実施形態では、操作者側マイク１２１と対象側マイク１２２との２つのマイクを備え、操作者側と対象側との何れの収音方向に対する収音感度を調整するかを決定する収音特性制御を行う情報取得装置１００について説明したが、これに限らない。情報取得装置１００の備えるマイクは、２つ以上の複数であってもよい。例えば、操作者側マイク１２１及び対象側マイク１２２の少なくとも一方が、一対のＹ方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側における収音角度θ（収音指向性）も制御され得る。すなわち、操作者側における収音角度θに対する収音感度が機器姿勢に応じて調整される収音特性制御がさらに行われてもよい。同様に、操作者側マイク１２１及び対象側マイク１２２の少なくとも一方が、一対のＸ方向に並ぶステレオマイクであってもよい。この場合、機器姿勢に応じて、操作者側又は対象側におけるＸ方向の収音角度（収音指向性）も制御され得る。これらは、図５を参照して説明したような収音特性制御が、操作者側に配置される一対のステレオマイクの出力に対して行われれば実現できる。このような構成であれば、機器姿勢の変化に応じて、操作者側か対象側かを制御する収音特性制御に加えて、操作者側と対象側との各々における収音角度をさらに制御して、特定の方向にフォーカスした音声を収音する収音特性制御ができる。

また、情報取得装置１００は、機器姿勢に対応した収音特性制御が行われずにステレオ収音するステレオ収音モードと、機器姿勢に応じて収音特性制御が行われて、収音方向等が調整される収音特性制御モードとを備えていてもよい。この場合、第１の制御部１１０は、例えば操作部１６０の取得するユーザの操作結果に基づいて、実行されるモードを切り替えるモード制御部としての機能をさらに備えていてもよい。

なお、第１の実施形態又は収音特性制御の第１の変形例における操作者側マイク１２１と対象側マイク１２２とは、一体となった１つのマイクであってもよい。この場合、例えば、双極型の指向性を有するマイクが使用されればよい。また、同様に、収音特性制御の第２の変形例における一対のステレオマイクが、１つのマイクで構成されていてもよい。

また、操作者側マイク１２１と、対象側マイク１２２との２つのマイクを備える情報取得装置において、これら２つのマイクは、Ｘ方向及びＺ方向のそれぞれの方向に互いに異なる位置に配置されていてもよい。この場合、Ｚ方向の位置の差から、上述の操作者側と対象側との収音方向の制御が実現し、Ｘ方向の位置の差から、上述のステレオ収音が実現する。同様に、２つのマイクが、Ｙ方向及びＺ方向のそれぞれの方向に互いに異なる位置に配置されて、縦ステレオでのステレオ収音が行われてもよい。このような構成によれば、２つのマイクによって、収音方向と、各々の収音方向に対する収音角度θとに対する収音の感度を制御する収音特性制御が実現する。

＜収音特性制御の第３の変形例＞
収音特性制御部１１３は、遅延時間差を取得してもよい。ここで、遅延時間差は、同一の音声が、操作者側マイクユニット１０２ａで収音される時刻と、対象側マイクユニット１０２ｂで収音される時刻との間の時間差である。操作者側マイクユニット１０２ａと、対象側マイクユニット１０２ｂとの位置が固定されていれば、とある値の遅延時間差が生じる音源は、操作者側マイクユニット１０２ａと、対象側マイクユニット１０２ｂとの位置を焦点に持ち、操作者側マイクユニット１０２ａと、対象側マイクユニット１０２ｂとを結ぶ線分上に頂点を持つ双曲線上に位置することになる。このように、情報取得装置１００は、設定された遅延時間差を有する音を収音すれば、指向性のある収音ができる。

例えば、各々の機器姿勢における情報取得装置１００とユーザＵ１又は収音対象との相対位置が予めパターン化されて、情報取得装置１００の内部に記録されているとする。この場合、収音の機器姿勢に応じた遅延時間差が決定されれば、機器姿勢に応じて特定の指向性を持たせて収音することができる。収音特性制御部１１３は、取得した遅延時間差等、有効距離に係る情報を、収音部１２０へ出力する。

＜情報取得装置の構成に係る変形例＞
上述の実施形態及び変形例において、音声信号の処理によって収音特性制御が実現される情報取得装置１００について説明をしたが、これに限らない。収音特性制御は、マイクの配置される向きが機械的に調整されて行われてもよい。すなわち、機器姿勢に応じてマイクの方向を駆動させるマイク方向制御が行われる情報取得装置１００であっても、同様の効果が得られ得る。

上述の実施形態及び変形例において、情報取得装置１００と再生記録機器２００とを含む情報取得システム１について説明をしたが、これに限らない。例えば、情報取得装置１００と再生記録機器２００とが一体となった構成の情報取得装置１００であってもよい。この場合、情報取得装置１００は、音声再生部をさらに備え、第１の記録部１５０が収音した音声データを記録すればよい。一方で、情報取得装置１００は、操作者側マイク１２１と、対象側マイク１２２と、姿勢センサ１３０と、第１の通信部１４０とを備える収音機器であってもよい。この場合、収音に係る制御、ユーザの操作結果の取得等が再生記録機器２００によって行われる等、情報取得装置１００の構成及び機能の一部は、再生記録機器２００によって行われればよい。このように、情報取得システム１において、情報取得装置１００と再生記録機器２００との構成及び機能は組み合わせたり、分離したりすることができ得る。

なお、情報取得装置１００の傾きは、姿勢センサ１３０として加速度センサが用いられて、位置変位の方向に基づいて検知されてもよい。また、姿勢センサ１３０は撮像部を備えていてもよい。この場合、姿勢判定部１１２は、当該撮像部によって撮像された後に画像処理が施された画像に基づいて、情報取得装置１００の機器姿勢を判定する。ここでの画像処理は、例えばエッジ検出等の画像処理である。また、姿勢センサ１３０は、気圧を計測できる圧力センサや温度センサ、輝度センサ等を備えて、特定の周囲環境に応じた機器姿勢に係る情報を取得してもよい。

上述の実施形態及び変形例において、機器姿勢に係る情報は、姿勢センサ１３０によって計測されて、姿勢取得部１１１によって取得されるとした場合を例として説明をしたが、これに限らない。例えば、機器姿勢に係る情報は、情報取得装置１００の外部に設けられたセンサによって取得されてもよい。例えば、外部から情報取得装置１００を撮影する外部カメラが用いられてもよい。この場合、外部カメラが取得した画像を取得して解析することによって、機器姿勢に係る情報が取得され得る。

なお、機器姿勢に応じて収音特性を制御する情報取得装置１００において、さらに、音声を検知した方向に指向性を変化させる制御を行うことも可能である。また、情報取得装置１００が加速度センサを備える場合には、機器姿勢の変化に応じて収音特性が制御されてもよい。ユーザは、とっさに収音したい対象を認識した時、急激に機器姿勢を変化させ得る。例えば、機器姿勢が急激に変化した場合には、収音の指向性を広げたり、有効距離を伸ばしたりする制御が行われればよい。また、情報取得装置１００は、さらに温度センサを備えていてもよい。この場合、機器姿勢に応じた収音特性制御に加えて、寒いからユーザの音声が小さい可能性があり、収音の有効距離を伸ばすといった収音特性制御もできる。

なお、上述の実施形態及び変形例において、ユーザＵ１とユーザＵ２との会話を収音する場合を例として説明をしたが、対象側の収音対象は人の音声に限らない。例えば、ユーザは、情報取得装置１００を使用して鳥の鳴き声等を収音しながら、自身の音声メモを収音させる場合もあり得る。

［第２の実施形態］
本発明における第２の実施形態について説明する。ここでは、第１の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第１の実施形態では、機器姿勢に応じた収音特性制御を行い、聞き易い音声での収音ができる情報取得システム１について説明をした。一般に、音声認識による音声データのテキスト化には需要がある。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる情報取得システム１について説明をする。

なお、ここでの「姿勢」は、第１の実施形態において上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。

＜情報取得システムの構成＞
本実施形態に係る情報取得システム１の構成例の概略をブロック図として図６に示し、これを参照して本実施形態に係る情報取得システム１の構成について説明をする。図６に示すように、本実施形態に係る情報取得システム１は、情報取得装置１００を含む。本実施形態に係る情報取得装置１００は、第１の実施形態と同様に、例えばＩＣレコーダである。

本実施形態に係る有効距離設定部１２４は、収音特性制御部１１３の出力する制御信号に基づいて、有効距離の設定を行う。第１の実施形態では、有効距離内の音声を強調して出力する有効距離設定部１２４について説明したが、本実施形態に係る有効距離設定部１２４は、有効距離内の音声を特定又は抽出する。有効距離内の音声は、例えば２つのマイク間での遅延時間差が所定の値に収まる音声である。なお、ここで抽出される有効距離内の音声は、音声認識が行われる対象となる音声である。

本実施形態に係る第１の記録部１５０には、ディクテーション部１９０の備える各部で用いられるプログラムや各種パラメータがさらに記録される。また、第１の記録部１５０には、ディクテーション部１９０が取得又は生成した情報、ディクテーション部１９０の動作時の処理情報といった各種情報が一時的にさらに記録される。本実施形態に係る第１の記録部１５０は、音声処理テーブル１５２と、音声テキスト化辞書１５３と、フォーマット情報１５４と、取得データ１５５とをさらに記録する。

音声処理テーブル１５２には、例えば、収音した音声と比較するための音響モデルが記録されている。また、音声処理テーブル１５２には、テキストデータと、当該テキストデータに対応する音声データとの対応も記録されている。音声処理テーブル１５２には、情報取得システム１を音声によって操作するための操作音声に係る音響モデルと、当該操作音声に対応する制御信号及びテキストデータとがさらに記録されている。なお、音声処理テーブル１５２には、予めユーザ毎の音声データが収集されて記録されていてもよい。

音声テキスト化辞書１５３には、単語や、単語の係り及び単語の並び方等の統計データに係る情報（言語モデル）が記録されている。

フォーマット情報１５４には、音声認識や音声データのテキスト化によって得られた各種情報を記録する際のデータフォーマットに係る情報が記録されている。また、フォーマット情報１５４には、収音された音声データと当該音声データがテキスト化されて生成されるテキストデータとを関連付けて記録する際のデータフォーマットに係る情報がさらに記録されている。

取得データ１５５には、情報取得装置１００で取得された各種データが記録される。取得データ１５５の記録する情報は、例えば、第１の実施形態に係る再生記録機器２００の備える第２の記録部２５０の記録する情報を含み得る。

図６に示すように、本実施形態に係る情報取得装置１００は、音声再生部１８０と、ディクテーション部１９０とをさらに備える。

音声再生部１８０は、第１の実施形態に係る再生記録機器２００の備える音声再生部２２０に相当する。音声再生部１８０は、第１の記録部１５０に記録されている音声データを再生する。

ディクテーション部１９０は、第１の記録部１５０の記録する情報を参照し、収音部１２０で取得された音声データに対して音声認識を実行する。また、ディクテーション部１９０は、音声認識の結果に基づいて、音声データのテキスト化を実行する。ディクテーション部１９０は、話者識別部１９１と、テキスト化部１９２と、ドキュメント化部１９３としての機能を備える。

話者識別部１９１は、収音した音声信号を解析して、当該音声信号を発した話者を特定する。なお、話者の識別は、音声処理テーブル１５２に記録されているユーザ毎の音声データに基づいて行われてもよいし、音声信号の周波数特性が解析されて行われてもよいし、操作者側マイク１２１と対象側マイク１２２との音量差に基づいて行われてもよい。例えば、同一の音声に対する操作者側マイク１２１の収音時の音量が対象側マイク１２２の音量と比較して大きければ、当該音声は、操作者の音声であると判定される。

テキスト化部１９２は、音声処理テーブル１５２及び音声テキスト化辞書１５３に記録されている音響モデル、言語モデル等に基づいて、収音した音声をテキスト化する。

ドキュメント化部１９３は、フォーマット情報１５４に記録されている情報に基づいて、テキスト化した音声等の収音した音声に係るドキュメント３００を生成する。ここで、本実施形態に係るドキュメント３００の構成の一例を図７に模式図として示す。

図７に示すように、本実施形態に係るドキュメント３００は、操作結果３１１と、音声操作結果３２１と、状況３３１と、会話３４１と、対象３５１と、日付３６１との項目を含む。

操作結果３１１の項目には、ユーザが操作部１６０を操作した操作結果に係る情報３１２が記録される。音声操作結果３２１の項目には、テキスト化部１９２においてテキスト化された操作音声に係る情報３２２が記録される。操作結果３１１の項目又は音声操作結果３２１の項目に記録される操作結果は、例えばユーザが収音の感度を変更した結果、収音モードを切り替えた結果等が含まれ得る。状況３３１の項目には、収音時の機器姿勢に係る情報、ユーザが入力した収音時の状況に係る情報等の収音時の情報取得装置１００の状況３３２が記録される。会話３４１の項目には、テキスト化部１９２によってテキスト化された会話のテキストデータである会話テキスト３４２が記録される。対象３５１の項目には、例えばユーザが入力した収音対象に係る情報３５２が記録される。なお、話者識別によって収音対象が判定できる場合には、判定された話者に係る情報が記録され得る。日付３６１の項目には、収音時の日付、時刻等の収音日時に係る情報３６２が記録される。なお、日付３６１の項目には、収音時の位置情報が合わせて記録されてもよい。

なお、ディクテーション部１９０の機能の一部又は全ては、第１の制御部１１０によって行われてもよいし、第１の通信部１４０を介して音声データが外部のサーバ等に送信されて、外部のサーバにおいて行われてもよい。また、ディクテーション部１９０の機能の一部又は全ては、人工知能（ＡＩ）が用いられて実行されてもよい。この場合、情報取得装置１００は、例えば、判定や機械学習可能に構築されたDigital Signal Processor （ＤＳＰ）を含んでいてもよい。また、特定音声抽出部１２３としての機能を、ディクテーション部１９０が備えていてもよい。

本実施形態に係る第１の制御部１１０は、ディクテーション制御部１１６と、記録制御部１１７としての機能をさらに備える。

ディクテーション制御部１１６は、ディクテーション部１９０の動作を制御する。ディクテーション制御部１１６は、ディクテーション部１９０に、収音部１２０の出力する音声データについて、音声認識させ、音声認識の結果に基づいたテキストデータと当該テキストデータを含むドキュメントを生成させる。

記録制御部１１７は、情報取得装置１００における記録動作を制御する。本実施形態に係る記録制御部１１７の機能は、第１の実施形態に係る再生記録機器２００の備える記録制御部２１１の機能と同様である。例えば、記録制御部１１７は、情報取得装置１００から取得する音声データと、当該音声データに係る補助情報とを関連付けて第１の記録部１５０に記録させる。音声データに係る補助情報は、ドキュメント３００を含む。

本実施形態に係る第１の制御部１１０の備えるフレーズ判定部１１４は、さらに音声認識の機能を有する。フレーズ判定部１１４は、音声処理テーブル１５２を参照して、収音した音声が操作音声であるかを判定する。第１の制御部１１０は、操作音声を検知した場合には、音声処理テーブル１５２を参照して、当該操作音声に対応する制御信号を取得し、情報取得装置１００の動作を制御する。

なお、操作音声か否かの判定は、例えば、話者識別部１９１の出力に基づいて行われてもよい。また、操作音声か否かの判定は、例えば、会話と操作音声との音量や音色の差異に基づいて行われてもよい。例えば、操作音声は、会話に比べて小声であったり、低い音色であったりする。

＜情報取得システムの動作＞
本実施形態に係る情報取得システム１の動作について図面を参照して説明する。ここで、本実施形態に係る収音処理の一例をフローチャートとして図８に示す。

ステップＳ２０１において、情報取得装置１００の備える第１の制御部１１０は、機器姿勢に応じた収音特性の下で、収音部１２０に収音させる。第１の制御部１１０は、得られた音声データを第１の通信部１４０にディクテーション部１９０へ送信させる。

ステップＳ２０２において、第１の制御部１１０は、音声認識できる音声であるか否かの判定をする。当該判定は、例えば、収音された音声の音量や音質に基づく。当該判定は、ディクテーション部１９０によって行われてもよい。収音処理は、音声認識可能であると判定された場合はステップＳ２０４へ進み、判定されなかった場合はステップＳ２０３へ進む。

ステップＳ２０３において、第１の制御部１１０は、音声認識できない旨の警告を行う。当該警告は、例えば予め第１の記録部１５０に記録されている音声データを再生することによって行われてもよい。また、情報取得装置１００は表示部を備えていてもよく、この場合には、当該表示部に警告文を表示させることによって警告が行われてもよい。その後、収音処理はステップＳ２０４へ進む。

ステップＳ２０４において、第１の制御部１１０は、収音された音声データが操作音声であるか否かの判定を行う。当該判定は、第１の記録部１５０に記録されている操作音声の音響データに基づく。収音処理は、操作音声であると判定された場合はステップＳ２０５へ進み、判定されなかった場合はステップＳ２０６へ進む。

ステップＳ２０５において、第１の制御部１１０は、音声認識された操作音声の指示に従って、ディクテーション部１９０の各部の設定又は動作を制御する。また、第１の制御部１１０は、操作音声が情報取得装置１００の制御に係る指示である場合には、情報取得装置１００の各部の設定又は動作を制御するための制御信号を生成し、各部の設定又は動作を制御する。その後、収音処理はステップＳ２０７へ進む。

ステップＳ２０６において、第１の制御部１１０は、音声処理テーブル１５２及び音声テキスト化辞書１５３に記録されている音響データと言語データとに基づいて、収音した音声データをテキスト化し、テキストデータを生成する。第１の制御部１１０は、生成されたテキストデータを第１の記録部１５０に記録させる。

ステップＳ２０７において、第１の制御部１１０は、音声テキスト化辞書１５３に記録されている言語データに基づいて、収音された音声データが会話であるか否かを判定する。収音処理は、会話であると判定された場合はステップＳ２０９へ進み、判定されなかった場合はステップＳ２０８へ進む。

ステップＳ２０８において、第１の制御部１１０は、テキストデータを単独文字と分類して記録させる。第１の制御部１１０は、単独文字のテキストデータと、対応する音声データとを関連付けて記録させる。ここで、単独文字は、音声認識によって単語が特定されているものの、会話ではないと判定される場合に記録され得る。また、単独文字は、音声データを特定したり、検索したりする際のタグとして使用され得る。その後、収音処理は終了し、情報取得システム制御処理のステップＳ１０６へ進む。

ステップＳ２０９において、第１の制御部１１０は、テキストデータを会話と分類して記録させる。第１の制御部１１０は、会話のテキストデータと、対応する音声データとを関連付けて記録させる。その後、収音処理は終了し、情報取得システム制御処理のステップＳ１０６へ進む。

＜情報取得システムの利点＞
本実施形態に係る情報取得装置１００は、第１の実施形態に係る情報取得装置１００で得られる利点に加え、以下のような利点をさらに有する。本実施形態に係る情報取得装置１００は、機器姿勢に応じた収音特性制御によって、機器姿勢によらず、音声認識に適した音声データの取得ができる。

したがって、本実施形態に係る技術は、音声認識の精度及び音声操作の精度を向上させることができる。また、ユーザは、本実施形態に係る情報取得装置１００を利用すれば、テキスト化された音声データを容易に取得できる。

また、本技術が活用されれば、ユーザは、音声操作によって、複雑な操作なしに、任意の機能を簡易に選択して使用することができる。また、音声操作の活用によって操作部の構造を簡素化できるため、情報取得装置１００の小型化や軽量化ができる。

［第３の実施形態］
本発明における第３の実施形態について説明する。ここでは、第２の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第２の実施形態では、機器姿勢に応じた収音特性制御を行い、音声認識及び音声データのテキスト化に適した収音ができる情報取得システム１について説明をした。このような技術は、収音機能を有する電子機器に対して適用できる。そこで、本実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置について説明をする。

なお、ここでの「姿勢」は、上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。以下は、各要素の配置等に基づいて、把持の仕方、機器と操作者との相対位置及び相対角度等の使われ方が想定されている撮像装置について説明をする。

＜情報取得システムの構成＞
本実施形態に係る情報取得システム１の構成例の概略をブロック図として図９に示し、これを参照して本実施形態に係る情報取得システム１の構成について説明をする。図９に示すように、本実施形態に係る情報取得システム１は、情報取得装置１００である撮像装置４００と、サーバ５００とを含む。撮像装置４００は、収音機能と撮像機能とを実行できるように構成された情報機器であり、本実施形態では、撮像装置４００がカメラである場合を例として説明をする。

本実施形態に係る撮像装置４００（情報取得装置１００）の構成例の概略を模式図として図１０Ａ及び図１０Ｂに示す。図１０Ａ及び図１０Ｂでは、略直方体の形状を有する筐体１０１と、レンズ鏡筒４１３とを備える撮像装置４００が例として示されている。また、図１０Ａ及び図１０Ｂは、撮像装置４００を側面から見た場合の撮像装置４００の内部の構成例の概略を模式的に示している。

本実施形態では、図１０Ａ及び図１０Ｂに示すように、ユーザＵ１が右手で筐体１０１を把持し、左手でレンズ鏡筒４１３を把持して撮像装置４００を使用する場合を例として説明をする。このとき、撮像装置４００において、操作者側（ユーザＵ１の口Ｕ１１側）の面が背面Ｐ１であると定義する。また、収音対象側の面であり、背面Ｐ１に対して略平行な面が正面Ｐ２であると定義する。なお、背面Ｐ１は、ユーザＵ１の右手親指Ｕ１２側（拇指側）の面と表現することもできる。同様に、正面Ｐ２は、ユーザＵ１の右手中指Ｕ１４側の面又は操作者左手側の面と表現することもできる。また、撮像装置４００の上面をユーザＵ１の右手人差指Ｕ１３側（食指側）の面と定義し、上面に対向する面を下面と定義する。また、ユーザＵ１の右手掌側の面を右側面と定義し、右側面に対向する面を左側面と定義する。したがって、図１０Ａ及び図１０Ｂに示す模式図は、撮像装置４００を左側面側から見た断面を示すと表現できる。

ここで、Ｙ方向は、下面又は上面に対して略直交する方向（下面又は上面の法線方向）であり、Ｘ方向は、右側面又は左側面に対して略直交する方向（右側面又は左側面の法線方向）と定義される。また、下面から上面に向かう方向と、右側面から左側面に向かう方向とは、それぞれ、Ｙ＋方向と、Ｘ＋方向と定義される。

撮像装置４００（情報取得装置１００）は、撮像部４１０と、画像処理回路４２０と、表示部４８０とをさらに備える。

撮像部４１０は、撮像素子４１１と、撮像光学系４１２とを備える。撮像部４１０は、撮像光学系４１２を介して撮像素子４１１の撮像面に結像した像に基づいて、画像データを生成する。撮像光学系４１２は、レンズ鏡筒４１３の中に設けられ、撮像素子４１１の撮像面に像を結像させる。なお、撮像装置４００の筐体１０１におけるレンズ鏡筒４１３の上側（Ｙ＋側）の位置には、対象側マイク１２２が配置されている。

画像処理回路４２０は、撮像部４１０の生成した画像データに対して、各種画像処理を施す。画像処理回路４２０による画像処理後のデータは、例えば第１の記録部１５０に記録されたり、第１の通信部１４０を介して外部に送信されたりする。また、第１の制御部１１０又は画像処理回路４２０は、得られた画像データに基づく各種解析を行ってもよい。例えば、撮像装置４００の機器姿勢が、画像データが解析されて取得され得る。

表示部４８０は、表示情報を取得して表示する。表示情報は、撮像部４１０の取得する画像データ、第１の制御部１１０の出力する警告等を含む。表示部４８０は、例えば液晶ディスプレイを含む。図１０Ａ及び図１０Ｂに示すように、本実施形態に係る表示部４８０の表示面は、表示部４８０のＹ＋側の端部近傍を支点として回転し得る。すなわち、表示部４８０の背面Ｐ１に対する表示面の角度φは可変である。なお、撮像装置４００の筐体１０１における表示部４８０の表示面の上側（Ｙ＋側）の位置には操作者側マイク１２１が配置されている。さらに、操作者側マイク１２１の上側の位置には、ファインダ４１６が配置されている。ファインダ４１６は、ファインダ表示部４１４と、ファインダ光学系４１５とを備える。ファインダ表示部４１４は、例えば液晶ディスプレイを含む。ファインダ光学系４１５は、ファインダ表示部４１４に表示された画像を、ファインダ４１６を覗き込んだユーザＵ１の目に結像させる。表示部４８０は、上述したように、想定された使用状況において、ユーザＵ１が視認できる位置に配置される。同様に、表示部４８０の配置や表示面の可動範囲によって、ユーザの使用状況を想定することもできる。

撮像装置４００（情報取得装置１００）の備える第１の制御部１１０は、撮像制御部１１８と、表示制御部１１９としての機能をさらに備える。撮像制御部１１８は、撮像部４１０の動作を制御する。表示制御部１１９は、表示部４８０の動作を制御する。表示制御部１１９は、画像データ、警告等を表示部４８０に表示させるための表示情報を生成して出力する。

撮像装置４００（情報取得装置１００）の備える第１の記録部１５０は、第２の実施形態に係る音声処理テーブル１５２に記録されている情報のうち、操作音声に係る情報を記録する操作音声処理テーブル１５２ａを備える。

撮像装置４００（情報取得装置１００）の備える第１の通信部１４０は、サーバ５００との間で通信を行う。ここで通信される情報は、撮像装置４００の取得する音声データ、当該音声データに係る補助情報、画像データ等を含む。

なお、第２の実施形態に係るディクテーション部１９０は、後述するサーバ５００が備える。また、第２の実施形態に係る第１の記録部１５０が記録する音声処理テーブル１５２と、音声テキスト化辞書１５３と、フォーマット情報１５４とは、後述するサーバ５００の内部に記録される。

サーバ５００は、撮像装置４００の取得した音声データを含む各種情報に基づいて、テキストデータやドキュメントを生成する。生成されたテキストデータやドキュメントは、撮像装置４００へ送信されてもよいし、サーバ記録部５５０に記録されてもよい。

サーバ５００は、ディクテーション部１９０と、サーバ通信部５４０と、サーバ記録部５５０とを備える。ディクテーション部１９０は、サーバ通信部５４０を介して取得する音声データに対して、音声認識やテキスト化の処理を実行する。ディクテーション部１９０は、サーバ記録部５５０に記録されている情報を参照して、音声認識やテキスト化の処理を行う。サーバ通信部５４０は、撮像装置４００との間で通信を行う。サーバ記録部５５０は、上述したように、第２の実施形態に係る第１の記録部１５０が記録する音声処理テーブル１５２と、音声テキスト化辞書１５３と、フォーマット情報１５４とを記録している。

＜機器姿勢に応じた収音特性制御の概要＞
ここで、本実施形態に係る撮像装置４００の利用シーンと機器姿勢との関係について説明するための模式図を図１１Ａ及び図１１Ｂに示す。また、本実施形態に係る撮像装置４００の機器姿勢に応じた収音特性制御について説明するための模式図を図１２Ａ及び図１２Ｂに示す。以下、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。

このとき、上述したように、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置（必要に応じて表示部４８０等の視認性も考慮）等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図１１Ａ乃至図１２Ｂに示すような機器の使われ方が想定されている場合を説明する。

ユーザＵ１は、図１１Ａに示すように立って被写体を撮影したり、図１１Ｂに示すようにしゃがんで（ローアングルで）被写体を撮影したりする。このように、撮影時のユーザＵ１の姿勢に応じて、操作者側マイク１２１と、ユーザＵ１の口Ｕ１１との相対位置や相対角度は変化する。なお、操作者側マイク１２１は、図１０Ａ及び図１０Ｂを参照して説明したように、本実施形態に係る撮像装置４００のユーザＵ１側に配置される。

例えば、図１１Ａに示すような利用シーンにおける機器姿勢、すなわちユーザＵ１に対する撮像装置４００の位置及び角度は、図１０Ａに示すような状態である。ユーザＵ１は、右手親指Ｕ１２と右手中指Ｕ１４とを、それぞれ背面Ｐ１と正面Ｐ２とに配置し、左手親指Ｕ１５をレンズ４２３の左側面側に位置するように配置する。また、撮像を指示する場合には、右手人差指Ｕ１３をレリーズボタンの位置に配置する。レリーズボタンは、操作部１６０に含まれ、例えば撮像装置４００の上面に配置される。

このように撮像装置４００を把持する場合、ユーザＵ１は、ファインダ表示部４１４から出射する光線を見るために、ユーザＵ１の視線Ｅ２と、ファインダ４１６の備えるファインダ光学系４１５の光軸とが概ね等しくなるようにする。したがって、ユーザＵ１の口Ｕ１１は、操作者側マイク１２１と比較してＹ−方向に位置する。ユーザＵ１の発する音声Ｖ２と操作者側収音軸１０８ａとの成す角である収音角度θは、図１０Ａに示すように収音角度θ２となる。

一方で、例えば、図１１Ａに示すような利用シーンにおける機器姿勢、すなわちユーザＵ１に対する撮像装置４００の位置及び角度は、図１０Ａに示すような状態である。このとき、ユーザＵ１は、撮像装置４００を口Ｕ１１よりも下方に位置させる。また、ユーザＵ１は、ファインダ４１６ではなく、表示部４８０の表示面を見るために、ユーザＵ１の視線Ｅ３と、表示部４８０の表示方向とが概ね等しくなるようにする。ここで、表示部４８０の角度φは可変である。ユーザＵ１の発する音声Ｖ３と操作者側収音軸１０８ａとの成す角である収音角度θは、図１０Ａに示すように収音角度θ３となる。

このように、想定された機器の使われ方に適した操作部１６０や表示部４８０、マイクの配置となっている。同様に、操作部１６０や表示部４８０、マイクの配置によって、ユーザＵ１による撮像装置４００の把持の仕方等を想定しているとも表現できる。想定された持ち方で把持された場合、撮像装置４００は、次に説明するような収音特性制御を行う。

そこで、本実施形態に係る情報取得システム１では、図１２Ａ及び図１２Ｂに示すように姿勢区分を設定し、操作者側における収音特性制御を行う。操作者側における収音特性制御では、操作者側の収音角度θに対する収音感度が調整される。例えば、図１２Ａに示す状態では、図１０Ａ及び図１１Ａを参照して上述したように、ユーザＵ１は、手を身体側へ引いて口Ｕ１１の近傍で撮像装置４００を使用する。本実施形態では、このときの機器姿勢が分類される姿勢区分を第４の姿勢区分とする。例えば、図１２Ｂに示す状態では、図１０Ｂ及び図１１Ｂを参照して上述したように、ユーザＵ１は、手を下方へ伸ばして撮像装置４００を使用する。本実施形態では、このときの機器姿勢が分類される姿勢区分を第５の姿勢区分とする。

収音特性制御部１１３は、判定された姿勢区分に応じて収音特性を決定する。ここで決定される収音特性は、操作者側の収音角度θに対する収音感度（収音指向性）と、音声認識に係る有効距離である。

例えば、特定音声抽出部１２３は、第４の姿勢区分に分類される機器姿勢であると判定された場合、図１２Ａに示すように、収音角度θ２の方向に操作者側収音範囲１０５ａを設定する。有効距離の値は、例えば、ユーザが撮像装置４００を構えた時の操作者側マイク１２１とユーザの口Ｕ１１との間の距離に基づく。有効距離の値は、ユーザが表示部４８０に表示されるライブビュー表示を見ながら構える場合と、ユーザがファインダ表示部４１４に表示されるライブビュー表示を見ながら構える場合とで異なる値としてもよい。例えば、５〜２０ｃｍ程度の有効距離が設定され得る。

例えば、特定音声抽出部１２３は、第５の姿勢区分に分類される機器姿勢であると判定された場合、図１２Ｂに示すように、収音角度θ３の方向に操作者側収音範囲１０５ａを設定する。このとき設定される有効距離の値は、第４の姿勢区分であると判定された場合と比較して大きい。有効距離の値は、例えば、ユーザの腕の長さに基づく。例えば、６０〜８０ｃｍ程度の有効距離が設定され得る。

＜情報取得システムの動作＞
本実施形態に係る情報取得システム制御処理の一例をフローチャートとして図１３に示し、これを参照して情報取得システムの動作について説明をする。以下の処理は、例えば情報取得装置１００が操作者であるユーザＵ１によって把持された状態で開始される。なお、以下の説明は、図４に示す第１の実施形態に係る情報取得システム制御処理と比較しながら行う。

ステップＳ３０１乃至ステップＳ３０４において、第１の制御部１１０は、ステップＳ１０１乃至ステップＳ１０４と同様にして、機器姿勢を判定し、機器姿勢に応じた収音特性を決定する。なお、本実施形態では、機器姿勢が第４の姿勢区分と第５の姿勢区分との何れの姿勢区分に分類されるかが判定される。また、収音特性として、操作者側の収音角度θ（操作者側マイク１２１からユーザＵ１の口Ｕ１１近傍へ向かう方向）に対する収音感度と、操作者側と被写体側との各々の方向における収音範囲とが調整され得る。

ステップＳ３０５において、第１の制御部１１０は、決定した収音特性で収音部１２０に収音させ、ディクテーション部１９０に音声データをテキスト化させる。ここで、本実施形態に係る収音処理の一例をフローチャートとして図１４に示し、これを参照して情報取得システムの動作について説明をする。なお、収音処理の説明は、図８に示す第２の実施形態に係る収音処理と比較しながら行う。

ステップＳ４０１乃至ステップＳ４０３において、第１の制御部１１０は、ステップＳ２０１乃至ステップＳ２０３と同様にして収音部１２０に収音させ、音声認識できるか否かを判定する。なお、音声認識できるか否かの判定は、サーバ５００の備えるディクテーション部１９０で行われてもよい。また、ステップＳ４０３における警告は、表示部４８０に表示されて行われる。収音処理は、警告を表示した後にステップＳ４０７へ進む。

ステップＳ４０４において、第１の制御部１１０は、音声データをディクテーション部１９０へ出力する。ディクテーション部１９０は、音声データをテキスト化する。第１の制御部１１０は、テキストデータを取得し、表示部４８０に表示させる。その後、収音処理はステップＳ４０５へ進む。

ステップＳ４０５及びステップＳ４０６において、第１の制御部１１０は、ステップＳ２０４及びステップＳ２０５と同様にして、操作音声であるか否かを判定し、操作音声を取得した場合は操作音声に応じた機器制御を行う。

ステップＳ４０７において、第１の制御部１１０は、例えば、ステップＳ４０１において収音された音声がユーザＵ１の音声であった場合等に、指向性を広げてさらに収音させる。なお、本ステップにおける指向性を広げた収音は、操作者側の収音方向と被写体側の収音方向との各々の収音方向に対して収音の感度を高めた収音であったり、各々の収音方向に対する有効距離の設定が長い収音であったりする。これは、ユーザＵ１が話した後、ユーザＵ２等の被写体側の音声を取得する可能性を考慮した処理である。

ステップＳ４０８乃至ステップＳ４１０において、第１の制御部１１０及びディクテーション部１９０は、ステップＳ４０２乃至ステップＳ４０４と同様にして、ステップＳ４０７で取得された音声データのテキスト化を行い、テキストデータを取得し、表示部４８０に表示させる。ステップＳ４０９で警告表示をした後は、処理は情報取得システム制御処理のステップＳ３０６へ進む。

ステップＳ４１１乃至ステップＳ４１３において、第１の制御部１１０は、ステップＳ２０７乃至ステップＳ２０９と同様にして、収音した音声が会話であるか否かを判定し、会話又は単独文字のタグ付けをして第１の記録部１５０に記録させる。記録後、収音処理は終了し、情報取得システム制御処理のステップＳ３０６へ進む。

ステップＳ３０６及びステップＳ３０７において、第１の制御部１１０は、ステップＳ１０６及びＳ１０７と同様にして、ユーザＵ１による操作部１６０の操作を取得した場合には、操作に応じた機器制御を行う。

ステップＳ３０８において、第１の制御部１１０は、例えば操作部１６０の備えるレリーズボタンの出力する操作信号に基づいて、撮影を指示する撮影操作が行われたか否かを判定する。情報取得システム制御処理は、撮影操作が行われたと判定された場合はステップＳ３０９へ進み、判定されなかった場合はステップＳ３１０へ進む。

ステップＳ３０９において、第１の制御部１１０は、撮像部４１０に撮像させて画像データを取得させ、ディクテーション部１９０に補助データを出力させる。第１の制御部１１０は、画像データと補助データとを関連付けて記録させる。ここで関連付けて記録される情報（画像ファイル６００）の一例を模式図として図１５に示す。図１５に示すように、画像ファイル６００は、ファイル名６１１と、操作者側音声データ６２１と、被写体側音声データ６２２と、画像データ６３１と、補助データ６４０とを含む。補助データ６４０は、収音された日時６４１と、会話として記録されたテキストデータである会話テキスト６４２と、単独文字として記録されたテキストデータである単独テキスト６４３と、撮像又は収音時の操作履歴を示す操作履歴６４４とを含む。なお、補助データとして、ドキュメント３００が用いられてもよい。記録後、情報取得システム制御処理はステップＳ３０２へ戻る。

ステップＳ３１０において、第１の制御部１１０は、ステップＳ１１０と同様にして、処理を終了するか否かを判定する。

＜情報取得システムの利点＞
本実施形態に係る情報取得システム１は、第１の実施形態又は第２の実施形態に係る情報取得システム１に加えて、以下の利点を有する。

本実施形態に係る情報取得システム１は、機器姿勢に応じて操作者側の収音特性を制御する。このため、ユーザは撮影する姿勢が変わっても適切な収音特性で音声データを取得できる。また、本実施形態に係る情報取得システム１では、撮影して得た画像データと、テキスト化された音声データとが関連付けて記録される。なお、画像処理回路４２０は、テキスト化した会話等の音声を、収音時に撮影された画像データに重畳表示させる画像処理を行ってよい。このように本技術によって得られる情報は、視覚の情報と聴覚の情報とを含むため、ユーザは、撮影時の状況を容易に把握したり、より詳細に思い出したりできる。

また、本実施形態に係る撮像装置４００は、会話の音声認識及びテキスト化を外部のサーバ５００に実行させる。電力消費が大きい音声処理が外部で行われることで、携帯機器である撮像装置４００のバッテリ消費を低減させることができる。一方で、音声によって撮像装置４００の操作を指示するための操作音声の認識は、撮像装置４００において実行される。これにより、音声操作の機能を損なうことなく、バッテリ消費を低減させることができる。

また、本実施形態に係る撮像装置４００は、機器姿勢に応じて適切な収音特性を決定することにより、音声認識の精度を向上させることができる。そのため、音声操作を活用することができる。そのため、ユーザは、どのように起動させればよいか分かりづらい機能であっても、すぐに使用することができる。また、音声操作が活用される場合、特定の操作に特化した専用のボタン等の操作部の数を減らすことができる。これは、携帯機器である情報取得装置１００の小型化、軽量化に寄与する。

なお、会話の音声認識をサーバ５００で実行させる場合を例として説明したが、これに限定されない。例えば、会話の音声認識及びテキスト化の処理は、撮像や収音の終了後に撮像装置４００において行われてもよい。この場合、ユーザは、帰宅後等のバッテリ残量の心配がないタイミングで音声処理を行うことができる。また、テキスト化する音声データを取捨選択できる利点もある。

なお、適切な収音角度や有効距離の設定値は、例えば、ユーザＵ１の個人差によって変化する。そのため、ユーザＵ１が身長等を入力して予め収音特性に係る値をユーザ毎に設定できるようにしてもよい。この場合、機器姿勢に応じた収音特性が、より適切に運用され得る。

なお、姿勢区分（機器姿勢）は、表示部４８０の表示方向に基づいて判定されてもよい。表示部４８０の表示方向は、例えば、図１０Ａ及び図１０Ｂに示すように、ユーザＵ１の右手親指Ｕ１２が、表示部４８０に対して何れの方向に配置されているかに基づいて判定されてもよい。また、表示部４８０においてライブビュー表示が行われている場合は第４の姿勢区分に分類される機器姿勢であり、表示部４８０においてライブビュー表示が行われていない場合は第５の姿勢区分に分類される機器姿勢であると判定されてもよい。

［第４の実施形態］
本発明における第４の実施形態について説明する。ここでは、第３の実施形態との相違点について説明し、同一の部分については同一の符号を付してその説明を省略する。第３の実施形態では、機器姿勢に応じた収音特性制御によって、音声認識に適した音声データを取得し、音声データのテキスト化ができる撮像装置４００について説明した。本実施形態では、撮像装置４００（情報取得装置１００）を備える内視鏡カメラについて説明をする。

なお、ここでの「姿勢」は、上述したように、利用者の機器の使い方を判定するための手段であり、人間工学的な考察から、自然に行える手での把持の仕方、操作の仕方と、利用者、操作者、相手になる人物、対象物の関係が、特定の業務や作業において、自然に行い得る関節や筋肉の動きと、を想定した、機器と利用者及び対象者との相対位置関係を「機器姿勢」として代表させている。「姿勢」と表現しながらも、必要に応じて、姿勢以外の項目を判定する場合もある。また、「姿勢」という言葉で単純化しているが、実際には機器全体の形状、またそれを考慮した把持の様子や、マイクの位置、操作部材の位置等が総合的に考慮されて、こうした姿勢変化につながっていることが分かる。目的とするのは、機器と利用者と対象物の相対位置関係に従った制御切り替えであるが、こうした諸要素の総合として「姿勢」という言葉で一般化して説明している。以下は、各要素の配置等に基づいて、把持の仕方、機器と操作者との相対位置及び相対角度等の使われ方が想定されている内視鏡カメラについて説明をする。

＜情報取得システムの構成＞
本実施形態に係る内視鏡カメラ７００の構成例の概略を模式図として図１６に示す。本実施形態に係る内視鏡カメラ７００は、第３の実施形態に係る撮像装置４００（情報取得装置１００）を含む。また、図１６は、内視鏡カメラ７００の把持部を側面から見た場合の内部の構成例の概略を模式的に示している。

本実施形態では、図１６に示すように、ユーザＵ１が左手で筐体１０１を把持し、内視鏡カメラ７００を使用する場合を例として説明をする。

このとき、内視鏡カメラ７００において、操作者側（ユーザＵ１の口Ｕ１１側）の面が背面Ｐ１であると定義する。また、収音対象側の面であり、背面Ｐ１に対して略平行な面が正面Ｐ２であると定義する。なお、背面Ｐ１は、ユーザＵ１の左手親指Ｕ１５側（拇指側）の面と表現することもできる。同様に、正面Ｐ２は、ユーザＵ１の左手人差指Ｕ１６側（食指側）の面又は左手中指Ｕ１７側の面と表現することもできる。また、内視鏡カメラ７００の上面を、ユーザＵ１が背面Ｐ１に設けられたボタン１６１を操作する時に、ユーザＵ１の左手親指Ｕ１５の先端が向く方向にある背面Ｐ１と略直交する面と定義し、上面に対向する面を下面と定義する。また、ユーザＵ１の左手掌側の面を左側面と定義し、右側面に対向する面を左側面と定義する。したがって、図１０Ａ及び図１０Ｂに示す模式図は、内視鏡カメラ７００を右側面側から見た断面を示すと表現できる。

＜機器姿勢に応じた収音特性制御について＞
ここで、本実施形態に係る内視鏡カメラ７００の利用シーンと機器姿勢との関係について説明するための模式図を図１７Ａ及び図１７Ｂに示す。なお、本実施形態に係る情報取得システム１は、第３の実施形態に係る表示部４８０に相当する表示部７８０を備える。表示部７８０は、内視鏡カメラ７００の備える撮像部４１０の取得した画像データ、テキスト化された音声データ、警告等を表示する。

図１７Ａ及び図１７Ｂに示すように、内視鏡カメラ７００の操作者であるユーザＵ１は、操作音声を発したり、補助者であるユーザＵ２と会話をして指示を出したりして、ユーザＵ３に対する処置を行ったりする。このような場合にも、処置中のユーザＵ１の動きに伴って、内視鏡カメラ７００の機器姿勢は変化し得る。

ここで、本実施形態に係る内視鏡カメラ７００の機器姿勢に応じた収音特性制御について説明するための模式図を図１８Ａ、図１８Ｂ、図１９Ａ及び図１９Ｂに示す。以下、これらを参照して本実施形態に係る収音特性制御の概要について説明をする。本実施形態に係る姿勢区分は、例えばユーザＵ１の動きに伴い変化し得る機器姿勢に対して設定される。

このとき、上述したように、想定された機器の把持のされ方が重要であり、さらにはマイクの位置、把持と同時に操作ができる操作部の位置（必要に応じて表示部７８０等の視認性も考慮）等が、こうした用途にふさわしいように配置されていることが重要である。どう持って良いか分からないような機器では、ここで説明するような使い方は必ずしも想定できない。以下、一例として、図１８Ａ乃至図１９Ｂに示すような機器の使われ方が想定されている場合を説明する。

例えば、ユーザＵ１は、音声を発する場合に、左手の前腕部を身体側に引いて、操作者側マイク１２１を自身の口Ｕ１１へ近づけるようにする。したがって、機器姿勢は、例えば図１８Ａ及び図１９Ａに示すような傾き又は位置（機器姿勢）となる。ここで、ユーザＵ１が発する音声には、例えば、ユーザＵ２へ指示する音声、所見等の音声メモを入力するための音声、内視鏡カメラ７００の操作を指示する操作音声等が含まれる。

また、処置中の内視鏡カメラ７００の機器姿勢は、例えば、図１８Ｂに示すように傾けられた状態の時、図１９Ｂに示すように傾きは変化せずに位置のみ変化させられた情報の時もあり得る。

ところが、ユーザＵ１は、例えば内視鏡カメラ７００のような、収音機能が主機能ではない情報取得装置１００を使用する場合に、収音のために機器姿勢を変えることができない場合があり得る。例えば、ユーザＵ１は、処置中に音声操作や音声メモをしたい場合であっても、処置の状況によっては、内視鏡カメラ７００の機器姿勢を自由に変えることができない場合がある。また、処置中は、図１７Ａ及び図１７Ｂに示すように、ユーザＵ１が移動する等、ユーザの位置又は向きが変化する場合がある。このような場合、本実施形態に係る情報取得システム１では、機器姿勢は、内視鏡カメラ７００の位置情報、方位、方位変化、角速度等に基づいて判定される。また、ユーザＵ２が移動する等、機器姿勢が変化しない場合であっても、操作者側マイク１２１又は対象側マイク１２２と、ユーザＵ１又はユーザＵ２との相対位置又は角度が変化し得る。

このように、想定された機器の使われ方に適した操作部１６０や表示部７８０、マイクの配置となっている。同様に、操作部１６０や表示部７８０、マイクの配置によって、ユーザＵ１による内視鏡カメラ７００の把持の仕方等を想定しているとも表現できる。想定された持ち方で把持された場合、内視鏡カメラ７００は、次に説明するような収音特性制御を行う。

そこで、本実施形態に係る内視鏡カメラ７００の機器姿勢が分類される姿勢区分は、使用状況に応じて複数用意されていてもよい。使用状況は、処置の種類、ユーザの配置の種類を含む。使用状況は、例えば図１７Ａ及び図１７Ｂに示すように、外部カメラ７３０の取得する画像データが解析されて、取得され得る。処置の種類には、処置中の動作による分類が含まれる。

例えば、ユーザＵ１が内視鏡カメラ７００をユーザＵ３の体内へ挿入している途中では、ユーザＵ１は、挿管に係る動作等、決められた手順で作業を実行したり、素早く機械的に作業したりする。このようなユーザＵ１の動作によって使用状況は取得され得る。ユーザＵ１は、挿管の動作を、例えば表示部７８０の表示を注視し、ユーザＵ２によるユーザＵ３の状態等の報告を聞きながら行ったりする。このようなことから、本実施形態に係る情報取得システム１では、例えば、挿管に係る動作を検知した時は、ユーザＵ２の音声を主に収音できるように収音特性が決定される。

例えば、ユーザＵ１が内視鏡カメラ７００を使用して観察等を行っている場合では、ユーザは、ゆっくりとした動きで内視鏡カメラ７００を操作する。観察時には、ユーザＵ１は所見を述べたりし得る。このようなことから、本実施形態に係る情報取得システム１では、例えば、ゆっくりした動作で行われる観察に係る動作を検知した時は、ユーザＵ１の音声を主に収音できるように収音特性が決定される。

なお、処置が長時間に及ぶ場合等、ユーザＵ１が疲れたりして、同じ機器姿勢が続かない場合もあり得る。このような場合に、経過時間に応じて、姿勢区分が更新されてもよい。

本実施形態に係る情報取得システム１では、このような内視鏡カメラ７００の機器姿勢に応じて、上述したような収音特性制御が行われる。

＜情報取得システムの利点＞
本実施形態に係る情報取得システム１は、第３の実施形態に係る情報取得システム１に加えて、以下の利点を有する。

本実施形態に係る情報取得システム１は、機器姿勢に応じた収音特性を、情報取得装置１００の仕様状況によって変更する。したがってユーザは、機器の利用シーンに応じた適切な収音が容易にできる。

また、本実施形態に係る情報取得システム１では、テキスト化された収音データを複数のユーザ間で共有できるように表示する。したがって本技術は、特に収音機能が主機能ではない情報機器において、ユーザ間の過不足ないコミュニケーションに寄与する。

また、本実施形態に係る情報取得システム１では、適切な収音特性の下で、音声認識されやすい音声データを取得できる。したがって、本技術は、ユーザの音声メモや他のユーザへの指示等を高精度にテキストデータとして取得できる。

また、取得されたテキストデータは、画像データと関連付けられて記録される。したがってユーザは、観察時の様子を示す画像データと観察時の所見とを確認できる資料を簡易に取得できる。

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

１…情報取得システム、１００…情報取得装置、１０１…筐体、１０２ａ…操作者側マイクユニット、１０２ｂ…対象側マイクユニット、１０５ａ…操作者側収音範囲、１０５ｂ…対象側収音範囲、１１０…第１の制御部、１１１…姿勢取得部、１１２…姿勢判定部、１１３…収音特性制御部、１１４…フレーズ判定部、１１５…トラック入力部、１１６…ディクテーション制御部、１１７…記録制御部、１１８…撮像制御部、１１９…表示制御部、１２０…収音部、１２１…操作者側マイク、１２２…対象側マイク、１２３…特定音声抽出部、１２４…有効距離設定部、１２５…指向性設定部、１３０…姿勢センサ、１４０…第１の通信部、１５０…第１の記録部、１５１…姿勢区分情報、１５２…音声処理テーブル、１５３…音声テキスト化辞書、１５４…フォーマット情報、１５５…取得データ、１６０…操作部、１７０…時計部、１８０…音声再生部、１９０…ディクテーション部、１９１…話者識別部、１９２…テキスト化部、１９３…ドキュメント化部、２００…再生記録機器、２１０…第２の制御部、２１１…記録制御部、２２０…音声再生部、２３０…入力部、２４０…第２の通信部、２５０…第２の記録部、４００…撮像装置、４１０…撮像部、４１１…撮像素子、４１２…撮像光学系、４２０…画像処理回路、４８０…表示部、５００…サーバ、５４０…サーバ通信部、５５０…サーバ記録部、７００…内視鏡カメラ、７３０…外部カメラ、７８０…表示部、Ｐ１…背面、Ｐ２…正面。

Claims

収音機能を実行できる情報取得装置であって、
前記情報取得装置の操作者側の面に配置されて、前記操作者側である第１の収音方向について主に収音できるように構成された操作者側マイクと、
前記操作者側の面と対向する前記情報取得装置の対象側の面に配置されて、前記対象側である第２の収音方向について主に収音できるように構成された対象側マイクと
を含み、各々の収音方向について収音できるように構成された収音部と、
前記情報取得装置の機器姿勢に係る情報を取得できるように構成された姿勢センサと、
前記機器姿勢に係る情報に基づいて機器姿勢を判定する姿勢判定部と、
判定された前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定する収音特性制御部と
を備える、情報取得装置。
前記機器姿勢を分類した姿勢区分に係る情報と、前記姿勢区分と前記収音特性との対応とが記録されている区分情報記録部をさらに備え、
前記姿勢判定部は、前記機器姿勢として、前記姿勢区分を判定し、
前記収音特性制御部は、前記区分情報記録部を参照して、前記姿勢区分に対応した前記収音特性を決定する、請求項１に記載の情報取得装置。
前記収音特性制御部は、前記収音特性として、各々の前記収音方向に対する収音感度を決定する、請求項１に記載の情報取得装置。
前記姿勢センサは、前記情報取得装置の傾きを計測し、
前記姿勢判定部は、前記機器姿勢として、前記情報取得装置の傾き方向を判定し、
前記収音特性制御部は、前記操作者側マイクが前記操作者側へ傾く方向の前記傾き方向であると判定された場合に、前記第１の収音方向に対する収音感度を前記第２の収音方向に対する収音感度と比較して高くすると決定する、
請求項３に記載の情報取得装置。
前記姿勢センサは、前記情報取得装置の位置変位を計測し、
前記姿勢判定部は、前記機器姿勢として、前記情報取得装置の位置変位を判定し、
前記収音特性制御部は、前記操作者側への前記位置変位であると判定された場合に、前記第１の収音方向に対する収音感度を前記第２の収音方向に対する収音感度と比較して高くすると決定する、
請求項３に記載の情報取得装置。
前記収音部は、前記操作者側において前記第１の収音方向を変化させることができるように構成されており、
前記収音特性制御部は、前記収音特性として、前記第１の収音方向を決定する、
請求項１に記載の情報取得装置。
前記姿勢センサは、前記情報取得装置の位置情報を計測し、
前記姿勢判定部は、前記機器姿勢として、前記操作者側マイクから前記情報取得装置の操作者の口近傍へ向かう操作者方向を判定し、
前記収音特性制御部は、前記操作者方向を、前記第１の収音方向とすると決定する、
請求項６に記載の情報取得装置。
表示部をさらに備え、
前記姿勢判定部は、前記機器姿勢として、前記表示部の表示面が向いている表示方向を判定し、
前記収音特性制御部は、前記表示方向に基づいて、前記第１の収音方向とすると決定する、
請求項６に記載の情報取得装置。
前記第１の収音方向と前記第２の収音方向とは略平行である、請求項１に記載の情報取得装置。
前記操作者側マイクと前記対象側マイクとは、前記操作者側の面又は前記対象側の面の法線方向に略直交する方向おいて、互いに異なる位置に配置される、請求項９に記載の情報取得装置。
操作者の操作結果を取得する操作部をさらに備え、
前記収音特性制御部は、前記機器姿勢に応じた前記収音特性の制御を実行する収音特性制御モードと、前記操作者側マイクと前記対象側マイクとを用いて前記第２の収音方向についてステレオ収音を実行するステレオ収音モードとの何れのモードを実行するか、前記操作部の出力に基づいて決定する、
請求項１０に記載の情報取得装置。
収音して得られた音情報と、前記音情報が得られた時の前記機器姿勢とを関連付けて記録させる記録制御部をさらに備える、請求項１に記載の情報取得装置。
収音した音声に対して音声認識を行う音声認識部をさらに備え、
前記収音特性制御部は、前記音声認識に適した前記収音特性を決定する、
請求項１に記載の情報取得装置。
前記収音特性制御部は、前記収音特性として、前記第１の収音方向と前記第２の収音方向との間における音声の遅延時間差を決定し、
前記音声認識部は、前記収音した音声のうち、前記遅延時間差に収まる音声に対して前記音声認識を実行する、
請求項１３に記載の情報取得装置。
前記音声認識部は、前記第１の収音方向と前記第２の収音方向との間における音声の音量差に基づいて、前記操作者側の音声と対象側の音声とを分離する、
請求項１３に記載の情報取得装置。
前記情報取得装置の制御を指示する操作音声に係る音響データが記録されている操作音声記録部をさらに備え、
前記音声認識部は、収音した音声から操作音声を分離する、
請求項１３に記載の情報取得装置。
撮像して第１の画像データを出力する撮像部と、
記録に係る動作を制御する記録制御部と
をさらに備え、
前記音声認識部は、前記音声認識の結果をテキストデータとして出力し、
前記記録制御部は、前記第１の画像データと、前記テキストデータとを関連付けて記録させる、
請求項１３に記載の情報取得装置。
前記第１の画像データに前記テキストデータの示すテキストを重畳した第２の画像データを生成する画像処理回路をさらに備える、請求項１７に記載の情報取得装置。
操作者側である第１の収音方向と、前記操作者側と対向する対象側である第２の収音方向との各々の収音方向について収音できるように構成された収音部を備える情報取得装置の制御方法であって、
前記情報取得装置の機器姿勢に係る情報を取得することと、
前記機器姿勢に係る情報に基づいて機器姿勢を判定することと、
前記機器姿勢に応じて、各々の前記収音方向に対する収音特性を決定することと
を含む、情報取得装置の制御方法。