JP2017011321A - Detection device, detection system, detection method, and program - Google Patents
Detection device, detection system, detection method, and program Download PDFInfo
- Publication number
- JP2017011321A JP2017011321A JP2015121246A JP2015121246A JP2017011321A JP 2017011321 A JP2017011321 A JP 2017011321A JP 2015121246 A JP2015121246 A JP 2015121246A JP 2015121246 A JP2015121246 A JP 2015121246A JP 2017011321 A JP2017011321 A JP 2017011321A
- Authority
- JP
- Japan
- Prior art keywords
- user
- detection
- utterance
- tracking
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、検知装置、検知システム、検知方法及びプログラムに関する。 The present invention relates to a detection device, a detection system, a detection method, and a program.
一般的に、画像認識によりユーザの顔をトラッキングする技術がカメラなどで使用されている。
また、近時、音をトリガに、その音を発した音源(例えば、発声したユーザ)をトラッキングする技術もカメラなどで使用されている(例えば、特許文献1など)。
In general, a technique for tracking a user's face by image recognition is used in a camera or the like.
Recently, a technique for tracking a sound source (for example, a user who uttered) using a sound as a trigger is also used in a camera (for example, Patent Document 1).
ところで、カメラでユーザのしゃべる様子などをリアルタイムで撮影するような場合、上述したトラッキングの技術だとユーザが既にしゃべり始めた後の様子を撮影してしまうことがある。すなわち、音の発声をトリガとするトラッキングではユーザがしゃべり始める瞬間の撮影を逃してしまうことがある。
このようなことから、ユーザの発声タイミングを事前に検知する技術が望まれている。
By the way, when shooting a user's talking in real time with a camera, the tracking technique described above may shoot a situation after the user has already started talking. In other words, in tracking using sound generation as a trigger, shooting at the moment when the user starts speaking may be missed.
For this reason, a technique for detecting a user's utterance timing in advance is desired.
そこで、本発明は、上述した事情に鑑みてなされたものであり、ユーザの発声タイミングを事前に検知することを目的とする。 Therefore, the present invention has been made in view of the above-described circumstances, and an object thereof is to detect a user's utterance timing in advance.
上記目的を達成するため、本発明の1つの観点によれば、
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置を提供するものである。
In order to achieve the above object, according to one aspect of the present invention,
Detection means for detecting physiological behavior prior to user utterance;
Execution means for executing predetermined processing based on the detection result of the detection means;
The present invention provides a detection device characterized by comprising:
本発明によれば、ユーザの発声タイミングを事前に検知することができる。 ADVANTAGE OF THE INVENTION According to this invention, a user's utterance timing can be detected in advance.
以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明の実施形態に係る検知システム10の構成を示す図である。この検知システム10は、検知装置(センシングデバイス)100と、追尾装置(Webカメラ)200と、から構成される。検知装置100は、ウェアラブル装置であってユーザに装着される。この実施形態においては、ユーザの発声前の喉の震えを検知する関係上、検知装置100は首に着ける装身具であって、例えば、ネックレスである。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a diagram showing a configuration of a
この検知システム10の基本となる技術的思想は、検知装置100においてユーザの発声前の喉の震えを検知する点にある。検知の手法は任意だが、この実施形態では一例として、ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換(フーリエ変換)して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、喉の震えを検知する。
この検知の後、検知装置100は、ユーザIDを無線送信する。次に、追尾装置200は、受信したユーザIDのユーザを追尾する。以上が自動追尾の流れである。
The technical idea that is the basis of the
After this detection, the
なお、この実施形態においては、理解を容易にするために、ユーザは一人である場合を例にとって説明する。また、ユーザは追尾装置200の画角内に収まる、すなわちフレームアウトしていない場合を例にとって説明する。
また、追尾装置200が写す映像はリアルタイムにPC(Personal Computer)300に転送され、そのPC300のディスプレイ301にライブビューが表示されている前提で説明する。また、図1のユーザはユーザAと称して説明し、ユーザAを特段特定する必要がなければ上位概念としてユーザと称して説明する。
In this embodiment, in order to facilitate understanding, a case where there is only one user will be described as an example. Further, a case where the user falls within the angle of view of the
In addition, a description will be made on the assumption that the video captured by the
さて、以下では、検知システム10を構成する各装置(検知装置100、追尾装置200)について順に説明する。
In the following, each device (the
まず、図2を参照しながら、検知装置100の構成について説明する。この検知装置100は、ジャイロセンサ110、制御部120、記憶部130及び無線通信I/F(インタフェース)140を備える。
First, the configuration of the
ジャイロセンサ110は、回転角(ピッチ、ヨー、ロール)を検知するための3軸ジャイロセンサである。すなわち、ジャイロセンサ110は、検知装置100の静止状態からの傾きを検知可能であって、この実施形態においては、喉の震えに応じて検知装置100が傾いた際の角度を検知する。
The
制御部120は、例えばCPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部120は、ROMに記憶されたプログラムに従って制御することにより、各部(検知部121、特定部122、送信部123)の機能を実現する。なお、制御部120のハードウェアは、CPU等に限らず、ネックレスの大きさに合わせて小型のIC(Integrated Circuit)等で構成してもよいことはもちろんである。
The control unit 120 includes, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. The control part 120 implement | achieves the function of each part (the
記憶部130は、不揮発性メモリ(例えば、フラッシュメモリなど)から構成され、発声前波形131を記憶する。発声前波形131は、ユーザの発声前の喉の震えを検知するために予め学習された波形である。具体的には、図3に示す発声前後の喉の震えの大きさの経時的変化を示す波形をフーリエ変換して、図4に示す周波数波形にしたものが発声前波形131となる。
The storage unit 130 is configured by a non-volatile memory (for example, a flash memory) and stores a
図3の波形は、横軸が時間(t)、縦軸が喉の震えの大きさ(dB)、を示し、発声前の期間(t2−t1)においては喉の震えの大きさが発声後に比べて小さい。なお、喉の震えの大きさは、音圧に比例するので単位はdBとなる。この図3の波形をフーリエ変換すると、図4に示す発声前波形131(周波数波形)が得られる。図4の発声前波形131は、横軸が周波数(Hz)、縦軸が音圧の(喉の震えの)大きさ(dB)、を示す。図中に示すように、発声前においては特定の周波数帯域T(T1からT2の帯域)に亘って、大きさ(dB)が発声後の大きさに比べて小さい特徴波形が得られる。この特徴波形は、発声前の周波数の特徴を示す。
In the waveform of FIG. 3, the horizontal axis indicates time (t), and the vertical axis indicates the magnitude of the throat tremor (dB). In the period (t2-t1) before vocalization, the magnitude of the throat tremor is Smaller than that. Note that the magnitude of tremor in the throat is proportional to the sound pressure, so the unit is dB. When the waveform of FIG. 3 is Fourier transformed, a pre-voice waveform 131 (frequency waveform) shown in FIG. 4 is obtained. In the
この予め学習しておいた発声前波形131の特徴波形の有無をモニタリングすることでユーザの発声前の喉の震えを検知する。なお、記憶部130は、発声前波形131以外に、自装置(検知装置100)の装置IDを記憶する。この実施形態においては、検知装置100はユーザに身に着けられ、ユーザと一対一に紐付いているので、装置IDは実質的にユーザIDともいえる。以下では、図1のユーザAのユーザIDを「A」として説明する。なお、記憶部130は、装置IDに代えてユーザIDを直接記憶してもよいことはもちろんである。
By monitoring the presence / absence of the characteristic waveform of the
さて、図2に戻って、無線通信I/F140は、外部装置と無線通信を行うための通信インタフェースである。この実施形態においては、無線通信として、Bluetooth(登録商標)による近距離無線通信を用いる。特に、検知装置100の電池寿命の観点から、低消費電力であるBLE(Bluetooth Low Energy)による近距離無線通信が好適である。
Now, returning to FIG. 2, the wireless communication I /
次に、制御部120の機能について説明する。
制御部120は機能として、検知部121と特定部122と送信部123を備える。
Next, functions of the control unit 120 will be described.
The control unit 120 includes a
検知部121は、ユーザの発声に先立つ生理的な挙動(この実施形態においては、一例として、発声前の喉の震え)を検知する。具体的には、検知部121は、ジャイロセンサ110によってリアルタイムに検知する実測値(喉の震えの大きさの実測値)をフーリエ変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、を比較することで、発声前の喉の震えを検知する。
The
次に、特定部122は、検知部121の検知結果に基づき、所定処理を実行する。この実施形態では、特定部122は、所定処理として、検知部121が発声前の喉の震えを検知すると、発声までにかかる時間を示す時間情報を特定する。具体的には、特定部122は、図3に示した喉が震える発声前の期間t2−t1(秒)を、時間情報として特定する。例えば、時間情報は、0.5秒である。なお、この時間情報の値は、検知部121が検知するまでにかかった時間に基づいて補正してもよい。例えば、検知に0.1秒要した場合は、補正後の時間情報は0.4(0.5−0.1)秒となる。なお、特定部122は、実行手段として機能とする。
Next, the specifying
次に、送信部123は、検知部121が発声前の喉の震えを検知すると、ユーザのユーザIDと、特定部122が特定した時間情報と、を無線通信I/F140を介してBLEに基づき無線送信する。この実施形態において、送信部123は、ユーザAのユーザIDAと、発声までにかかる時間を示す時間情報(例えば、0.5秒)と、を無線送信する。
Next, when the
以上、検知装置100の構成について説明した。以下では、追尾装置200の構成について説明する。この追尾装置200は、無線通信I/F210、制御部220、撮像部230、記憶部240、サーボモータ250、操作部260、外部I/F(インタフェース)270及びマイク280を備える。
The configuration of the
無線通信I/F210は、外部装置(この実施形態においては検知装置100)と無線通信を行うための通信インタフェースである。
制御部220は、例えばCPUやROM、RAMなどにより構成される。制御部220は、ROMに記憶されたプログラムに従って制御することにより、各部(受信部221、追尾部222、実行部223)の機能を実現する。
The wireless communication I /
The control unit 220 includes, for example, a CPU, ROM, RAM, and the like. The control unit 220 implements the functions of each unit (
撮像部230は、被写体を撮影するためのCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサと、光学系(レンズ、絞り、シャッタなど)と、を備えたカメラである。
The
記憶部240は、不揮発性メモリなどから構成され、録画された動画や音声、後述する追尾用テーブルなどを記憶する。
サーボモータ250は、サーボ機構によって位置・速度制御を行うモータである。このサーボモータ250により、追尾装置200の撮像部230は、上下左右に回動可能である。
操作部260は、電源ボタンなどの各種ボタンによって構成される。
The
The
The
外部I/F270は、USB(Universal Serial Bus)コネクタなどから構成される。外部I/F270は、USBケーブルを介して、外部装置であるPC300へ撮影中の映像をリアルタイムで転送する。
マイク280は、外部音声を収音する音声入力部である。
The external I /
The
次に、制御部220の機能について説明する。
制御部220は、機能として受信部221、追尾部222、実行部223を備える。
Next, functions of the control unit 220 will be described.
The control unit 220 includes a
受信部221は、検知装置100の送信部123から無線送信されたユーザIDと時間情報とを受信する。この実施形態において、受信部221は、無線送信されたユーザIDAと時間情報とを受信する。
The receiving
追尾部222は、受信部221が受信したユーザIDのユーザを追尾する。この実施形態において、追尾部222は、ユーザIDAのユーザAを追尾する。追尾の手法は任意であるが、この実施形態では一例として、顔画像を用いたマッチングによりユーザを追尾する。この場合、図6の追尾用テーブルが示すように、予め、ユーザIDとユーザの顔画像とを対応付けて記憶しておく。例えば、ユーザIDAのユーザAの顔画像A1をマッチングに用いるテンプレート画像として対応付けて記憶しておく。
The
ここで、追尾部222は、追尾用テーブルを参照して、ユーザIDAに対応付けられた顔画像A1を特定する。そして、追尾部222は、顔画像A1を用い、撮像部230によってユーザAの顔を認識後、その撮像部230の向きがユーザAの顔の方向になるようにサーボモータ250を制御して、ユーザAを追尾する。
Here, the
実行部223は、時間情報が示す発声までにかかる時間に基づいて、その発声のタイミングで追尾部222が追尾中のユーザに関連する所定処理を実行する。実行部223は、所定処理の一例として、発声のタイミングでユーザAを被写体とする動画の録画を開始するようにする。これにより、PC300のディスプレイ301に映るライブビューにおいて、追尾中のユーザAに対する動画の録画が開始される。なお、録画された動画は追尾装置200の記憶部240に記憶されても、PC300の記憶部に記憶されてもよい。
The
以上、図2乃至図6を参照しながら検知システム10を構成する各装置(検知装置100、追尾装置200)について説明した。以下では、各装置が行う処理について順に説明する。
Heretofore, the respective devices (the
まず、図7を参照しながら検知装置100が行う検知処理について説明する。この検知処理は、検知装置100を装着するユーザがジャイロセンサ110の電源をONすることを契機として開始される。なお、以下では適宜ユーザAを例にとって説明する。
First, detection processing performed by the
まず、検知部121は、生理的な挙動を検知したか否か判定する(ステップS11)。具体的には、検知部121は、ユーザAの喉の震えを、上述した要領で、ユーザAの喉の震えの大きさの経時的変化を示す波形を周波数変換(フーリエ変換)して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて検知する。
First, the
検知部121は、生理的な挙動を検知するまで待機し(ステップS11;No)、生理的な挙動、すなわちユーザAの喉の震えを検知すると(ステップS11;Yes)、ステップS12に進む。
The
ステップS12において、特定部122は、発声までにかかる時間を特定する。具体的には、特定部122は、上述した要領で、図3に示した波形において喉が震える期間t2−t1(秒)を、時間情報として特定する。
In step S <b> 12, the specifying
次に、送信部123は、ユーザIDと特定した時間情報とを無線送信する(ステップS13)。具体的には、送信部123は、上述した要領で、ユーザAのユーザIDAと、特定部122が特定した時間情報と、を無線通信I/F140を介してBLEに基づき無線送信する。ステップS13の後、検知処理を終了する。
検知装置100は、以上の検知処理を、生理的な挙動を検知する都度、反復して実行する。
Next, the
The
さて、次に、図8を参照しながら、追尾装置200が行う追尾処理について説明する。この追尾処理は、受信部221がユーザIDと時間情報を受信するまで待機しておき(ステップS21;No)、ユーザIDと時間情報とを受信すると(ステップS21;Yes)、開始する。
ユーザIDと時間情報を受信すると、追尾部222は、ユーザIDのユーザを追尾する(ステップS22)。具体的には、追尾部222は、上述した要領で、追尾用テーブルからユーザIDAに対応する顔画像A1を特定し、その特定した顔画像A1に基づいて、ユーザAを追尾する。
Now, a tracking process performed by the
When receiving the user ID and the time information, the
ここで、追尾前のユーザAの位置が、PC300のディスプレイ301において図9の(A)又は(B)の位置だったとする。この場合、追尾部222は、図10に示すように、ユーザAがディスプレイ301の中央において所定の大きさになるように、サーボモータ250及び撮像部230の光学系を制御する。このように、追尾部222は、ユーザAの発声前において、ユーザAの動きを追尾(トラッキング)する。
Here, it is assumed that the position of the user A before tracking is the position of (A) or (B) in FIG. 9 on the
次に、実行部223は、発声のタイミングで所定処理を実行する(ステップS23)。具体的には、実行部223は、上述した要領で、時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザAを被写体とする動画の録画を開始するようにする。ステップS23の後、追尾処理を終了する。なお、この追尾処理終了後も、追尾部222は、ユーザAを追尾するようにする。
Next, the
以上、この実施形態における検知システム10によれば、検知装置100はユーザの発声に先立つ喉の震えを検知すると、そのユーザのユーザIDを無線送信し、一方で、ユーザIDを受信した追尾装置200は、そのユーザIDのユーザを追尾するようにしている。このため、ユーザの発声タイミングに遅れてトラッキングを開始するようなことがない。したがって、ユーザがしゃべり始める瞬間の録画を逃してしまうといった事態を避けることができる。
また、検知装置100は、学習しておいた発声前波形131における特徴波形と、リアルタイムに周波数変換して得られる周波数波形と、を比較することでユーザの喉の震えを検知する。このため、精度よく発声前の生理的な挙動を検知することができる。
As described above, according to the
Moreover, the
なお、この実施形態においては、ユーザの発声タイミングで動画の録画を開始するようにしたが、これに限られない。例えば、ユーザの発声タイミングでユーザの声を録音するようにしてもよい。これによれば、ユーザAが発声した後に録音を開始するといった事態を避けることができ、ユーザのしゃべる瞬間を逃さずに録音することができる。 In this embodiment, video recording is started at the user's utterance timing. However, the present invention is not limited to this. For example, the user's voice may be recorded at the user's voice timing. According to this, it is possible to avoid a situation where recording is started after the user A utters, and recording can be performed without missing the moment when the user speaks.
また、ユーザの発声タイミングでユーザに応じた撮影モードに切り替えるようにしてもよい。例えば、予めユーザAが追尾装置200の追尾用テーブルに、ユーザIDAと撮影モードとを対応付ける設定をしておく。これによれば、ユーザAの発声タイミングでユーザAが所望する撮影モード(例えば、ユーザAの顔を明るく滑らかにする画像補正を施すメイクアップモード)に切り替えることができる。したがって、ユーザ個人の趣味嗜好に応じたカスタマイズを行うことができるので、ユーザの満足度を向上することができる。
Moreover, you may make it switch to the imaging | photography mode according to a user at the user's utterance timing. For example, the user A sets the user IDA and the shooting mode in advance in the tracking table of the
また、上述した実施形態においては、ユーザが一人である場合を例にとって説明したが、これに限られない。以下では、ユーザが複数いる場合の検知システム10の利用例を、図11を参照しながら説明する。
In the above-described embodiment, the case where there is only one user has been described as an example, but the present invention is not limited to this. Below, the usage example of the
図11は、複数人(ユーザA〜Cの3人)で会議などのライブチャットをする場面を想定している。ユーザA及びユーザBは同一ロケーション、ユーザCはリモートロケーションにおり、インターネット等を介して検知システム10を利用したライブチャットを行う場面である。ユーザCのPC400にはリアルタイムで追尾装置200Aが撮影する映像が映っている。
FIG. 11 assumes a scene where a live chat such as a meeting is performed by a plurality of users (three users A to C). A user A and a user B are in the same location and a user C is in a remote location, and is a scene where a live chat using the
ここで、ユーザAとユーザBが交互にしゃべったとする。この場合、ユーザAの発声に先立つ喉の震えを検知装置100Aが検知してユーザIDAを無線送信する。すると、追尾装置200AはユーザIDAを受信してユーザIDAのユーザAの追尾を行う。このため、ユーザCは、PC400のディスプレイにおいてユーザAがしゃべり始める瞬間を逃さず見ることができる。
Here, it is assumed that user A and user B talk alternately. In this case, the
同様に、検知装置100BがユーザBの発声に先立つ喉の震えを検知すると、ユーザIDBを無線送信する。すると、追尾装置200AはユーザIDBを受信してユーザIDBのユーザBの追尾を行う。このため、ユーザCは、同様に、PC400のディスプレイにおいてユーザBがしゃべり始める瞬間を逃さず見ることができる。
この利用例によれば、会議などのライブチャットにおいて、複数のユーザが互いのしゃべり始める瞬間を逃さず見ることができるので、会話の齟齬を減らすことができる。このように、検知システム10は、複数人で使用する場合に好適である。なお、図11の例の場合、発声タイミングにおいて所定処理(上述した実施形態において動画録画を開始するなど)を実行するのは必須ではない。
Similarly, when the
According to this usage example, in a live chat such as a meeting, it is possible to watch without missing the moment when a plurality of users start to talk to each other, so it is possible to reduce conversational habits. Thus, the
この図11の例に限らず、例えば、テレビのライブショー等で出演者がそれぞれ検知装置100を着けていれば、追尾装置200たるビデオカメラを自動で出演者がしゃべり始める前から追尾させて、しゃべる瞬間を撮影するといった使用が可能である。
For example, if a performer wears the
また、上述した実施形態において追尾装置200は、追尾用テーブルを参照して顔画像を特定した後、フェイストラッキングによりユーザを追尾するようにしたが、これに限られない。例えば、図12に示すように、追尾用テーブルにネックレスの形状画像を記憶しておき、このネックレスの形状画像に基づいて追尾を行ってもよい。
In the above-described embodiment, the
この場合、検知装置100毎にネックレスの形状を異ならせる。例えば、検知装置100Aの形状を楕円形状A2、検知装置100Bの形状を星形B2、検知装置100Cの形状をハート型C2、といった具合に異ならせる。ここで、追尾装置200の受信部221がユーザIDAを受信したとする。すると、追尾部222は、ネックレスの楕円形状A2を追尾用テーブルを参照して特定し、A2をトラッキングすることでユーザAを追尾する。
これによれば、ユーザAの顔が半分フレームアウトしたとしてもネックレスが映っている限りユーザAをトラッキングできるとともに、顔画像とあわせて追尾を行えば追尾精度を上げることができる。
In this case, the shape of the necklace is changed for each
According to this, even if the face of the user A is half out of the frame, the user A can be tracked as long as the necklace is reflected, and tracking accuracy can be improved if tracking is performed together with the face image.
以上で実施形態の説明を終了するが、上記実施形態は一例であり、検知装置100や追尾装置200の構成や各装置が行う処理の内容などが上記実施形態で説明したものに限られないことはもちろんである。
Although the description of the embodiment is finished as described above, the above embodiment is an example, and the configuration of the
(変形例1)
上述した実施形態においてはユーザが追尾装置200の画角内に入っている場合、すなわちフレームアウトしていない場合を前提に説明した。しかし、実際にはユーザがフレームアウトする場合も想定される。そこで、この変形例1においては、ユーザがフレームアウトした場合に備えた検知システムについて説明する。図13に変形例1に係る検知装置100’の構成を示す。この検知装置100’は、上述した実施形態の検知装置100と比べて、GPS(Global Positioning System)111を備えた点、特定部122が位置特定を行う点、が異なる。以下ではこの異なる点を中心に説明する。
(Modification 1)
In the above-described embodiment, the case where the user is within the angle of view of the
GPS111は、緯度経度などの位置情報を取得するGPS受信機である。
特定部122は、検知部121がユーザの喉の震えを検知すると、ユーザの位置情報をGPS111に基づいて特定する。例えば、特定部122は、図1のユーザAの緯度X、経度YをGPS111に基づいて特定する。送信部123は、ユーザIDAと、特定した位置情報と、を無線送信する。
The
When the
一方、追尾装置200の追尾部222は、ユーザの位置情報に基づいて、撮像部230の向きを制御してそのユーザを探索後、その探索したユーザを追尾する。例えば、追尾部222は、ユーザAがフレームアウトしている場合、受信した位置情報に基づいて、撮像部230の向きを位置情報が示す緯度経度に向けてユーザAを探索する。探索後、追尾部222は、ユーザAの顔画像A1に基づいて、ユーザAを追尾する。
On the other hand, the
以上、この変形例1によれば、ユーザがフレームアウトした場合であっても、位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができる。なお、特定部122は、発声までにかかる時間を示す時間情報の特定に加えて、位置情報の特定を行ってもよい。これによれば、ユーザを探索して追尾しつつ、発声タイミングで所定処理を実行することができる。
As described above, according to the first modification, even when the user is out of the frame, the user can be searched and tracked based on the position information. Therefore, tracking accuracy can be improved. Note that the specifying
なお、上記変形例1では、ユーザが一人である場合を例にとって説明したが、これに限られない。例えば、会議などにおいて複数のユーザがいる場合に、変形例1に係る検知装置100’を適用してもよい。この場合、複数のユーザ(例えば、ユーザA〜C)それぞれが検知装置100’を着けて、発声前に位置情報とユーザIDとを無線送信するようにする。これによれば、追尾装置200は、各ユーザがフレームアウトしていても位置情報に基づいて各ユーザを探索後、発声前に追尾を開始することができる。
In the first modification, the case where there is only one user has been described as an example, but the present invention is not limited to this. For example, when there are a plurality of users in a meeting or the like, the
(変形例2)
上述した変形例1においては、ユーザがフレームアウトした場合に備えて、検知装置100’が位置情報を特定して無線送信するようにしたが、これに限られない。この変形例2においては、追尾装置200’が発声前のユーザ位置を推定して探索する点について説明する。図14に変形例2に係る追尾装置200’を示す。この追尾装置200’は、推定部224を備えた点が上述した実施形態の追尾装置200と異なる。以下ではこの異なる点を中心に説明する。
(Modification 2)
In the first modification described above, the
推定部224は、受信部221が受信したユーザIDの受信信号強度(RSSI:Received Signal Strength Indicator)と、そのユーザIDが無線送信された方向と、に基づいて、そのユーザIDのユーザの位置情報を推定する。具体的には、推定部224は、受信信号強度から、検知装置100を着けたユーザAまでの距離を推定する。この推定は、追尾装置200’がRSSI値と距離とを対応付けたテーブルを予め記憶しておき、そのテーブルを利用して行えばよい。
Based on the received signal strength indicator (RSSI) of the user ID received by the receiving
同時に、推定部224は、受信部221がユーザIDを受信した方向から送信源である検知装置100の方向を推定する。方向推定の手法は任意だが、例えば、電波の到来方向を指向性アンテナ等で探知すればよい。
At the same time, the
これにより、推定部224は、検知装置100を着けたユーザAまでの距離と方向を推定することができる。そして、追尾部222は、推定された方向にサーボモータ250を制御して撮像部230を向けるとともに、推定された距離に応じて光学系を制御して(ズームイン、ズームアウト等して)、ユーザAを探索する。探索後、追尾部222は、そのユーザAを追尾する。
Thereby, the
以上、この変形例2によれば、ユーザがフレームアウトした場合であっても、追尾装置200’が推定した位置情報に基づいてユーザを探索して追尾することができる。したがって、追尾精度を向上させることができることに加えて、検知装置100からユーザの位置情報を送信する必要がないので処理負荷を抑えることができる。
As described above, according to the second modification, even when the user is out of the frame, the user can be searched and tracked based on the position information estimated by the
(変形例3)
上述した実施形態及び各変形例においては、追尾装置200(Webカメラ)が発声前のユーザを追尾する場合を例にとって説明したが、これに限られない。例えば、追尾装置200に代えて、録音装置500(ICレコーダー)を用いてもよい。この場合の検知システム20を図15に示す。
なお、録音装置も音を追尾するのであるから、録音装置は追尾装置の一形態である。
(Modification 3)
In the embodiment and each modification described above, the case where the tracking device 200 (Web camera) tracks the user before uttering has been described as an example, but the present invention is not limited to this. For example, instead of the
Since the recording device also tracks the sound, the recording device is a form of the tracking device.
検知システム20は、図中に示すように、検知装置100と録音装置500とから構成される。この検知装置100の構成は、上述した実施形態と同じである。一方、録音装置500は、上述した実施形態の追尾装置200と比べて追尾に係る構成(追尾部222、実行部223、撮像部230、サーボモータ250)を除外して、新たに録音部225を設けた点が異なる。そこで、以下ではこの異なる点を中心に説明する。なお、図15は、ユーザが自身の声を録音する場面を想定している。
The
まず、検知装置100の検知部121は、ユーザAの発声に先立つ喉の震えを検知したとする。すると、特定部122は、ユーザAの発声までにかかる時間を示す時間情報を特定する。そして、送信部123は、特定した時間情報を無線送信する。
一方で、録音装置500の受信部221は、送信部123から無線送信された時間情報を受信する。そして、録音部225は、受信部221が受信した時間情報が示す発声までにかかる時間に基づいて、発声のタイミングでユーザAの声の録音を開始する。具体的には、録音部225は、発声のタイミングでマイク280をONにしてユーザAの声を収音して記憶部240に記憶する。その後、録音部225は、マイク280からの音声信号が途絶えて所定時間経過するとマイク280をOFFする。
First, it is assumed that the
On the other hand, the receiving
このように、図15の検知システム20では、ユーザAがしゃべる前に、マイク280がONして自動録音することができる。この場合、検知装置100が喉の震えをトリガに発声までにかかる時間情報を録音装置500に送信し、録音装置500はその時間情報に基づいて、発声のタイミングで録音を開始する。このため、ユーザAがしゃべり始めた後に録音を開始するようなことがない。また、自動でマイクのON・OFFをするので、ユーザAは特に録音を意識することなく自身の声を漏れなく録音することができる。この変形例3に係る検知システム20は、今後のトレンドである人の音声などのデータを自動記録するライフログのツールとして好適である。
As described above, in the
なお、検知システム20は、上記図15の例に限らず、様々な場面に応用することができる。例えば、録音装置500がICレコーダではなくスマートフォンだった場合に、検索エンジン(例えば、グーグル(登録商標)など)を用いて音声検索をする場面を想定する。
この場合、ユーザは、音声検索を開始するための開始指示をしなくとも、ユーザの発声に先立ってスマートフォンのマイクが自動でONになる。すなわち、ユーザが着けた検知装置100がユーザの喉の震えを検知して、発声までにかかる時間情報を無線送信する。そして、スマートフォンが受信した時間情報に基づいて、ユーザの発声のタイミングでマイクを自動でONにしてユーザの声の録音を開始する。
従って、本変形例の録音装置500は、ICレコーダやスマートフォンなどのボイスレコーダに適用すると好適である。
The
In this case, even if the user does not give a start instruction for starting the voice search, the microphone of the smartphone is automatically turned on prior to the user's utterance. That is, the
Therefore, the
このように、検知システム20の別例によれば、ユーザが音声検索前に毎回マイクをONする必要がないので、ユーザにかかる負担を軽減することができる。なお、上述した実施形態に係る検知システム10と変形例3に係る検知システム20とは、検知装置100がユーザの発声に先立つ生理的な挙動(喉の震え)を検知する点、受信側装置(追尾装置200又は録音装置500)がユーザの発声前に所定動作(追尾又は録音)を行う点、で共通の技術的特徴を有することを念のため付言する。つまり、検知システム10と検知システム20は単一性があることを念のため付言する。
As described above, according to another example of the
(変形例4)
なお、上述した実施形態及び各変形例においては、検知装置100がユーザの発声タイミングを検知する前提で説明したが、これに限られない。例えば、検知装置100(ネックレス)は、ジャイロセンサ110でユーザの喉が震え始めたことを検知すると、即座に検知した信号を送信して、受信側装置(追尾装置200又は録音装置500)でユーザの発声タイミングを検知してもよい。なお、受信側装置は、送信側の検知装置100の信号に基づいて、ユーザの発声タイミングを検知するので検知装置ともいえる。すなわち、この変形例4において追尾装置200又は録音装置500は、実質的に検知装置として機能する。
(Modification 4)
In addition, although embodiment mentioned above and each modification demonstrated on the premise that the
ここで、変形例4に係る検知装置100”を図17に示す。図17に示す検知装置100”は、実施形態に係る追尾装置200と比べて、検知部290を備えた点及び記憶部240が発声前波形241を備えた点が異なる。以下では、この異なる点を中心に説明する。
Here, the
まず、送信側の検知装置100は、上記信号にジャイロセンサ110で検知した喉の震えの大きさの実測値を含めて送信する。一方、受信側の検知装置100”の受信部221は、喉が震えたことを示す信号を受信する。
First, the transmitting-
次に、検知部290は、その信号に含まれる実測値をフーリエ変換して周波数波形を得ると、その得られた周波数波形の周波数とその大きさとからユーザが発声前か否か判定する。すなわち、周波数波形の周波数が、特徴波形が示す発声前の周波数帯域内であり、かつ、周波数波形の大きさが特徴波形の大きさと同じであれば、ユーザが発声前であると判定する。そして、検知部290は、発声までにかかる時間(t2−t1)秒を特定して、発声のタイミングを検知する。
そして、実行部223は、検知部290が検知した発声のタイミングで所定処理(例えば、ユーザを被写体とする動画の録画又はユーザの音声の録音の開始)を実行する。
Next, when the
Then, the
以上、変形例4に係る検知装置100”によれば、送信側のウェアラブルな検知装置100の構成を簡素化することができる。このため、検知装置100の処理負荷を軽減するとともに、検知装置100を小型化することができる。
なお、検知装置100”の実行部223は、受信部221が喉が震えたことを示す信号を受信すると、撮影又は録音のスタンバイを行ってもよい。撮影のスタンバイとしては、例えば、追尾部222がユーザをトラッキングするなどである。録音のスタンバイとしては、例えば、マイク280のスイッチをONするなどである。
As described above, according to the
Note that the
なお、上述した実施形態及び各変形例においては、生理的な挙動が喉の震えであることを前提に説明したが、これに限られない。例えば、検知装置100は、喉の震えに代えて発声前の肺の動きを検知してもよい。この場合、検知装置100はネックレスではなく、例えば、肺の動きを検知できるように胸付近に装着可能なバンド等で構成すればよい。
In addition, in embodiment mentioned above and each modification, although demonstrated on the assumption that physiological behavior was a tremor of the throat, it is not restricted to this. For example, the
また、この発明の検知システム10を構成する検知装置100と追尾装置200の各機能は、通常のPC等のコンピュータによっても実施することができる。
具体的には、上記実施形態では、各装置が行う各処理(検知処理、追尾処理)のプログラムが、各装置の制御部120、220のROMに予め記憶されているものとして説明した。しかし、各処理のプログラムを、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)及びMO(Magneto-Optical Disc)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の各部の機能を実現することができるコンピュータを構成してもよい。
Moreover, each function of the
Specifically, in the above-described embodiment, the program of each process (detection process and tracking process) performed by each device has been described as being stored in advance in the ROMs of the control units 120 and 220 of each device. However, each processing program is stored and distributed on a computer-readable recording medium such as a flexible disk, CD-ROM (Compact Disc Read Only Memory), DVD (Digital Versatile Disc), and MO (Magneto-Optical Disc). A computer that can realize the functions of the above-described units may be configured by installing the program in the computer.
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。 As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to the specific embodiment which concerns, This invention includes the invention described in the claim, and its equivalent range It is. Hereinafter, the invention described in the scope of claims of the present application will be appended.
(付記1)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
(Appendix 1)
Detection means for detecting physiological behavior prior to user utterance;
Execution means for executing predetermined processing based on the detection result of the detection means;
A detection device comprising:
(付記2)
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記1に記載の検知装置。
(Appendix 2)
The detection means includes a frequency waveform obtained by frequency-converting a waveform indicating a temporal change in the magnitude of the tremor of the user's throat, and a characteristic waveform indicating a pre-speech frequency characteristic that has been learned in advance. , Based on the comparison, detecting tremors in the throat prior to the user's utterance,
The detecting device according to
(付記3)
前記実行手段は、前記所定処理として、前記ユーザのユーザ識別情報、該ユーザの発声までにかかる時間を示す時間情報又は該ユーザの位置情報のうち、何れか1つの情報を出力する、
ことを特徴とする付記1又は2に記載の検知装置。
(Appendix 3)
The execution means outputs, as the predetermined process, any one of the user identification information of the user, time information indicating a time taken until the user utters, or position information of the user.
The detection apparatus according to
(付記4)
ユーザの発声に先立つ生理的な挙動を示す信号を受信する受信手段と、
前記受信手段が受信した信号に基づいて所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。
(Appendix 4)
Receiving means for receiving a signal indicating physiological behavior prior to the user's utterance;
Execution means for executing predetermined processing based on a signal received by the receiving means;
A detection device comprising:
(付記5)
前記実行手段は、前記所定処理として、撮影又は録音のスタンバイを行う、
ことを特徴とする付記4に記載の検知装置。
(Appendix 5)
The execution means performs shooting or recording standby as the predetermined processing.
The detection device according to supplementary note 4, wherein
(付記6)
前記受信手段が受信した信号に基づいて、前記ユーザの発声のタイミングを検知する検知手段を備え、
前記実行手段は、前記所定処理として、前記検知手段が検知した発声のタイミングで所定処理を実行する、
ことを特徴とする付記4に記載の検知装置。
(Appendix 6)
Based on the signal received by the receiving means, comprising a detecting means for detecting the timing of the utterance of the user,
The execution means executes the predetermined process at the utterance timing detected by the detection means as the predetermined process.
The detection device according to supplementary note 4, wherein
(付記7)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
を備えたことを特徴とする検知システム。
(Appendix 7)
Detection means for detecting physiological behavior prior to user utterance;
When the detection means detects the physiological behavior, a detection device comprising: transmission means for transmitting user identification information of the user;
Receiving means for receiving user identification information transmitted from the transmitting means;
A tracking device comprising: tracking means for tracking the user of the user identification information received by the receiving means;
A detection system characterized by comprising:
(付記8)
前記検知手段は、前記ユーザの喉の震えの大きさの経時的変化を示す波形を周波数変換して得られた周波数波形と、予め学習しておいた発声前の周波数の特徴を示す特徴波形と、の比較に基づいて、前記ユーザの発声に先立つ喉の震えを検知する、
ことを特徴とする付記7に記載の検知システム。
(Appendix 8)
The detection means includes a frequency waveform obtained by frequency-converting a waveform indicating a temporal change in the magnitude of the tremor of the user's throat, and a characteristic waveform indicating a pre-speech frequency characteristic that has been learned in advance. , Based on the comparison, detecting tremors in the throat prior to the user's utterance,
The detection system according to appendix 7, characterized by:
(付記9)
前記追尾手段は、撮像手段によって前記ユーザの顔又は該ユーザが装着する前記検知装置の形状を認識後、該撮像手段の向きが前記顔又は前記形状の方向になるように制御して該ユーザを追尾する、
ことを特徴とする付記7又は8に記載の検知システム。
(Appendix 9)
The tracking means, after recognizing the face of the user or the shape of the detection device worn by the user by the imaging means, controls the imaging means so that the orientation of the imaging means becomes the direction of the face or the shape. To track,
The detection system according to
(付記10)
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
前記追尾装置は、さらに、
前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
ことを特徴とする付記7乃至9の何れか一つに記載の検知システム。
(Appendix 10)
The detection device further includes:
When the detecting means detects the physiological behavior, it comprises time specifying means for specifying time information indicating the time taken until the utterance,
The transmission means transmits the time information in addition to the user identification information,
The tracking device further includes:
Based on the time taken for the utterance indicated by the time information, the tracking means includes an execution means for executing a predetermined process related to the user being tracked at the timing of the utterance.
The detection system according to any one of appendices 7 to 9, characterized in that:
(付記11)
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザを被写体とする動画の録画又は該ユーザの声の録音を開始する、
ことを特徴とする付記10に記載の検知システム。
(Appendix 11)
The execution means starts the recording of the moving image or the voice of the user as the subject at the timing of the utterance as the predetermined process,
The detection system according to
(付記12)
前記実行手段は、前記所定処理として、前記発声のタイミングで前記ユーザに応じた撮影モードに切り替える、
ことを特徴とする付記10に記載の検知システム。
(Appendix 12)
The execution means switches to the shooting mode according to the user at the time of the utterance as the predetermined process.
The detection system according to
(付記13)
前記検知装置は、さらに、
前記検知手段が前記生理的な挙動を検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記7乃至12の何れか一つに記載の検知システム。
(Appendix 13)
The detection device further includes:
When the detecting means detects the physiological behavior, the detecting means includes position specifying means for specifying the position information of the user,
The transmission means transmits the user location information in addition to the user identification information,
The tracking means controls the direction of the imaging means based on the user position information and searches for the user, and then tracks the searched user.
The detection system according to any one of appendices 7 to 12, characterized in that:
(付記14)
前記追尾装置は、さらに、
前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする付記7乃至12の何れか一つに記載の検知システム。
(Appendix 14)
The tracking device further includes:
An estimation unit configured to estimate the position information of the user of the user identification information based on a received signal strength of the user identification information received by the reception unit and a direction in which the user identification information is transmitted;
The tracking means controls the direction of the imaging means based on the user position information and searches for the user, and then tracks the searched user.
The detection system according to any one of appendices 7 to 12, characterized in that:
(付記15)
前記検知装置は、前記ユーザが身体に装着するウェアラブル装置である、
ことを特徴とする付記7乃至14の何れか一つに記載の検知システム。
(Appendix 15)
The detection device is a wearable device worn by the user on the body,
The detection system according to any one of appendices 7 to 14, characterized in that:
(付記16)
ユーザの発声に先立つ生理的な挙動を検知する検知手段と、
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信された時間情報を受信する受信手段と、
前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
を備えたことを特徴とする検知システム。
(Appendix 16)
Detection means for detecting physiological behavior prior to user utterance;
When the detecting means detects the physiological behavior, time specifying means for specifying time information indicating a time taken until the utterance;
A transmission device that transmits the time information specified by the time specification device;
Receiving means for receiving time information transmitted from the transmitting means;
A recording device comprising: recording means for starting recording of the voice of the user at the timing of the utterance based on the time taken until the utterance indicated by the time information received by the receiving means;
A detection system characterized by comprising:
(付記17)
ユーザの発声に先立つ生理的な挙動を検知する検知ステップと、
前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
を備えたことを特徴とする検知方法。
(Appendix 17)
A detection step for detecting physiological behavior prior to user utterance;
An execution step of executing a predetermined process based on the detection result of the detection step;
A detection method characterized by comprising:
(付記18)
コンピュータを、
ユーザの発声に先立つ生理的な挙動を検知する検知手段、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
として機能させるためのプログラム。
(Appendix 18)
Computer
Detection means for detecting physiological behavior prior to user utterance;
Execution means for executing predetermined processing based on the detection result of the detection means;
Program to function as.
10,20…検知システム、100,100A〜C,100’,100”…検知装置、110…ジャイロセンサ、111…GPS、120,220…制御部、121,290…検知部、122…特定部、123…送信部、130,240…記憶部、131,241…発声前波形、140,210…無線通信I/F、200,200A,200B,200’…追尾装置、221…受信部、222…追尾部、223…実行部、224…推定部、225…録音部、230…撮像部、250…サーボモータ、260…操作部、270…外部I/F、280…マイク、300,400…PC、301…ディスプレイ、500…録音装置
DESCRIPTION OF
Claims (18)
前記検知手段の検知結果に基づき、所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。 Detection means for detecting physiological behavior prior to user utterance;
Execution means for executing predetermined processing based on the detection result of the detection means;
A detection device comprising:
ことを特徴とする請求項1に記載の検知装置。 The detection means includes a frequency waveform obtained by frequency-converting a waveform indicating a temporal change in the magnitude of the tremor of the user's throat, and a characteristic waveform indicating a pre-speech frequency characteristic that has been learned in advance. , Based on the comparison, detecting tremors in the throat prior to the user's utterance,
The detection device according to claim 1.
ことを特徴とする請求項1又は2に記載の検知装置。 The execution means outputs, as the predetermined process, any one of the user identification information of the user, time information indicating a time taken until the user utters, or position information of the user.
The detection device according to claim 1, wherein
前記受信手段が受信した信号に基づいて所定処理を実行する実行手段と、
を備えたことを特徴とする検知装置。 Receiving means for receiving a signal indicating physiological behavior prior to the user's utterance;
Execution means for executing predetermined processing based on a signal received by the receiving means;
A detection device comprising:
ことを特徴とする請求項4に記載の検知装置。 The execution means performs shooting or recording standby as the predetermined processing.
The detection device according to claim 4.
前記実行手段は、前記所定処理として、前記検知手段が検知した発声のタイミングで所定処理を実行する、
ことを特徴とする請求項4に記載の検知装置。 Based on the signal received by the receiving means, comprising a detecting means for detecting the timing of the utterance of the user,
The execution means executes the predetermined process at the utterance timing detected by the detection means as the predetermined process.
The detection device according to claim 4.
前記検知手段が前記生理的な挙動を検知すると、前記ユーザのユーザ識別情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信されたユーザ識別情報を受信する受信手段と、
前記受信手段が受信したユーザ識別情報のユーザを追尾する追尾手段と、を備えた追尾装置と、
を備えたことを特徴とする検知システム。 Detection means for detecting physiological behavior prior to user utterance;
When the detection means detects the physiological behavior, a detection device comprising: transmission means for transmitting user identification information of the user;
Receiving means for receiving user identification information transmitted from the transmitting means;
A tracking device comprising: tracking means for tracking the user of the user identification information received by the receiving means;
A detection system characterized by comprising:
ことを特徴とする請求項7に記載の検知システム。 The detection means includes a frequency waveform obtained by frequency-converting a waveform indicating a temporal change in the magnitude of the tremor of the user's throat, and a characteristic waveform indicating a pre-speech frequency characteristic that has been learned in advance. , Based on the comparison, detecting tremors in the throat prior to the user's utterance,
The detection system according to claim 7.
ことを特徴とする請求項7又は8に記載の検知システム。 The tracking means, after recognizing the face of the user or the shape of the detection device worn by the user by the imaging means, controls the imaging means so that the orientation of the imaging means becomes the direction of the face or the shape. To track,
The detection system according to claim 7 or 8, characterized in that.
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記時間情報を送信し、
前記追尾装置は、さらに、
前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記追尾手段が追尾中のユーザに関連する所定処理を実行する実行手段を備えた、
ことを特徴とする請求項7乃至9の何れか一項に記載の検知システム。 The detection device further includes:
When the detecting means detects the physiological behavior, it comprises time specifying means for specifying time information indicating the time taken until the utterance,
The transmission means transmits the time information in addition to the user identification information,
The tracking device further includes:
Based on the time taken for the utterance indicated by the time information, the tracking means includes an execution means for executing a predetermined process related to the user being tracked at the timing of the utterance.
The detection system according to any one of claims 7 to 9, characterized by the above.
ことを特徴とする請求項10に記載の検知システム。 The execution means starts the recording of the moving image or the voice of the user as the subject at the timing of the utterance as the predetermined process,
The detection system according to claim 10.
ことを特徴とする請求項10に記載の検知システム。 The execution means switches to the shooting mode according to the user at the time of the utterance as the predetermined process.
The detection system according to claim 10.
前記検知手段が前記生理的な挙動を検知すると、前記ユーザの位置情報を特定する位置特定手段を備え、
前記送信手段は、前記ユーザ識別情報に加え、前記ユーザの位置情報を送信し、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする請求項7乃至12の何れか一項に記載の検知システム。 The detection device further includes:
When the detecting means detects the physiological behavior, the detecting means includes position specifying means for specifying the position information of the user,
The transmission means transmits the user location information in addition to the user identification information,
The tracking means controls the direction of the imaging means based on the user position information and searches for the user, and then tracks the searched user.
The detection system according to any one of claims 7 to 12, wherein
前記受信手段が受信したユーザ識別情報の受信信号強度と、該ユーザ識別情報が送信された方向と、に基づいて、該ユーザ識別情報のユーザの位置情報を推定する推定手段を備え、
前記追尾手段は、前記ユーザの位置情報に基づいて、撮像手段の向きを制御して該ユーザを探索後、該探索したユーザを追尾する、
ことを特徴とする請求項7乃至12の何れか一項に記載の検知システム。 The tracking device further includes:
An estimation unit configured to estimate the position information of the user of the user identification information based on a received signal strength of the user identification information received by the reception unit and a direction in which the user identification information is transmitted;
The tracking means controls the direction of the imaging means based on the user position information and searches for the user, and then tracks the searched user.
The detection system according to any one of claims 7 to 12, wherein
ことを特徴とする請求項7乃至14の何れか一項に記載の検知システム。 The detection device is a wearable device worn by the user on the body,
The detection system according to any one of claims 7 to 14, wherein
前記検知手段が前記生理的な挙動を検知すると、前記発声までにかかる時間を示す時間情報を特定する時間特定手段と、
前記時間特定手段が特定した前記時間情報を送信する送信手段と、を備えた検知装置と、
前記送信手段から送信された時間情報を受信する受信手段と、
前記受信手段が受信した前記時間情報が示す発声までにかかる時間に基づいて、該発声のタイミングで前記ユーザの声の録音を開始する録音手段と、を備えた録音装置と、
を備えたことを特徴とする検知システム。 Detection means for detecting physiological behavior prior to user utterance;
When the detecting means detects the physiological behavior, time specifying means for specifying time information indicating a time taken until the utterance;
A transmission device that transmits the time information specified by the time specification device;
Receiving means for receiving time information transmitted from the transmitting means;
A recording device comprising: recording means for starting recording of the voice of the user at the timing of the utterance based on the time taken until the utterance indicated by the time information received by the receiving means;
A detection system characterized by comprising:
前記検知ステップの検知結果に基づき、所定処理を実行する実行ステップと、
を備えたことを特徴とする検知方法。 A detection step for detecting physiological behavior prior to user utterance;
An execution step of executing a predetermined process based on the detection result of the detection step;
A detection method characterized by comprising:
ユーザの発声に先立つ生理的な挙動を検知する検知手段、
前記検知手段の検知結果に基づき、所定処理を実行する実行手段、
として機能させるためのプログラム。 Computer
Detection means for detecting physiological behavior prior to user utterance;
Execution means for executing predetermined processing based on the detection result of the detection means;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015121246A JP6500625B2 (en) | 2015-06-16 | 2015-06-16 | Detection device, detection system, detection method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015121246A JP6500625B2 (en) | 2015-06-16 | 2015-06-16 | Detection device, detection system, detection method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017011321A true JP2017011321A (en) | 2017-01-12 |
JP6500625B2 JP6500625B2 (en) | 2019-04-17 |
Family
ID=57763799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015121246A Active JP6500625B2 (en) | 2015-06-16 | 2015-06-16 | Detection device, detection system, detection method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6500625B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005049876A (en) * | 2003-07-29 | 2005-02-24 | Microsoft Corp | Head mounted multi-sensory audio input system |
JP2005115345A (en) * | 2003-09-19 | 2005-04-28 | Ntt Docomo Inc | Speaking period detector, voice recognition processing equipment, signal transmission system, signal level controller, and speaking period detection method |
-
2015
- 2015-06-16 JP JP2015121246A patent/JP6500625B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005049876A (en) * | 2003-07-29 | 2005-02-24 | Microsoft Corp | Head mounted multi-sensory audio input system |
JP2005115345A (en) * | 2003-09-19 | 2005-04-28 | Ntt Docomo Inc | Speaking period detector, voice recognition processing equipment, signal transmission system, signal level controller, and speaking period detection method |
Also Published As
Publication number | Publication date |
---|---|
JP6500625B2 (en) | 2019-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11729487B2 (en) | Image pickup apparatus and control method therefor | |
CN104092936A (en) | Automatic focusing method and apparatus | |
US11184550B2 (en) | Image capturing apparatus capable of automatically searching for an object and control method thereof, and storage medium | |
US20230362472A1 (en) | Image pickup apparatus and control method therefor | |
US11451704B2 (en) | Image capturing apparatus, method for controlling the same, and storage medium | |
US20220232321A1 (en) | Systems and methods for retroactive processing and transmission of words | |
CN111917980B (en) | Photographing control method and device, storage medium and electronic equipment | |
JPWO2017130486A1 (en) | Information processing apparatus, information processing method, and program | |
US20210350823A1 (en) | Systems and methods for processing audio and video using a voice print | |
US11929087B2 (en) | Systems and methods for selectively attenuating a voice | |
WO2022161037A1 (en) | User determination method, electronic device, and computer-readable storage medium | |
US11729488B2 (en) | Image capturing apparatus, method for controlling the same, and storage medium | |
CN113574525A (en) | Media content recommendation method and equipment | |
US20160088219A1 (en) | Image capture apparatus which controls frame rate based on motion of object, information transmission apparatus, image capture control method, information transmission method, and recording medium | |
JP6950793B2 (en) | Electronics and programs | |
JP6500625B2 (en) | Detection device, detection system, detection method and program | |
WO2021140879A1 (en) | Imaging device, control method for imaging device, program | |
JP2019095523A (en) | Robot and robot control method | |
CN114500790A (en) | Image pickup apparatus, control method thereof, and storage medium | |
JP2016082356A (en) | Electronic apparatus and program | |
JP2021111960A (en) | Imaging apparatus, control method of the same, and program | |
JP7199808B2 (en) | Imaging device and its control method | |
JP6750714B2 (en) | Electronic devices and programs | |
US11924541B2 (en) | Automatic camera exposures for use with wearable multimedia devices | |
US20220141389A1 (en) | Image capturing apparatus capable of recognizing voice command, control method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6500625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |