JP2019220145A - Operation terminal, voice input method, and program - Google Patents
Operation terminal, voice input method, and program Download PDFInfo
- Publication number
- JP2019220145A JP2019220145A JP2019042991A JP2019042991A JP2019220145A JP 2019220145 A JP2019220145 A JP 2019220145A JP 2019042991 A JP2019042991 A JP 2019042991A JP 2019042991 A JP2019042991 A JP 2019042991A JP 2019220145 A JP2019220145 A JP 2019220145A
- Authority
- JP
- Japan
- Prior art keywords
- user
- operation terminal
- coordinates
- unit
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示は、ユーザの発話音声によって操作される操作端末、その操作端末における音声入力方法、及びその音声入力方法をコンピュータに実行させるためのプログラムに関するものである。 The present disclosure relates to an operation terminal operated by a user's uttered voice, a voice input method in the operation terminal, and a program for causing a computer to execute the voice input method.
ユーザが特定の端末を音声で操作する場合、端末はユーザの音声を収音する必要があるが、その方式は大きく二つに分類される。一つは、ユーザの操作によってユーザの音声入力の開始を判断し、収音を開始する方式である。もう一つは、常時収音を行い、収音された音から音声を抽出する方式である。後者の方式では、常時端末に音声が収集されていると感じてしまうため、ユーザはプライバシーが漏洩するなどの懸念を抱く可能性がある。そのため、前者の方式のようにユーザが音声入力を行いたいという意思を示している場合にのみ音声の収音を行う方式が有効である。 When a user operates a specific terminal by voice, the terminal needs to collect the voice of the user, and the method is roughly classified into two types. One is a method of judging the start of a user's voice input by a user's operation and starting sound collection. The other is a method of constantly collecting sound and extracting sound from the collected sound. In the latter method, the user always feels that voice is being collected by the terminal, so that the user may have a concern that privacy is leaked. Therefore, a method of collecting sound only when the user has indicated his / her intention to input a voice, as in the former method, is effective.
また、近年、ユーザのジェスチャーを検出することによってロボットを指示する技術も知られている。例えば、特許文献1には、自然な状態で指示動作をすることができ、かつ精度の高い指示位置検出を行うために、複数のカメラで撮影した画像から、人物の頭部の位置と手先の位置と手の向きとを検出し、これらの検出結果に基づいて人物が指示する方向を検出し、検出した方向から人物が指示する位置を検出する指示位置検出装置が開示されている。
Also, in recent years, a technique of instructing a robot by detecting a gesture of a user has been known. For example,
特許文献2には、任意の位置で行われる腕を使ったジェスチャーを適切に認識するために、複数の距離画像センサの中から腕を使ったジェスチャーを適切に認識できた距離画像センサを特定し、特定した距離画像センサを利用して認識されたジェスチャーを登録するジェスチャー管理システムが開示されている。 Patent Document 2 specifies a range image sensor capable of appropriately recognizing a gesture using an arm from among a plurality of range image sensors in order to appropriately recognize a gesture using an arm performed at an arbitrary position. A gesture management system that registers a gesture recognized using a specified range image sensor is disclosed.
しかし、特許文献1、2では、ユーザに対して空間内の特定の方向に正しく腕を向けるというような煩わしいジェスチャーが要求されており、更なる改善の必要がある。
However, in
本開示の目的は、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にする操作装置などを提供することである。 An object of the present disclosure is to provide an operation device or the like that brings an operation terminal into a state in which a voice input can be accepted without giving a user trouble.
本開示の一態様に係る操作端末は、ユーザの発話音声によって操作される操作端末であって、
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える。
An operation terminal according to an aspect of the present disclosure is an operation terminal operated by a user's uttered voice,
An imaging unit for imaging a space;
From the information of the imaged space, a person detection unit that detects the user,
A voice input unit that receives an input of an uttered voice by the user;
When the user is detected by the human detection unit, the first coordinate of a predetermined first portion included in the upper limb of the user based on information obtained by predetermined means and included in the upper body excluding the upper limb of the user A coordinate detection unit that detects a second coordinate of a predetermined second part to be
Comparing the positional relationship between the first coordinates and the second coordinates, and, at least once, when the positional relationship satisfies a predetermined first condition, a condition determination that sets the voice input unit to a state in which a voice input can be accepted. Unit.
本開示によれば、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にすることができる。 According to the present disclosure, the operation terminal can be set to a state in which voice input can be accepted without giving the user any trouble.
(本開示の基礎となった知見)
本発明者は、例えば、家屋内の壁に立て掛けられ、ユーザからの音声を認識することによって家屋に設置された各種の電気機器を操作する操作端末を研究している。このような操作端末では、ユーザが音声入力を行っていること、又は音声入力を行おうとしていることを認識する必要がある。音声操作が可能な端末の多くは、特定のフレーズを常時音声認識できるように音声を常時収音し、特定のフレーズを認識したことをトリガーに特定のフレーズ以外のフレーズの音声認識を開始する構成を備えるのが一般的である。しかし、この構成では、音声が常時収音されるため、ユーザはプライバシーの侵害などの懸念を抱く可能性がある。したがって、音声を常時収音せずに、ユーザによる音声入力の開始の意思を判定する仕組みが必要である。
(Knowledge underlying the present disclosure)
The present inventor is studying, for example, an operation terminal that leans against a wall in a house and operates various electric devices installed in the house by recognizing a voice from a user. In such an operation terminal, it is necessary to recognize that the user is performing a voice input or is attempting to perform a voice input. Many terminals that can be operated by voice always pick up voice so that a specific phrase can always be recognized, and trigger voice recognition of phrases other than the specific phrase when triggered by recognition of the specific phrase It is common to provide. However, in this configuration, since the voice is always collected, there is a possibility that the user may have a concern such as invasion of privacy. Therefore, there is a need for a mechanism for determining a user's intention to start voice input without constantly collecting voice.
また、特定のフレーズをユーザに発話させる構成を前記操作端末にそのまま適用すると、家電機器を操作するたびにユーザは特定のフレーズを発話する必要があることに加え、操作端末の方を向いているにも拘わらずユーザは特定のフレーズを発話する必要があるため、ユーザに煩わしさ及び不自然さを与えてしまう。 In addition, if a configuration in which the user utters a specific phrase is applied to the operation terminal as it is, the user is required to utter a specific phrase every time the home appliance is operated, and the user is facing the operation terminal. Nevertheless, since the user needs to utter a specific phrase, the user is bothered and unnatural.
その一方、上述の特許文献1、2のようにユーザが行う何らかのジェスチャーをトリガーにロボット等の機器の操作する手法が存在する。
On the other hand, there is a method of operating a device such as a robot by using a gesture performed by a user as a trigger, as described in
しかし、特許文献1が検出対象とするジェスチャーは、ユーザがロボットに物を拾わせたり、ロボットを移動させたりするためのジェスチャーであり、音声認識の開始の意思表示のためのジェスチャーではない。そのため、特許文献1では、ユーザに対して空間内の特定の方向に腕を向けるジェスチャーが要求されている。したがって、特許文献1の技術を前記操作端末に適用すると、ユーザは音声認識を開始させるために、わざわざ特定の方向に腕を向けるジェスチャーをする必要があり、ユーザに煩わしさを与えてしまう。
However, the gesture to be detected in
また、特許文献2は、ショッピングモール、博物館、展示会場などの空間内において、任意の位置で行われるユーザによる腕を使ったジェスチャーを管理する技術であり、音声認識の開始の意思表示のためのジェスチャーを管理する技術ではない。また、特許文献2が管理対象とするジェスチャーは、展示物などの物体に対して腕を向けるジェスチャーであるため、腕の方向が重要となり、その方向が異なれば異なるジェスチャーと判断される。したがって、特許文献2の技術をそのまま前記操作端末に適用した場合、ユーザは管理されたジェスチャーと同じ方向に腕を向けるジェスチャーを行う必要があり、ユーザに煩わしさを与えてしまう。また、特許文献2において、腕の方向を厳密に問わない簡易なジェスチャーで音声認識を開始させようとする場合、ユーザは音声認識の開始に利用したい多種多様な腕の方向の異なるジェスチャーを事前に登録する必要があり、やはりユーザに煩わしさを与えてしまう。 Further, Patent Literature 2 is a technology for managing a gesture performed by a user using an arm performed at an arbitrary position in a space such as a shopping mall, a museum, an exhibition hall, and the like. It's not a gesture management technology. In addition, since the gesture to be managed in Patent Literature 2 is a gesture in which the arm is pointed at an object such as an exhibit, the direction of the arm is important, and if the direction is different, the gesture is determined to be different. Therefore, when the technique of Patent Literature 2 is applied to the operation terminal as it is, the user needs to perform a gesture of turning his / her arm in the same direction as the managed gesture, which gives the user trouble. Further, in Patent Document 2, when trying to start voice recognition with a simple gesture irrespective of the direction of the arm, the user needs to perform various gestures with different arm directions that the user wants to use to start the voice recognition in advance. It is necessary to register, again giving the user trouble.
そこで、本発明者は、ユーザに煩わしさを与えずに音声認識を開始させるためには、厳密な腕の向きを問わないような簡易なジェスチャーが有効であるとの知見を得て本開示を想到するにいたった。 Therefore, the present inventor has obtained the knowledge that a simple gesture such as irrespective of the exact arm direction is effective in order to start voice recognition without giving the user annoyance, and disclosed the present disclosure. I came to imagination.
本開示の一態様に係る操作端末は、ユーザの発話音声によって操作される操作端末であって、
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える。
An operation terminal according to an aspect of the present disclosure is an operation terminal operated by a user's uttered voice,
An imaging unit for imaging a space;
From the information of the imaged space, a person detection unit that detects the user,
A voice input unit that receives an input of an uttered voice by the user;
When the user is detected by the human detection unit, the first coordinate of a predetermined first portion included in the upper limb of the user based on information obtained by predetermined means and included in the upper body excluding the upper limb of the user A coordinate detection unit that detects a second coordinate of a predetermined second part to be
Comparing the positional relationship between the first coordinates and the second coordinates, and, at least once, when the positional relationship satisfies a predetermined first condition, a condition determination that sets the voice input unit to a state in which a voice input can be accepted. Unit.
本構成によれば、ユーザの上肢に含まれる第一部位の第一座標と、ユーザの上肢を除く上半身に含まれる第二部位の第二座標との位置関係が所定の第一条件を満たす場合に音声入力部は音声入力の受付可能状態とされる。そのため、本構成は、例えば、首より少し上に腕を上げるというような腕の向きを問わない簡易なジェスチャーをユーザに行わせることによって音声入力部を音声入力の受付可能状態にすることができる。その結果、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にすることができる。 According to this configuration, when the positional relationship between the first coordinates of the first part included in the upper limb of the user and the second coordinates of the second part included in the upper body excluding the upper limb of the user satisfies a predetermined first condition. Then, the voice input unit is set to a state in which voice input can be accepted. Therefore, in this configuration, for example, the user can perform a simple gesture irrespective of the direction of the arm, such as raising the arm slightly above the neck, so that the voice input unit can be in a state where the voice input can be accepted. . As a result, the operation terminal can be set to a state in which voice input can be accepted without giving the user any trouble.
上記態様において、前記空間の情報から、前記ユーザの骨格情報を抽出する骨格情報抽出部をさらに備え、
前記所定の手段によって得られた情報は、前記骨格情報であってもよい。
In the above aspect, the apparatus further includes a skeleton information extracting unit that extracts skeleton information of the user from the information of the space,
The information obtained by the predetermined means may be the skeleton information.
本態様によれば、ユーザの骨格情報に基づいて、第一座標と第二座標とが検出されているため、第一座標と第二座標とを正確に検出できる。 According to this aspect, since the first coordinates and the second coordinates are detected based on the skeleton information of the user, the first coordinates and the second coordinates can be accurately detected.
上記態様において、前記撮像部は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、又は電波センサであってもよい。 In the above aspect, the imaging unit may be a visible light camera, an infrared camera, a TOF sensor, an ultrasonic sensor, or a radio wave sensor.
本構成によれば、撮像部が可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、又は電波センサで構成されているため、空間情報に距離情報が含まれることになり、周囲の空間に居るユーザを正確に検出できる。 According to this configuration, since the imaging unit is configured by the visible light camera, the infrared camera, the TOF sensor, the ultrasonic sensor, or the radio wave sensor, the spatial information includes the distance information, and the user is in the surrounding space. A user can be detected accurately.
上記態様において、前記位置関係は、鉛直方向における、前記第一座標と前記第二座標との位置関係であってもよい。 In the above aspect, the positional relationship may be a positional relationship between the first coordinates and the second coordinates in a vertical direction.
第一座標と第二座標との鉛直方向における位置関係が第一条件を満たす場合、音声入力の受付可能状態になるため、ユーザは、例えば、鉛直方向に上肢を上げるような簡易なジェスチャーを行うだけで、受付可能状態にすることができる。 If the positional relationship between the first coordinate and the second coordinate in the vertical direction satisfies the first condition, the voice input can be accepted, so the user performs a simple gesture such as raising the upper limb in the vertical direction, for example. Just by doing so, it can be set in the acceptable state.
上記態様において、前記位置関係は、前記ユーザの体幹軸方向における、前記第一座標と前記第二座標との位置関係であってもよい。 In the aspect described above, the positional relationship may be a positional relationship between the first coordinates and the second coordinates in a trunk axis direction of the user.
本構成によれば、第一座標と第二座標との位置関係が第一条件を満たした場合に受付可能状態になるため、ユーザは、例えば、体幹軸方向に上肢を上げるような簡易なジェスチャーを行うだけで、前記受付可能状態にすることができる。また、体幹軸方向を基準に位置関係が判断されているため、ユーザは、例えば、寝ころんだ状態、起立した状態というような現在の姿勢を気にせずに、上肢を体幹軸方向に上げることで前記受付可能状態にすることができる。 According to this configuration, when the positional relationship between the first coordinates and the second coordinates satisfies the first condition, the receivable state is established. Therefore, for example, the user can easily move the upper limb in the trunk axis direction. The gesture can be brought into the acceptable state only by performing a gesture. In addition, since the positional relationship is determined based on the trunk axis direction, the user raises the upper limb in the trunk axis direction without worrying about the current posture such as a lying state or a standing state, for example. Thus, the above-mentioned receivable state can be set.
上記態様において、前記座標検出部は、さらに前記上半身における第三部位の第三座標を検出し、
前記第一条件は、前記第一座標、前記第二座標、及び前記第三座標の成す角度が、所定の閾値を超える、前記所定の閾値を下回る、又は所定の範囲に収まることであってもよい。
In the above aspect, the coordinate detection unit further detects a third coordinate of a third part in the upper body,
The first condition is that the angle formed by the first coordinate, the second coordinate, and the third coordinate exceeds a predetermined threshold, is lower than the predetermined threshold, or falls within a predetermined range. Good.
本構成によれば、上半身における第三部位の第三座標がさらに検出され、第一座標、第二座標、及び第三座標の成す角度が所定の閾値を超える、下回る、又は所定の範囲内に収まった場合、位置関係が第一条件を満たすと判定される。そのため、ユーザは、例えば、上肢が体幹軸方向に対して所定角度になるようなジェスチャーによって前記受付可能状態にすることができる。 According to this configuration, the third coordinate of the third part in the upper body is further detected, and the angle formed by the first coordinate, the second coordinate, and the third coordinate exceeds, falls below, or falls within a predetermined range. If it is, it is determined that the positional relationship satisfies the first condition. Therefore, the user can be brought into the receivable state by, for example, a gesture in which the upper limb is at a predetermined angle with respect to the trunk axis direction.
上記態様において、前記第一部位は、前記上肢に含まれる複数の部位を含み、
前記第一座標は、前記複数の部位のいずれか1以上の座標に基づいて決定されてもよい。
In the above aspect, the first site includes a plurality of sites included in the upper limb,
The first coordinates may be determined based on coordinates of one or more of the plurality of parts.
本構成によれば、第一部位を構成する複数の部位のそれぞれの座標に基づいて第一座標が決定されるため、第一座標を柔軟に決定できる。 According to this configuration, since the first coordinates are determined based on the coordinates of each of the plurality of parts constituting the first part, the first coordinates can be determined flexibly.
上記態様において、前記第二部位は、前記上肢を除く前記上半身に含まれる複数の部位を含み、
前記第二座標は、前記複数の部位のいずれか1以上の座標に基づいて決定されてもよい。
In the above aspect, the second portion includes a plurality of portions included in the upper body excluding the upper limb,
The second coordinates may be determined based on coordinates of one or more of the plurality of parts.
本構成によれば、第二部位を構成する複数の部位のそれぞれの座標に基づいて第二座標が決定されるため、第二座標を柔軟に決定できる。 According to this configuration, since the second coordinates are determined based on the coordinates of each of the plurality of parts constituting the second part, the second coordinates can be determined flexibly.
上記態様において、前記第一条件は、複数の第二条件を含み、
前記条件判定部は、前記位置関係が、前記複数の第二条件の少なくとも1つ、又は前記複数の第二条件の一部を組み合わせた第三条件を満たす場合に前記受付可能状態にしてもよい。
In the above aspect, the first condition includes a plurality of second conditions,
The condition determination unit may set the receivable state when the positional relationship satisfies at least one of the plurality of second conditions or a third condition obtained by combining a part of the plurality of second conditions. .
本構成によれば、位置関係が第一条件を満たすか否かの判定を柔軟に行うことができる。 According to this configuration, it is possible to flexibly determine whether the positional relationship satisfies the first condition.
上記態様において、前記音声入力部が前記受付可能状態にあるか否かを示す情報を出力する表示部又は再生部をさらに備えてもよい。 In the above aspect, a display unit or a playback unit that outputs information indicating whether the voice input unit is in the receivable state may be further provided.
本構成によれば、音声入力部が受付可能状態にあるか否かを示す情報を視覚的又は聴覚的にユーザに通知できる。 According to this configuration, it is possible to visually or audibly notify the user of information indicating whether or not the voice input unit is in a receivable state.
上記態様において、前記表示部は、ディスプレイであってもよい。 In the above aspect, the display unit may be a display.
本構成によれば、音声入力部が受付可能状態にあるか否かを示す情報をディスプレイを用いてユーザに通知できる。 According to this configuration, it is possible to notify the user of information indicating whether the voice input unit is in the receivable state using the display.
上記態様において、前記音声入力部が前記受付可能状態にあるか否かを示す情報は、色、テキスト、又はアイコンであってもよい。 In the above aspect, the information indicating whether the voice input unit is in the receivable state may be a color, a text, or an icon.
本構成によれば、色、テキスト、又はアイコンを用いて音声入力部が受付可能状態であるか否かをユーザに通知できる。 According to this configuration, it is possible to notify the user whether or not the voice input unit is in the receivable state using the color, the text, or the icon.
上記態様において、前記表示部は、前記音声入力部が前記受付可能状態にあることを示す光を発光する発光装置であってもよい。 In the above aspect, the display unit may be a light emitting device that emits light indicating that the voice input unit is in the receivable state.
本構成によれば、発光装置から発光される光によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。 According to this configuration, the user can be notified of whether or not the voice input unit is in a receivable state by the light emitted from the light emitting device.
上記態様において、前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音声を出力してもよい。 In the above aspect, the playback unit may output a sound indicating whether the sound input unit is in the receivable state.
本構成によれば、音声によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。 According to this configuration, the user can be notified by voice whether or not the voice input unit is in a receivable state.
上記態様において、前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音を出力してもよい。 In the above aspect, the reproducing unit may output a sound indicating whether or not the audio input unit is in the receivable state.
本構成によれば、音によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。 According to this configuration, the user can be notified by sound whether or not the voice input unit is in a receivable state.
上記態様において、前記条件判定部は、前記操作端末と前記ユーザとの距離が所定の第四条件を満たすときにのみ、前記位置関係を比較してもよい。 In the above aspect, the condition determination unit may compare the positional relationship only when a distance between the operation terminal and the user satisfies a predetermined fourth condition.
本構成によれば、操作端末とユーザとの距離が所定の第四条件を満たすときのみ、第一座標及び第二座標の位置関係が比較されるため、操作端末を操作する意思のないユーザに対して位置関係を比較する処理が実行されることを防止でき、処理コストを低減できる。 According to this configuration, only when the distance between the operation terminal and the user satisfies the predetermined fourth condition, the positional relationship between the first coordinates and the second coordinates is compared, so that the user who does not intend to operate the operation terminal can In this case, it is possible to prevent the processing for comparing the positional relationships from being executed, and to reduce the processing cost.
上記態様において、前記条件判定部は、前記受付可能状態において無音区間が一定時間続いた場合、前記受付可能状態を終了してもよい。 In the above aspect, the condition determination unit may end the receivable state when a silent section continues for a predetermined time in the receivable state.
本構成によれば、受付可能状態において無音区間が一定時間続いた場合、受付可能状態が終了されるため、ユーザが操作端末を操作する意思がないにも拘わらず、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。 According to this configuration, if the silent section continues for a certain period of time in the receivable state, the receivable state is ended, so that the receivable state is continued even though the user does not intend to operate the operation terminal. Can be prevented. As a result, the privacy of the user can be secured.
上記態様において、前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たしている限り、前記受付可能状態を継続してもよい。 In the above aspect, the condition determination unit may continue the receivable state as long as the positional relationship satisfies the first condition in the receivable state.
本構成によれば、受付可能状態においては位置関係が第一条件を満たしている限り、受付可能状態が継続されるため、ユーザは位置関係が第一条件を満たすジェスチャーを継続することで、操作端末への音声による操作の意思表示を示すことができる。 According to this configuration, in the receivable state, as long as the positional relationship satisfies the first condition, the receivable state is continued, so that the user can continue the gesture in which the positional relationship satisfies the first condition, thereby performing an operation. It is possible to indicate the intention of the operation by voice to the terminal.
上記態様において、前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たさない状態が所定のタイムアウト期間継続した場合、前記受付可能状態を終了してもよい。 In the above aspect, the condition determination unit may end the receivable state when the state where the positional relationship does not satisfy the first condition continues for a predetermined timeout period in the receivable state.
本構成によれば、受付可能状態において位置関係が第一条件を満たさない状態がタイムアウト期間継続された場合、受付可能状態が終了されるため、ユーザが操作端末を操作する意思がないにも拘わらず、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。 According to this configuration, when the state in which the positional relationship does not satisfy the first condition in the receivable state is continued for the timeout period, the receivable state is terminated, so that the user has no intention to operate the operation terminal. Therefore, it is possible to prevent the receivable state from being continued. As a result, the privacy of the user can be secured.
上記態様において、前記条件判定部は、前記タイムアウト期間において、前記位置関係が前記第一条件を満たすと判定した場合、前記タイムアウト期間を延長してもよい。 In the above aspect, the condition determination unit may extend the timeout period when determining that the positional relationship satisfies the first condition during the timeout period.
上記構成によれば、タイムアウト期間において、再度、位置関係が第一条件を満たすジェスチャーを行うことによって音声入力の受付可能状態を継続させることができる。 According to the configuration, in the timeout period, the gesture in which the positional relationship satisfies the first condition is performed again, so that the state in which the voice input can be accepted can be continued.
上記態様において、前記条件判定部は、前記タイムアウト期間の終了時に音声入力が検出されていれば、前記受付可能状態を継続してもよい。 In the above aspect, the condition determination unit may continue the receivable state if a voice input is detected at the end of the timeout period.
本態様によれば、位置関係が第一条件を満たさない状態がタイムアウト期間継続されたとしてもタイムアウト期間の終了時に音声入力が検出されていれば、受付可能状態が継続されるため、操作端末を操作するための発話を行っているにも拘わらず、受付可能状態が終了されることを防止できる。 According to this aspect, even if the state in which the positional relationship does not satisfy the first condition is continued for the timeout period, if a voice input is detected at the end of the timeout period, the acceptable state is continued. It is possible to prevent the receivable state from ending even though the utterance for operation is being performed.
上記態様において、前記条件判定部は、前記位置関係が前記第一条件とは異なる所定の第五条件を満たした場合、前記受付可能状態を終了してもよい。 In the above aspect, the condition determination unit may end the receivable state when the positional relationship satisfies a predetermined fifth condition different from the first condition.
本構成によれば、ユーザは位置関係が第五条件を満たすジェスチャーを行うことで、受付可能状態を終了させることができる。 According to this configuration, the user can end the receivable state by performing a gesture whose positional relationship satisfies the fifth condition.
上記態様において、前記条件判定部は、前記人検出部が複数のユーザを検出した場合、特定の一人を前記操作端末の操作者として認識してもよい。 In the above aspect, the condition determination unit may recognize a specific one as an operator of the operation terminal when the human detection unit detects a plurality of users.
本構成によれば、人検出部が複数のユーザを検出した場合、特定の一人が操作端末の操作者として認識されるため、操作端末の周囲に複数のユーザがいる状況下で、一人のユーザに操作端末を操作する権利を与えることができる。その結果、操作者の操作に関する発話を正確に認識できる。 According to this configuration, when the human detection unit detects a plurality of users, a specific one is recognized as an operator of the operation terminal. Can be given the right to operate the operation terminal. As a result, the utterance related to the operation of the operator can be accurately recognized.
上記態様において、前記操作者は、前記複数のユーザのうち前記操作端末に最も近いユーザであってもよい。 In the above aspect, the operator may be a user closest to the operation terminal among the plurality of users.
本構成によれば、人検出部が複数のユーザを検出した場合、操作端末の最も近くに居るユーザが操作者として特定されるため、複数のユーザの中から一人の操作者を簡素な処理により特定できる。 According to this configuration, when the human detection unit detects a plurality of users, the user who is closest to the operation terminal is specified as the operator. Can be identified.
本開示は、このような操作端末に含まれる特徴的な各構成をコンピュータに実行させるプログラム、或いはこのプログラムによって動作する音声入力方法として実現することもできる。また、このようなプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。 The present disclosure can also be realized as a program that causes a computer to execute each characteristic configuration included in such an operation terminal, or a voice input method that is operated by the program. Needless to say, such a program can be distributed via a non-transitory computer-readable recording medium such as a CD-ROM or a communication network such as the Internet.
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。 Each of the embodiments described below shows a specific example of the present disclosure. Numerical values, shapes, components, steps, order of steps, and the like shown in the following embodiments are merely examples, and do not limit the present disclosure. Further, among the components in the following embodiments, components not described in the independent claims indicating the highest concept are described as arbitrary components. Further, in all the embodiments, the respective contents can be combined.
(実施の形態1)
図1は、本開示の実施の形態1に係る操作端末1とユーザU1との位置関係の一例を示した図である。操作端末1は、例えば、ユーザU1が居住する家などの建物内に設置され、ユーザU1が発話した音声を収音し、音声認識することで、ユーザU1からの操作を受け付ける装置である。操作端末1が受け付ける操作は、例えば、建物内に設置された電化機器に対する操作、及び操作端末1への操作などである。電化機器は、例えば、洗濯機、冷蔵庫、電子レンジ、空調器機などの家庭用電化機器、及びテレビ、オーディオ機器、レコーダーなどのAV機器などである。ユーザU1は、ある電化機器を操作する場合、操作端末1に近づいて、当該電化機器を操作するための発話を行う。すると、操作端末1は発話された音声を音声認識し、操作対象となる電化機器及びその電化機器に対する操作内容を決定し、操作対象となる電化機器に対して操作内容に応じた制御コマンドを送信する。なお、操作端末1は、ネットワークを介して電化機器と無線又は有線により通信可能に接続されている。ネットワークは、例えば、無線LAN、有線LANなどである。なお、ネットワークにはインターネットが含まれていてもよい。
(Embodiment 1)
FIG. 1 is a diagram illustrating an example of a positional relationship between the
図2は、操作端末1の外観構成の一例を示した図である。図2に例示するように操作端末1は、撮像装置301(撮像部の一例)及び収音装置307(音声入力部の一例)を備えている。撮像装置301はユーザU1が操作端末1の周囲に存在していることを検出する人検出機能と、ユーザU1の空間内における位置を検出する位置検出機能と、図3に例示するようなユーザU1の骨格情報201を検出する骨格検出機能とを備えていてもよい。収音装置307は、ユーザU1が操作端末1に対して発話した音声を収音する機能を有している。
FIG. 2 is a diagram illustrating an example of an external configuration of the
図3は、撮像装置301によって計測されるユーザU1の骨格情報201の一例を示す図である。骨格情報201にはユーザU1の複数の部位のそれぞれの空間における三次元座標を含む部位座標202と、部位座標202の各々をユーザU1の身体に沿って繋ぐリンク203とを備えている。部位座標は、手首、肘、肩などの関節の座標と、指先、足先、及び頭部などの身体の末端の座標とを含む。なお、部位座標は、胸の中心、へそなどの関節及び先端以外の身体の特徴的な部位の座標を含んでもよい。
FIG. 3 is a diagram illustrating an example of the
図3の例では、上から順に、頭の先、首と顔の付け根(首先)、首と胴体の付け根(首元)、左右の肘、左右の手首、腰、左右の膝、左右の足首が部位座標202として採用されている。 In the example of FIG. 3, in order from the top, the tip of the head, the base of the neck and the face (neck), the base of the neck and the body (neck), the left and right elbows, the left and right wrists, the waist, the left and right knees, and the left and right ankles Are adopted as the part coordinates 202.
部位座標202を示す三次元座標は、例えば、操作端末1を基準に設定された直交座標系、ユーザU1を基準に設定された直交座標系、操作端末1を基準に設定された極座標系、又はユーザU1を基準に設定された極座標系で定義される。但し、これは一例であり、三次元座標を定義する座標系は、これらの座標系に限定されない。リンク203は、例えば、部位座標202同士を繋ぐ三次元ベクトルである。
The three-dimensional coordinates indicating the part coordinates 202 are, for example, a rectangular coordinate system set based on the
撮像装置301は、周囲の空間情報が取得できる機能を備えていれば、その構成は特に限定されない。例えば、撮像装置301は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、及び電波センサなど、操作端末1の周囲の空間の三次元的な情報を示す空間情報を計測するセンサで構成される。なお、撮像装置301は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、及び電波センサのいずれか2つ以上を組合せて人検出機能および骨格情報検出機能を実現してもよい。
The configuration of the
可視光カメラは、例えば、カラー、モノクロのカメラである。赤外線カメラは、照射した赤外光の反射時間を複数の画素ごとに計測する。TOF(Time of flight)センサは、照射したパルス光の反射時間を複数の画素ごとに計測する。超音波センサは、例えば、超音波センサアレイである。電波センサは、例えば、電波センサアレイである。 The visible light camera is, for example, a color or monochrome camera. The infrared camera measures the reflection time of the emitted infrared light for each of a plurality of pixels. The TOF (Time of Flight) sensor measures the reflection time of the irradiated pulse light for each of a plurality of pixels. The ultrasonic sensor is, for example, an ultrasonic sensor array. The radio wave sensor is, for example, a radio wave sensor array.
図4は、本開示の実施の形態1に係る操作端末1の構成の一例を示すブロック図である。
FIG. 4 is a block diagram illustrating an example of a configuration of the
操作端末1は、プロセッサ300、撮像装置301、収音装置307、収音音声記録部308、及びメモリ309を備える。プロセッサ300は、CPU等の電子回路で構成され、人検出部302、骨格情報抽出部303、ジェスチャー抽出部304、開始条件判定部305、及び管理部306を備える。メモリ309は収音音声記録部308を含む。
The
撮像装置301は、例えば、所定のフレームレートで空間情報を取得し、人検出部302及び骨格情報抽出部303に出力する。空間情報は、例えば、RGBの色成分及び深度成分を含む複数の画素データがマトリックス状に配列されたデータである。なお、空間情報を構成する画素データは深度成分及び色成分の少なくとも一方を備えてればよく、色成分に代えて輝度成分を備えていてもよい。
The
人検出部302は、撮像装置301から空間情報を取得し、操作端末1の周囲の空間内にユーザが存在しているか否かを検出し、ユーザの存在の有無を示す検出結果をジェスチャー抽出部304に出力する。ここで、人検出部302は、種々の人検出手法を用いて空間情報からユーザを検出すればよい。例えば、人検出部302は、空間情報から1以上の物体を抽出し、1以上の物体のうちいずれか1つが人を示す物体であれば、ユーザが存在すると判定すればよい。
The
骨格情報抽出部303は、撮像装置301から空間情報を取得し、取得した空間情報からユーザの骨格情報201を抽出し、ジェスチャー抽出部304に出力する。骨格情報抽出部303は、空間情報を取得する度に骨格情報を抽出してもよいし、後述するようにジェスチャー抽出部304から骨格情報の抽出依頼を取得したことをトリガーにユーザの骨格情報を抽出してもよい。この場合、骨格情報抽出部303は、例えば、ジェスチャー抽出部304から、空間情報内に居るユーザの人数及び空間情報内でユーザが居る領域を含む抽出依頼を取得する。これにより、骨格情報抽出部303は、ユーザが居る領域内の空間情報から骨格情報201を抽出することができ、空間情報の全域から骨格情報201を抽出する場合に比べて、処理負荷を削減できる。また、骨格情報抽出部303は、人検出部302が複数のユーザを検出した場合は、各ユーザが位置する領域をジェスチャー抽出部304から取得してもよい。
The skeleton
骨格情報抽出部303は、例えば、スケルトントラッキング、モーションキャプチャリングなどの手法を用いて骨格情報をリアルタイムで抽出する。骨格情報抽出部303は、空間内に複数のユーザが存在する場合、それぞれのユーザの骨格情報201をリアルタイムで抽出してもよい。
The skeleton
ジェスチャー抽出部304(座標検出部の一例)は、人検出部302から取得した検出結果及び骨格情報抽出部303から取得した骨格情報201に基づいて、第一座標及び第二座標を抽出し、第一座標及び第二座標を含むジェスチャー抽出情報を開始条件判定部305に出力する。
The gesture extracting unit 304 (an example of a coordinate detecting unit) extracts first coordinates and second coordinates based on the detection result obtained from the human detecting
例えば、ジェスチャー抽出部304は、人検出部302からユーザが検出されたことを示す検出結果を取得した場合、骨格情報抽出部303から骨格情報を取得する。或いは、ジェスチャー抽出部304は、人検出部302から人が検出されたことを示す検出結果を取得した場合、骨格情報抽出部303に骨格情報の抽出依頼を出力し、それによって骨格情報抽出部303から骨格情報を取得してもよい。この場合、ジェスチャー抽出部304は、人検出部302の検出結果が示す空間情報内でのユーザの人数及びユーザの居る領域などを抽出依頼に含ませて骨格情報抽出部303に出力すればよい。
For example, when the
第一座標は、上肢を構成する第一部位の座標である。第二座標は、上肢を除く上半身を構成する第二部位の座標である。上肢は肩関節から指先までを指す。下肢は腰から足先までを指す。上半身は腰から頭の先までを指す。したがって、第二部位は、上肢を除く上半身、すなわち、胴体、首、及び顔内の特定の部位である。例えば、第二部位は、首先、首元、頭の先などである。第一部位は、例えば、手首、肘、及び肩などである。 The first coordinates are coordinates of a first part constituting the upper limb. The second coordinates are coordinates of a second part constituting the upper body excluding the upper limbs. The upper limb points from the shoulder joint to the fingertip. The lower limb points from the waist to the toes. The upper body points from the waist to the tip of the head. Therefore, the second part is a specific part of the upper body excluding the upper limbs, that is, the torso, the neck, and the face. For example, the second part is a neck, a neck, a head, and the like. The first part is, for example, a wrist, an elbow, and a shoulder.
本実施の形態では、ジェスチャー抽出部304は、例えば、手首、肘、及び肩のうちのいずれか一つの部位(例えば手首)を第一部位として採用する。また、ジェスチャー抽出部304は、例えば、首先、首元、頭の先のうちいずれか一つの部位(例えば、首元)を第二部位として採用する。
In the present embodiment, the
但し、これは一例であり、ジェスチャー抽出部304は、例えば、手首、肘、及び肩のうちの2以上を第一部位として採用してもよいし、例えば、首元、首先、頭の先のいずれか2つ以上を第二部位として採用してもよい。この場合、ジェスチャー抽出部304は、2以上の第一部位の全部又は一部の平均値又は加算値を第一座標として算出してもよい。さらに、この場合、ジェスチャー抽出部304は、2以上の第二部位の全部又は一部の平均値又は加算値を第二座標として算出してもよい。
However, this is merely an example, and the
さらに、ジェスチャー抽出部304は、上半身において第一部位及び第二部位以外の第三部位を抽出してもよい。第三部位は、例えば腰、臍、胸元などである。この場合、ジェスチャー抽出部304は、第一座標及び第二座標に加えてさらに第三部位の第三座標をジェスチャー抽出情報に含めればよい。
Further, the
開始条件判定部305は、ジェスチャー抽出部304から取得したジェスチャー抽出情報に含まれる第一座標及び第二座標の位置関係を比較し、位置関係が音声入力の開始条件(第一条件の一例)を満たすか否かの判定結果を管理部306に出力する。開始条件は、例えば、ユーザが上肢を上げるというようなユーザが音声入力の開始の意思表示を示す所定のジェスチャーをしていることを示す条件である。具体的には第一座標が手首、第二座標が首元であるとすると、鉛直方向において第一座標が第二座標よりも上に位置するという条件が開始条件の一例として挙げられる。
The start
管理部306は、開始条件判定部305から開始条件が満たされていることを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを立てると共に収音装置307に開始指示を出力することで、収音装置307を音声入力の受付可能状態にする。一方、管理部306は、開始条件判定部305から開始条件が満たされていないことを示す判定結果を取得した場合、終了指示を収音装置307に出力することで、受付可能状態を終了する。このとき、管理部306は、メモリ309に記憶された状態フラグを下げることによって、受付可能状態が終了したことを管理する。これにより、ユーザは開始条件を満たすジェスチャーをしている限り、受付可能状態を継続できる。なお、状態フラグを立てるとは、状態フラグのステータスを受付可能状態にすることを指し、状態フラグを下げるとは、状態フラグのステータスを受付可能状態ではない状態(待機状態)にすることを指す。
When acquiring the determination result indicating that the start condition is satisfied from the start
収音装置307は、周囲の音を取得するマイク、及びマイクを制御する電気回路を含む。収音装置307は、管理部306から開始指示を取得した場合、マイクに周囲の音を収音させ、収音された音を示す音声信号を収音音声記録部308に記録する。これにより、収音装置307は、受付可能状態になる。一方、収音装置307は、管理部306から終了指示を取得した場合、収音を終了する。これにより、収音装置307は待機状態になる。
The
収音音声記録部308は、収音装置307から取得した音声信号を記録することで、操作端末1の音声記録機能を実現する。収音音声記録部308は、例えば、不揮発性メモリで構成されてもよいし、揮発性メモリで構成されてもよい。
The sound collection
図5は、本開示の実施の形態1に係る開始条件判定部305の処理の一例を示すフローチャートである。
FIG. 5 is a flowchart illustrating an example of a process of the start
ステップS401では、開始条件判定部305は、ジェスチャー抽出部304からジェスチャー抽出情報を取得する。
In step S401, the start
ステップS402では、開始条件判定部305は、ステップS401で取得したジェスチャー抽出情報に基づいて、操作端末1の周囲のジェスチャー可能範囲内にユーザが存在しているか否かを判定する。ジェスチャー可能範囲内にユーザが存在しないと判定した場合(ステップS402でNO)、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。一方、ジェスチャー可能範囲内にユーザが存在すると判定した場合(ステップS402でYES)、ステップS403を実行する。ジェスチャー可能範囲の詳細は、図8を用いて後述される。ここで、開始条件判定部305は、ジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標などのユーザの位置を示す座標がジェスチャー可能範囲内にあれば、ユーザはジェスチャー可能範囲内に居ると判定し、前記座標がジェスチャー可能範囲内になければ、ユーザはジェスチャー可能範囲内に居ないと判定すればよい。
In step S402, the start
ステップS403では、開始条件判定部305は、ジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たしているか否かを判定する(ステップS403)。そして、開始条件を満たしていると判定した場合(ステップS403でYES)、開始条件判定部305は、ユーザが音声入力の開始の意思表示を示すジェスチャーを行ったため、処理をステップS404に進める。一方、開始条件を満たしていないと判定した場合(ステップS403でNO)、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。
In step S403, the start
ステップS404では、開始条件判定部305は、開始条件を満たしていることを示す判定結果を管理部306に出力する。ステップS404が終了すると、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。
In step S404, the start
図6は、本開示の実施の形態における管理部306の処理の一例を示すフローチャートである。ステップS601では、管理部306は、収音装置307が音声入力の受付可能状態であるか否かを判定する。この場合、管理部306は、メモリ309に記憶された状態フラグが立っていれば、受付可能状態にあると判定し、メモリ309に記憶された状態フラグが立っていなければ、受付可能状態にないと判定すればよい。
FIG. 6 is a flowchart illustrating an example of a process of the
受付可能状態にあると判定した場合(ステップS601でYES)、管理部306は、処理をステップS601に戻す。一方、受付可能状態でないと判定した場合(ステップS601でNO)、管理部306は、処理をステップS602に進める。
If it is determined that it is in the acceptable state (YES in step S601),
ステップS602では、管理部306は、開始条件判定部305から開始条件を満たすことを示す判定結果を取得した場合(ステップS602でYES)、処理をS603に進め、開始条件を満たすことを示す判定結果を取得しなかった場合(ステップS602でNO)、管理部306は、処理をステップS601に戻す。
In step S602, if the
ステップS603では、管理部306は、開始指示を収音装置307に出力することで、収音装置307を受付可能状態にすると共に、メモリ309に記憶された状態フラグを立てる。ステップS603の処理が終了すると、管理部306は、処理をステップS601に戻す。
In step S603, the
次に、開始条件について説明する。図7は、開始条件を説明するために、ユーザU1の骨格情報201を例示した図である。図7は、ステップS403において、開始条件の比較対象となる第一座標、第二座標、及び第三座標が例示されている。図7の例では、第一座標として、手首座標Hが採用され、第二座標として首元座標Nが採用され、第三座標として腰座標Wが採用されている。
Next, the start condition will be described. FIG. 7 is a diagram exemplifying the
開始条件の第一例は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値(例えば20cm)以上、大きい(高い)という条件である。鉛直方向とは、地面に対して直交する方向である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値以上高くなるように上肢を上げるジェスチャーを行うことによって、収音装置307を受付可能状態にすることができる。なお、上肢は右腕であってもよいし、左腕であってもよい。
A first example of the start condition is a condition that the wrist coordinates H are larger (higher) than the neck base coordinates N by a first threshold (for example, 20 cm) or more in the vertical direction. The vertical direction is a direction orthogonal to the ground. In this case, the user U1 performs the gesture of raising the upper limb so that the wrist coordinate H is higher than the neck coordinate N in the vertical direction by the first threshold or more, so that the
開始条件の第二例は、手首座標Hと首元座標Nとが鉛直方向に対して所定範囲内に収まるという条件である。例えば、首元座標Nを中心に鉛直方向上下の所定範囲内(例えば、プラスマイナス10cm程度)に手首座標Hが位置するという条件が開始条件の第二例として採用できる。この場合、ユーザU1は、肘を曲げて手首座標Hを胸元付近まで上げるジェスチャー又は、肘を曲げずに上肢全体を胴体の外側に回して手首座標Hを胸元付近まで上げるジェスチャーを行うことで、受付可能状態にできる。 A second example of the start condition is a condition that the wrist coordinates H and the neck base coordinates N fall within a predetermined range in the vertical direction. For example, a condition that the wrist coordinate H is located within a predetermined range (for example, about ± 10 cm) in the vertical direction about the neck coordinate N can be adopted as a second example of the start condition. In this case, the user U1 performs a gesture of bending the elbow to raise the wrist coordinate H to near the chest, or a gesture of turning the entire upper limb to the outside of the torso without bending the elbow and raising the wrist coordinate H to near the chest. It can be set in the acceptable state.
開始条件の第三例は、首元座標Nと腰座標Wとをつないだ体幹軸方向において、手首座標Hが首元座標Nよりも第一閾値(例えば10cm)以上大きいという条件である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも第一閾値以上高くなるように上肢を上げるジェスチャーを行うことによって、受付可能状態にすることができる。この場合、ユーザU1は、寝ころんでいる或いは起立しているとった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に沿って上肢を上げることで、受付可能状態にできる。 A third example of the start condition is a condition that the wrist coordinate H is larger than the neck coordinate N by a first threshold (for example, 10 cm) or more in the trunk axis direction connecting the neck coordinate N and the waist coordinate W. In this case, the user U1 can perform the gesture of raising the upper limb so that the wrist coordinate H is higher than the neck base coordinate N by the first threshold or more, so that the user U1 can enter the receivable state. In this case, regardless of the current posture in which the user U1 is lying down or standing up, the user U1 can raise the upper limb along the trunk axis direction without being conscious of the vertical direction, so that the reception state can be set. .
また、開始条件の第四例は、手首座標Hと首元座標Nとが体幹軸方向に対して所定範囲内に収まるという条件である。例えば、首元座標Nを中心に体幹軸方向上下の所定範囲内(例えば、プラスマイナス10cm程度)に手首座標Hが位置するという条件が開始条件の第四例として採用できる。この場合、ユーザU1は例えば、寝ころんだ状態で、肘を曲げて手首座標Hを胸元付近まで上げるジェスチャー又は、肘を曲げずに上肢全体を胴体の外側に回して手首座標Hを胸元付近まで上げるジェスチャーを行うことで、受付可能状態にできる。 A fourth example of the start condition is a condition that the wrist coordinates H and the neck base coordinates N fall within a predetermined range in the trunk axis direction. For example, a condition that the wrist coordinate H is located within a predetermined range (for example, about plus or minus 10 cm) around the neck coordinate N in the trunk axis direction can be adopted as a fourth example of the start condition. In this case, for example, the user U1 raises the wrist coordinate H to the vicinity of the chest by bending the elbow while lying down, or turns the entire upper limb to the outside of the torso without bending the elbow and raises the wrist coordinate H to the vicinity of the chest. By performing a gesture, the state can be set to be acceptable.
また、開始条件の第五例は、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の第二閾値(例えば100度、80度など)以上であるという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態といった現在の姿勢に拘わらず、鉛直方向を意識せずに体幹軸方向に対して手を上げるジェスチャーを行うことによって、前記受付可能状態にすることができる。 A fifth example of the start condition is a line segment indicating the upper limb direction connecting the wrist coordinates H and the neck coordinates N and a line segment indicating the trunk axis direction connecting the waist coordinates W and the neck coordinates N. The condition is that the angle formed is equal to or larger than a predetermined second threshold (for example, 100 degrees, 80 degrees, etc.). In this case, regardless of the current posture, such as a standing state or a lying state, the user U1 makes a gesture of raising the hand in the trunk axis direction without being conscious of the vertical direction, thereby setting the state to the receivable state. be able to.
また、開始条件の第六例は、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の角度範囲内収まっているという条件である。所定の角度範囲は、例えば、100度を中心にプラスマイナス10度、20度などである。この場合、ユーザU1は、起立した状態及び寝ころんだ状態といった現在の姿勢に拘わらず、鉛直方向を意識せずに上肢方向と体幹軸方向との成す角度が所定の角度範囲内になるように上肢を上げるジェスチャーを行うことによって受付可能状態にすることができる。 The sixth example of the start condition is a line segment indicating the upper limb direction connecting the wrist coordinates H and the neck coordinates N and a line segment indicating the trunk axis direction connecting the waist coordinates W and the neck coordinates N. This is a condition that the angle formed falls within a predetermined angle range. The predetermined angle range is, for example, plus or minus 10 degrees or 20 degrees around 100 degrees. In this case, regardless of the current posture such as the standing state and the lying state, the user U1 does not care about the vertical direction so that the angle between the upper limb direction and the trunk axis direction is within a predetermined angle range. By performing a gesture of raising the upper limb, the reception state can be set.
開始条件は、第一例〜第六例のうちのいずれか2以上を組み合わせた条件であってもよい。例えば、開始条件は、第一例〜第六例のうちいずれか2以上の条件が共に成立したという条件(第三条件の一例)が採用できる。或いは、開始条件は、第一例〜第六例のうちのいずれか一つ又は少なくとも2つが成立したという条件(第二条件の一例)であってもよい。ここでは、第一例〜第六例は共に上肢を上げるというジェスチャーが想定されているが、これは一例である。例えば、上肢を下げるジェスチャー、左右の上肢を広げるジェスチャーなど種々のジェスチャーが開始条件として採用でき、検出対象となるジェスチャーは特に限定されない。左右の上肢を広げるジェスチャーは、例えば、左右の上肢を上に上げるジェスチャー、左右の上肢を下に下げるジェスチャー、及び片方の上肢を上げて残り片方の上肢を下げるジェスチャーなどである。 The start condition may be a condition in which any two or more of the first to sixth examples are combined. For example, as the start condition, a condition that any two or more of the first to sixth examples are satisfied (an example of a third condition) can be adopted. Alternatively, the start condition may be a condition that one or at least two of the first to sixth examples is satisfied (an example of a second condition). Here, the gesture of raising the upper limb is assumed in each of the first to sixth examples, but this is an example. For example, various gestures such as a gesture of lowering the upper limb and a gesture of expanding the left and right upper limb can be adopted as the start condition, and the gesture to be detected is not particularly limited. The gestures for extending the left and right upper limbs include, for example, a gesture for raising the left and right upper limbs, a gesture for lowering the left and right upper limbs, and a gesture for raising one upper limb and lowering the other upper limb.
次に、ステップS402の処理の一例を説明する。図8は、ジェスチャー可能範囲901の一例を示す図である。図8に例示されるようにジェスチャー可能範囲901は、ジェスチャー不可能範囲902と、ジェスチャー不可能範囲903とに挟まれている。
Next, an example of the process of step S402 will be described. FIG. 8 is a diagram illustrating an example of the gesture
開始条件判定部305は、ジェスチャー可能範囲901及びジェスチャー不可能範囲902、903とユーザU1の位置とを比較することによって、ユーザU1のジェスチャーを検出する範囲をユーザU1と操作端末1との距離によって制限する。
The start
ジェスチャー不可能範囲902は、ジェスチャー可能範囲901の下限値D1を半径とし、操作端末1を中心とする円形又は扇形の領域である。ジェスチャー可能範囲901は、上限値D2を半径とする円形又は扇形の領域からジェスチャー不可能範囲902を取り除いたドーナツ状の領域である。ジェスチャー不可能範囲903は、操作端末1から上限値D2より離れた領域である。
The
したがって、開始条件判定部305は、ユーザU1の位置が操作端末1に対して下限値D1から上限値D2までの範囲に位置する、すなわちジェスチャー可能範囲901に位置するという条件(第四条件の一例)を満たす場合、ユーザU1のジェスチャーを検出する。一方、開始条件判定部305は、ユーザU1の位置が操作端末1に対して下限値D1以下に位置する場合、又は、ユーザU1の位置が操作端末1に対して上限値D2以上の範囲に位置する場合、ユーザU1のジェスチャーを検出しない。
Therefore, the start
ユーザU1の位置が操作端末1に対して近すぎる場合、ユーザU1のジェスチャーをうまく検出できない可能性があることに加えてユーザU1がたまたま操作端末1の近傍で何らかの作業を行っているなど操作端末1を操作する意思がない可能性もある。また、ユーザU1の位置が操作端末1に対して遠すぎる場合、ユーザU1が操作端末1を操作する意思がない可能性が高い。そこで、本実施の形態では、開始条件判定部305は、ユーザU1がジェスチャー可能範囲901に居るときのみユーザU1のジェスチャーを検出する処理、すなわち、開始条件を満たすか否かを判定する処理を実施することにした。これにより、ジェスチャーの検出精度の低下を防止できると共にユーザU1の操作端末1への操作意思がない場合において、ジェスチャーを検出する処理が作動することを防止でき、操作端末1の処理負荷を削減できる。
When the position of the user U1 is too close to the
上記説明では、ジェスチャー抽出部304は、1つの第一座標と1つの第二座標とをジェスチャー抽出情報に含め、開始条件判定部305に出力するとして説明したが、本開示はこれに限定されない。ジェスチャー抽出部304は、1又は複数の第一座標と1又は複数の第二座標とをジェスチャー抽出情報に含め、開始条件判定部305に出力してもよい。
In the above description, the
例えば、ジェスチャー抽出情報に複数の第一座標と1つの第二座標とが含まれる場合、開始条件判定部305は、複数の第一座標(例えば、手首座標H、肘座標、及び肩座標)のうち少なくとも1つの第一座標が1つの第二座標(例えば、首元座標N)に対して鉛直方向又は体幹軸方向に第一閾値以上、大きければ、開始条件を満たすと判定すればよい。また、ジェスチャー抽出情報に1つの第一座標と複数の第二座標とが含まれる場合、開始条件判定部305は、1つの第一座標(例えば、手首座標H)が複数の第二座標(例えば、胴体座標、首元座標N、頭の先の座標)の少なくとも1つの第二座標に対して鉛直方向又は体幹軸方向に第一閾値以上、大きいければ、開始条件を満たすと判定すればよい。
For example, when the gesture extraction information includes a plurality of first coordinates and one second coordinate, the start
図9は、複数のユーザが操作端末1に対してジェスチャーを行う場合を示した図である。図9のユーザU1及びユーザU2に例示されるように操作端末1に対して複数のユーザがジェスチャーを行う場合、ジェスチャー抽出部304は、1人の操作者を特定し、特定した操作者に対するジェスチャー抽出情報を開始条件判定部305に出力してもよい。この場合、ジェスチャー抽出部304は、複数のユーザのうち操作端末1に対して最も近くに位置するユーザを操作者として特定してもよい。
FIG. 9 is a diagram illustrating a case where a plurality of users make a gesture on the
また、ジェスチャー抽出部304は、複数のユーザのうち最初に検出されたユーザがジェスチャー可能範囲901を出るまで最初に検出されたユーザを操作者として特定し続けてもよい。例えば、ユーザU1が先にジェスチャー可能範囲901に入り、その後、ユーザU2がジェスチャー可能範囲901に入った場合、ジェスチャー抽出部304は、ユーザU1がジェスチャー可能範囲901に居る限り、ユーザU1を操作者として特定する。そして、ユーザU1がジェスチャー可能範囲901から出ると、ジェスチャー抽出部304は、ジェスチャー可能範囲901にユーザU2が居れば、ユーザU2を操作者として特定する。このとき、ジェスチャー可能範囲901内にユーザU2の他にユーザU3が居れば、ジェスチャー抽出部304は、ユーザU2、ユーザU3のうち操作端末1に対する距離が近い方のユーザを操作者として特定してもよい。
In addition, the
但し、これらは一例であり複数のユーザの中から1人の操作者を特定する手法は上述の手法に限定されない。 However, these are merely examples, and the method of specifying one operator from a plurality of users is not limited to the above-described method.
次に、実施の形態1の変形例について説明する。実施の形態1の変形例は、受付可能状態にあるか否かを示す状態通知を出力するものである。 Next, a modified example of the first embodiment will be described. A modification of the first embodiment is to output a state notification indicating whether or not the apparatus is in a receivable state.
図10は、状態通知の第一例を示す図である。第一例では、操作端末1は、前面にディスプレイ501を備え、例えば室内の壁などに取り付けられている。撮像装置301はディスプレイ501の外枠の例えば上側に設けられている。収音装置307は、ディスプレイ501の外枠の上側において撮像装置301の両側に2つ設けられている。これらのことは、図11、図12も同じである。
FIG. 10 is a diagram illustrating a first example of the status notification. In the first example, the
状態通知の第一例では、ディスプレイ501はテキスト502によって状態通知を表示する。この例では、収音装置307は音声入力の受付可能状態にあるため、テキスト502として「音声入力受付中」が採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、テキスト502を非表示にしてもよいし、「音声入力待受中」などの操作端末1が受付可能状態にないことを示すテキスト502を表示してもよい。なお、図10に例示したテキスト502は一例であり、ユーザが、操作端末1が受付可能状態にあることを認識できるメッセージであれば他のメッセージが採用されてもよい。また、図10に示す撮像装置301及び収音装置307のそれぞれの配置場所、個数はほんの一例である。このことは、図11、図12も同じである。
In the first example of the status notification, the
図11は、状態通知の第二例を示す図である。状態通知の第二例では、ディスプレイ501はアイコン503によって状態通知を表示する。この例では、収音装置307は音声入力の受付可能状態にあるため、アイコン503としてマイクを模擬したアイコンが採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、アイコン503を非表示にしてもよいし、音声入力が待受状態であることを示すアイコンなどを表示してもよい。或いは、ディスプレイ501は、受付可能状態にある場合、アイコン503を所定の第一色で表示し、音声入力が待受状態である場合、第一色とは異なる所定の第二色でアイコン503を表示してもよい。なお、図10に例示したアイコン503は一例であり、ユーザが、受付可能状態にあることを認識できるアイコンであれば他のアイコンが採用されてもよい。
FIG. 11 is a diagram illustrating a second example of the status notification. In the second example of the status notification, the
図12は、状態通知の第三例を示す図である。状態通知の第三例では、ディスプレイ501は表示領域の全面の色504によって状態通知を表示する。色504とは、表示領域の全面に表示される背景の色である。この例では、収音装置307は音声入力の受付可能状態にあるため、色504として受付可能状態であることを示す第一色(例えば、赤、青、黄色など)が採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、待受状態であることを示す第一色とは異なる第二色を表示すればよい。第二色としては、例えば、ディスプレイ501に表示されるデフォルトの背景色が採用でき、例えば、白、黒、などである。なお、図12に例示した色504は一例であり、ユーザが受付可能状態を認識できる色であればどのような色が採用されてもよい。
FIG. 12 is a diagram illustrating a third example of the status notification. In the third example of the status notification, the
図13は、状態通知の第四例を示す図である。第四例において、操作端末1は、前面に例えば2つの収音装置307と例えば1つの撮像装置301とが配置され、上面に例えば4つの発光装置505が配置されている。なお、第四例において、操作端末1は、例えば、スマートスピーカのような机又は床などの上に置かれる据え置き型の装置で構成されている。発光装置505は、例えば、発光ダイオードなどである。
FIG. 13 is a diagram illustrating a fourth example of the status notification. In the fourth example, the
第四例では、発光装置505によって状態通知を表示する。例えば、操作端末1が受付可能状態にある場合、発光装置505は発光する。一方、操作端末1が待機状態にある場合、発光装置505は消灯する。これにより、ジェスチャーを行ったユーザは受付可能状態であることを認識できる。但し、これは、一例であり、ユーザが受付可能状態を認識できる態様であれば発光装置505の表示態様としてどのようなものが採用されてもよい。例えば、受付可能状態にある場合の発光装置505の表示態様としては、例えば、常時点灯させる態様、点滅させる態様、発光する色を時間の経過に応じて変化させる態様などが挙げられる。また、発光装置505の表示態様としては、例えば、常時点灯しており、受付可能状態になると点滅する態様が採用されてもよいし、その逆の態様が採用されてもよい。或いは、発光装置505の表示態様としては、例えば、受付可能状態にあるときと待受状態にあるときとで、発光する色の種類を変える態様が採用されてもよい。
In the fourth example, a state notification is displayed by the
図13では、発光装置505の個数は4つであるが、これは一例であり、3つ以下、5つ以上であってもよい。また、発光装置505は、上面に配置されているが、これも一例に過ぎず、前面、側面、背面などに配置されてもよい。さらに、撮像装置301及び収音装置307の個数及び配置箇所も特に限定はされない。
In FIG. 13, the number of the
図14は、状態通知の第五例を示す図である。第五例の操作端末1は、第四例の操作端末1に対して前面にさらにスピーカ506が設けられている。第五例ではスピーカ506から出力される音によって状態通知を出力する。図13において、ユーザが受付可能状態であることが認識することが可能であれば、スピーカ506の個数及び配置は特に限定されない。第五例においてスピーカ506は、受付可能状態にある場合、例えば「音声入力を行ってください」というような受付可能状態であることを示す音声メッセージを出力すればよい。或いは、スピーカ506は、受付可能状態にある場合、効果音を出力してもよいし、ビープ音を出力してもよい。これらのように、スピーカ506からの音の出力パターンは特定のパターンに限定されない。なお、スピーカ506は、待受状態の場合、音の出力を停止すればよい。
FIG. 14 is a diagram illustrating a fifth example of the status notification. The
図10〜図14に例示した受付可能状態であるか否かをユーザに通知するための操作端末1が備える構成、すなわち、ディスプレイ501及び発光装置505などの表示装置と、スピーカ506などの再生装置とは、任意に組み合わされてもよい。例えば、1又は複数種類の表示装置及び1又は複数種類の再生装置を任意に組合せることで、操作端末1は構成されてもよい。
The configuration of the
図15は、図4で例示した操作端末1のブロック図に対して、図10〜図14で例示した表示装置602及び再生装置603を加えた場合の操作端末1のブロック図である。
FIG. 15 is a block diagram of the
図15で例示する操作端末1は、図4に対してさらに、再生装置603及び表示装置602を備えている。なお、図15において操作端末1は、再生装置603及び表示装置602の少なくとも一方を備えればよい。
The
なお、図15において、図4と同一の構成要素には同一の符号を付し、説明を省略する。但し、図15では管理部に対して302の参照符号に代えて601の参照符号を付している。
In FIG. 15, the same components as those in FIG. 4 are denoted by the same reference numerals, and description thereof will be omitted. However, in FIG. 15, a
開始条件判定部305は、図4と同様、ジェスチャー抽出部304から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たすか否かを判定し、判定結果を管理部601に出力する。この処理の詳細は、図5に例示するフローと同様である。ただし、ステップS404では、判定結果が管理部306に代えて管理部601に出力されている。
The start
管理部601は、管理部306の機能に加えて、さらに、下記の機能を備える。すなわち、管理部601は、開始条件判定部305から開始条件を満たす旨の判定結果を取得した場合、図10〜図14で例示した状態通知の出力コマンドを再生装置603及び表示装置602に出力する。
The
収音装置307は、管理部601から開始指示を取得した場合、マイクに周囲の音を収音させ、収音された音を示す音声信号を収音音声記録部308に記録する。
When acquiring the start instruction from the
再生装置603は、図14で例示したスピーカ506、再生音を再生する再生回路などを備え、管理部306から状態通知の出力コマンドを取得した場合、メモリ309から所定の再生音を読み出して再生する。ここで、スピーカ506から再生される再生音は、図14で例示した、効果音、ビープ音、又は音声メッセージなどである。これにより、前記状態通知が聴覚を通じてユーザに通知される。
The
表示装置602は、図10〜図14で例示したディスプレイ501及び図13で例示した発光装置505の少なくとも一方で構成され、管理部601から状態通知の出力コマンドを取得した場合、図10〜図14で例示した状態通知を出力する。これにより、メッセージ、色、アイコンなどによって、状態通知が視覚を通じてユーザに通知される。
The
このように、本実施の形態によれば、空間内の特定の位置に上肢を向けるというような煩わしいジェスチャーではなく、操作端末1に対して手を挙げる両手を広げるといった簡易なジェスチャーによって受付可能状態にすることが可能となる。
As described above, according to the present embodiment, a state in which a simple gesture such as spreading both hands with the hand raised to the
(実施の形態2)
実施の形態1では、ユーザがジェスチャーによって受付可能状態を開始させる態様を主に例示した。実施の形態2は、実施の形態1の態様において、さらに、収音装置307が受付可能状態を終了する態様の詳細を示したものである。
(Embodiment 2)
In the first embodiment, the mode in which the user starts the receivable state by gesture is mainly exemplified. Embodiment 2 shows the details of the mode of
図16は、実施の形態2に係る操作端末1の構成の一例を示すブロック図である。なお、本実施の形態において実施の形態1と同一の構成要素は同一の符号を付して説明を省略する。
FIG. 16 is a block diagram illustrating an example of a configuration of the
図16の操作端末1は図15の構成に加えてさらに、タイムアウト判定部702、終了条件判定部703、及び無音区間検出部705を備える。また、ジェスチャー抽出部、開始条件判定部、及び管理部は実施の形態1に対して機能が追加されているため、700、701及び704の参照符号を付している。なお、図16において、操作端末1は再生装置603及び表示装置602を有している必要はない。
The
ジェスチャー抽出部700は、人検出部302から取得した検出結果及び骨格情報抽出部303から取得した骨格情報に基づいて、第一座標、第二座標及び第三座標を抽出し、第一座標、第二座標及び第三座標を含むジェスチャー抽出情報を開始条件判定部701に出力することに加えてさらに終了条件判定部703に出力する。なお、ジェスチャー抽出部700の処理の詳細は実施の形態1と同じである。
The
開始条件判定部701は、ジェスチャー抽出部700から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たすか否かを判定し、満たすと判定した場合、開始条件が満たされていることを示す判定結果を管理部704及びタイムアウト判定部702に出力する。なお、実施の形態2において、位置関係が開始条件を満たすか否かの判定処理の詳細は図5のフローと同様である。
The start
タイムアウト判定部702は、開始条件判定部701から開始条件を満たされていることを示す判定結果を取得した場合、所定のタイムアウト期間(例えば10秒間)のカウントダウンを開始し、カウントダウンが完了すると、タイムアウト期間が経過したことを示す判定結果を管理部704に出力する。但し、タイムアウト判定部702は、カウントダウン中、すなわち、タイムアウト期間内に開始条件判定部701から開始条件が満たされたことを示す判定結果を取得した場合、タイムアウト期間を初期化し、最初からタイムアウト期間のカウントダウンを実行する。これにより、受付可能状態において、ユーザが音声入力の終了の意思表示を示すジェスチャーを行わずに、ジェスチャー可能範囲901をフェードアウトしたとしても、受付可能状態が継続されることを防止できる。したがって、ユーザが音声入力の終了の意思表示を示すジェスチャーをし忘れた場合において、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。
The
終了条件判定部703は、ジェスチャー抽出部700から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が終了条件(第五条件の一例)を満たすか否かを判定し、満たすと判定した場合、終了条件が満たされていることを示す判定結果を管理部704に出力する。終了条件判定部703の処理の詳細は、図17のフローを用いて後述する。
The termination
管理部704は、待受状態にある場合において、開始条件判定部701から開始条件が満たされたことを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを立てると共に収音装置307に開始指示を出力することで、収音装置307を受付可能状態にする。
When the
また、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを下げると共に終了指示を収音装置307に出力することで、受付可能状態を終了させて待機状態にする。
When the
また、管理部704は、受付可能状態にある場合において、終了条件判定部703から終了条件が満たされたことを示すを判定結果を取得した場合、メモリ309に記憶された状態フラグを下げると共に終了指示を収音装置307に出力することで、受付可能状態を終了させて待機状態にする。これにより、ユーザが音声入力の終了の意思表示を示すジェスチャーをすることにより、受付可能状態を終了させることができる。なお、実施の形態1では、管理部306は、開始条件判定部305から開始条件が満たされていないことを示す判定結果を取得した場合、受付可能状態を終了したが、実施の形態2では、管理部704は、基本的に、終了条件判定部703から終了条件が満たされたことを示す判定結果を取得した場合、受付可能状態を終了する。
When the
なお、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、さらに、無音区間検出部705により有音区間が検出されていれば、受付可能状態を継続させてもよい。これにより、ユーザが操作端末1を操作する発話を行っているにも拘わらず、タイムアウト期間の経過を条件に、受付可能状態が自動的に終了する事態を回避できる。
When the
一方、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、さらに、無音区間検出部705により無音区間が検出されていれば、受付可能状態を終了する。
On the other hand, when the
無音区間検出部705は、収音音声記録部308に記録された最新の音声信号に無音区間が含まれているか否かを検出する。ここで、無音区間検出部705は、入力レベルが所定の閾値以下になっている時間が所定時間(例えば300ミリ秒)、継続した場合に音声信号に無音区間があると判定すればよく、無音区間の検出方式は特定の手法に限定されない。無音区間検出部705は、無音区間を検出すると、現在の収音状態を無音に設定して、管理部704に出力する。一方、無音区間検出部705は、有音区間を検出すると、現在の収音状態を有音に設定して、管理部704に出力する。
The silent
実施の形態2において、ジェスチャー抽出部700、開始条件判定部701、タイムアウト判定部702、終了条件判定部703、及び管理部704は条件判定部の一例に相当する。
In Embodiment 2, the
図16において、操作端末1は、タイムアウト判定部702、終了条件判定部703、及び無音区間検出部705の全て備える必要はなく、少なくとも1つを備えていればよい。
In FIG. 16, the
図17は、本開示の実施の形態2に係る終了条件判定部703の処理の一例を示すフローチャートである。
FIG. 17 is a flowchart illustrating an example of a process of the termination
ステップS801では、終了条件判定部703は、ジェスチャー抽出部700からジェスチャー抽出情報を取得する。
In step S801, the termination
ステップS802では、終了条件判定部703は、ステップS801で取得したジェスチャー抽出情報に基づいて、操作端末1の周囲のジェスチャー可能範囲901内にユーザが存在しているか否かを判定する。ジェスチャー可能範囲901内にユーザが存在しないと判定した場合(ステップS802でNO)、処理はステップS801に戻され、ジュスチャー抽出情報が取得される。一方、終了条件判定部703は、ジェスチャー可能範囲内にユーザが存在すると判定した場合(ステップS802でYES)、ステップS803を実行する。ここで、終了条件判定部703は、ジェスチャー抽出情報に含まれる第一座標及び第二座標などのユーザの位置を示す座標がジェスチャー可能範囲901内にあれば、ユーザはジェスチャー可能範囲901内に居ると判定し、前記座標がジェスチャー可能範囲901内になければ、ユーザはジェスチャー可能範囲901内に居ないと判定すればよい。
In step S802, the termination
ステップS803では、終了条件判定部703は、ジェスチャー抽出情報に含まれる第一座標、第二座標及び第三座標の位置関係が所定の終了条件(第5条件の一例)を満たしているか否かを判定する。そして、位置関係が終了条件を満たしていると判定した場合(ステップS803でYES)、終了条件判定部703は、ユーザが音声入力の終了の意思表示を示すジェスチャーを行ったため、処理をステップS804に進める。一方、位置関係が終了条件を満たしていないと判定した場合(ステップS803でNO)、終了条件判定部703は処理をステップS801に戻し、ジェスチャー抽出情報を取得する。
In step S803, the termination
ステップS804では、終了条件判定部703は、終了条件が満たされていることを示す判定結果を管理部704に出力する。ステップS804が終了すると、終了条件判定部703は、処理をステップS801に戻し、ジュスチャー抽出情報を取得する。
In step S804, the termination
次に、終了条件について説明する。図18は、終了条件を説明するために、ユーザU1の骨格情報201を例示した図である。図18は、ステップS803において、開始条件の比較対象となる第一座標、第二座標、及び第三座標が例示されている。図18の例では、第一座標として手首座標Hが採用され、第二座標として首元座標Nが採用され、第三座標として腰座標Wが採用されている。
Next, the termination condition will be described. FIG. 18 is a diagram exemplifying the
終了条件の第一例は、開始条件の第一例に対応するものであり、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値(例えば20cm)以上、小さい(低い)という条件である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値以上低くなるように上肢を下げるジェスチャーを行うことによって、受付可能状態を終了できる。なお、上肢は右腕であってもよいし、左腕であってもよい。 The first example of the end condition corresponds to the first example of the start condition, and the wrist coordinate H is smaller (lower) than the neck coordinate N by a first threshold (for example, 20 cm) or more in the vertical direction. Condition. In this case, the user U1 can end the receivable state by performing a gesture of lowering the upper limb so that the wrist coordinates H are lower than the neck base coordinates N by a first threshold or more in the vertical direction. The upper limb may be the right arm or the left arm.
終了条件の第二例は、開始条件の第二例に対応するものであり、手首座標Hと首元座標Nとが鉛直方向に対して所定範囲内に収まらなくなるという条件である。この場合、ユーザU1は、胸元付近まで上げた手首座標Hを鉛直方向に閾値範囲外の位置まで降ろす又は上げるジェスチャーを行うことで、受付可能状態を終了できる。 The second example of the end condition corresponds to the second example of the start condition, and is a condition that the wrist coordinates H and the neck coordinates N do not fall within a predetermined range in the vertical direction. In this case, the user U1 can end the acceptable state by performing a gesture of lowering or raising the wrist coordinate H raised near the chest to a position outside the threshold range in the vertical direction.
終了条件の第三例は、開始条件の第三例に対応するものであり、首元座標Nと腰座標Wとをつないだ体幹軸方向において、手首座標Hが首元座標Nよりも第一閾値以上小さいという条件である。この場合、ユーザU1は、手首座標Hが首元座標Nに対して体幹軸方向に対して第一閾値以上低くなるように上肢を下げるジェスチャーを行うことによって、受付可能状態を終了できる。 The third example of the end condition corresponds to the third example of the start condition. In the trunk axis direction connecting the neck coordinate N and the waist coordinate W, the wrist coordinate H is more than the neck coordinate N. The condition is that the value is smaller than one threshold value. In this case, the user U1 can end the receivable state by performing a gesture of lowering the upper limb so that the wrist coordinate H is lower than the neck coordinate N in the trunk axis direction by the first threshold or more.
終了条件の第四例は、開始条件の第四例に対応するものであり、手首座標Hと首元座標Nとが体幹軸方向に対して所定範囲内に収まらなくなるという条件である。この場合、ユーザU1は、胸元付近まで上げた手首座標Hを体幹軸方向に閾値範囲外の位置まで上げる又は下げるジェスチャーを行うことによって受け付け可能状態を終了できる。 The fourth example of the end condition corresponds to the fourth example of the start condition, and is a condition that the wrist coordinates H and the neck base coordinates N do not fall within a predetermined range in the trunk axis direction. In this case, the user U1 can end the receivable state by performing a gesture of raising or lowering the wrist coordinate H raised near the chest to a position outside the threshold range in the trunk axis direction.
終了条件の第五例は、開始条件の第五例に対応するものであり、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の第二閾値(100度、80度など)未満であるという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態であるかっといった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に対して手を下げるジェスチャーを行うことによって受付可能状態を終了できる。 The fifth example of the end condition corresponds to the fifth example of the start condition, and connects a line indicating the upper limb direction connecting the wrist coordinates H and the neck coordinates N to the waist coordinate W and the neck coordinates N. The condition is that the angle formed by the line indicating the trunk axis direction is smaller than a predetermined second threshold value (100 degrees, 80 degrees, etc.). In this case, regardless of the current posture of the user U1 such as standing or lying down, the user U1 is ready to accept by performing a gesture of lowering the hand in the trunk axis direction without being aware of the vertical direction. Can be terminated.
終了条件の第六例は、開始条件の第六例に対応するものであり、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の角度範囲内に収まっているという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態であるかっといった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に対して手を下げるジェスチャーを行うことによって受付可能状態を終了できる。 The sixth example of the end condition corresponds to the sixth example of the start condition, and connects the line indicating the upper limb direction connecting the wrist coordinate H and the neck coordinate N to the waist coordinate W and the neck coordinate N. This is a condition that the angle formed by the line segment indicating the trunk axis direction is within a predetermined angle range. In this case, regardless of the current posture of the user U1 such as standing or lying down, the user U1 is ready to accept by performing a gesture of lowering the hand in the trunk axis direction without being aware of the vertical direction. Can be terminated.
終了条件は、第一例〜第六例のうちいずれか2以上を組み合わせた条件であってもよい。例えば、終了条件は、第一例〜第六例のうちいずれか2以上の条件が共に成立したという条件が採用できる。或いは、終了条件は、第一例〜第六例のうちいずれか1つが成立したという条件であってもよい。ここでは、終了条件の第一例〜第六例は共に上肢を下げるジェスチャーが想定されているが、これは一例である。例えば、開始条件として上肢を下げる又は両手を下げるジェスチャーが採用されているのであれば、終了条件として上肢を上げる又は両手を上げるジェスチャーが終了条件として採用されてもよい。すなわち、終了条件は、開始条件と重複しないという制約が満たされているのであれば、どのような条件が採用されてもよい。 The termination condition may be a condition combining any two or more of the first to sixth examples. For example, as the end condition, a condition that any two or more conditions among the first to sixth examples are satisfied can be adopted. Alternatively, the termination condition may be a condition that any one of the first to sixth examples is satisfied. Here, a gesture of lowering the upper limb is assumed in each of the first to sixth examples of the end condition, but this is an example. For example, if a gesture of lowering the upper limb or lowering both hands is adopted as the start condition, a gesture of raising the upper limb or raising both hands may be adopted as the end condition. That is, any condition may be adopted as the end condition as long as the condition that the end condition does not overlap with the start condition is satisfied.
次に、ステップS802の処理の一例について図8を用いて説明する。終了条件判定部703は、開始条件判定部701と同様、ユーザU1の位置が操作端末1に対して下限値D1から上限値D2までの範囲内に位置する、すなわち、ジェスチャー可能範囲901にユーザが位置する場合、ジェスチャーを検出する。一方、終了条件判定部703は、ユーザU1の位置が操作端末に対して下限値D1以下に位置する場合、又は、ユーザU1の位置が操作端末1に対して上限値D2以上の範囲に位置する場合、ユーザU1のジェスチャーを検出しない。
Next, an example of the process of step S802 will be described with reference to FIG. The end
ユーザU1の位置が操作端末1に対して近すぎる場合、ユーザU1のジェスチャーをうまく検出できない可能性があることに加えてユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れてジェスチャー可能範囲901をフェードアウトした可能性がある。また、ユーザU1の位置が操作端末1に対して遠すぎる場合、ユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れてジェスチャー可能範囲901をフェードアウトした可能性がある。そこで、本実施の形態では、終了条件判定部703は、ユーザU1がジェスチャー可能範囲901に居る場合にユーザU1のジェスチャーを検出する処理、すなわち、終了条件を満たすか否かを判定する処理を実施することにした。これにより、ジェスチャーの検出精度の低下を防止できると共にユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れている場合において、受付可能状態が継続されることを防止できる。
When the position of the user U1 is too close to the
また、終了条件判定部703は、開始条件判定部701と同様、1又は複数の第一座標と1又は複数の第二座標とがジェスチャー抽出情報に含まれている場合は、これらの座標を用いて、終了条件を判定してもよい。
When one or a plurality of first coordinates and one or a plurality of second coordinates are included in the gesture extraction information, the end
例えば、ジェスチャー抽出情報に複数の第一座標と1つの第二座標とが含まれている場合、終了条件判定部703は、複数の第一座標(例えば、手首座標H、肘座標、及び肩座標)のうち少なくとも1つの第一座標が1つの第二座標(例えば、首元座標N)に対して鉛直方向又は体幹軸方向に第一閾値以上、小さければ、終了条件を満たすと判定すればよい。また、ジェスチャー抽出情報に1つの第一座標と複数の第二座標とが含まれる場合、終了条件判定部703は、1つの第一座標(例えば、手首座標H)が複数の第二座標(例えば、胴体座標、首元座標N、頭の先の座標)の少なくとも1つの第二座標に対して鉛直方向又は体幹軸方向に第一閾値以上、小さければ、終了条件を満たすと判定すればよい。但し、開始条件と終了条件とは重複していてはならない。
For example, when the gesture extraction information includes a plurality of first coordinates and one second coordinate, the end
次に、タイムアウト期間が延長される処理の詳細について説明する。図19は、本開示の実施の形態2に係るタイムアウト判定部702の処理の一例を示すフローチャートである。
Next, details of the processing for extending the timeout period will be described. FIG. 19 is a flowchart illustrating an example of a process of the
S1601では、タイムアウト判定部702は、タイムアウト期間のカウントダウン中であるか否かを判定する。カウントダウン中であれば(ステップS1601でYES)、タイムアウト判定部702は、処理をS1602に進め、カウントダウン中でなければ(ステップS1601でNO)、処理をステップS1601に戻す。
In step S1601, the
ステップS1602では、タイムアウト判定部702は、開始条件判定部701から開始条件が満たされることを示す判定結果を取得したか否かを判定する。この判定結果を取得した場合(ステップS1602でYES)、タイムアウト判定部702は、処理をステップS1603に進め、この判定結果を取得しない場合(ステップS1602でNO)、処理をステップS1601に戻す。
In step S1602, the
ステップS1603では、タイムアウト判定部702は、タイムアウト期間を初期値に戻して、再度カウントダウンを開始することで、タイムアウト期間を延長する。ステップS1603の処理が終了すると、処理はステップS1601に戻る。
In step S1603, the
以上により、ジェスチャー可能範囲901内でユーザが音声入力の意思表示を示すジェスチャーを行っている限り、タイムアウト期間は延長され、操作端末1を操作する発話が収音されない事態を回避できる。
As described above, as long as the user performs the gesture indicating the intention of voice input within the gesture
次に、管理部704の処理について説明する。図20は、本開示の実施の形態2に係る管理部704が受付可能状態を終了させるときの処理の一例を示すフローチャートである。なお、管理部704が受付可能状態を開始させるときの処理は図6と同じであるため、ここでは、説明を省略する。ステップS1701では、管理部704は、メモリ309に記憶された状態フラグを参照することで、受付可能状態であるか否かを判定する。受付可能状態であれば(ステップS1701でYES)、処理はステップS1702に進み、受付可能状態でなければ(ステップS1701でNO)、処理はステップS1701に戻る。
Next, the processing of the
ステップS1702では、管理部704は、終了条件判定部703から終了条件が満たされていることを示す判定結果を取得できたか否かを判定する。この判定結果が取得された場合(ステップS1702でYES)、処理はステップS1705に進み、この判定結果が取得されなかった場合(ステップS1702でNO)、処理はステップS1703に進む。
In step S1702, the
ステップS1703では、管理部704は、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得したか否かを判定する。この判定結果が取得された場合(ステップS1703でYES)、処理はステップS1704に進み、この判定結果が取得されない場合(ステップS1703でNO)、処理はステップS1701に戻る。
In step S1703, the
ステップS1704では、管理部704は、無音区間検出部705から出力された収音状態が無音であることを示すか否かを判定する。収音状態が無音であることを示せば(ステップS1704でYES)、処理はステップS1705に進み、収音状態が有音であることを示せば(ステップS1704でNO)、処理はステップS1701に戻る。これにより、タイムアウト期間の経過時に無音区間が検出されていれば、受付可能状態が終了され、有音区間が検出されていれば、受付可能状態は継続される。
In step S1704, the
ステップS1705では、管理部704は、受付可能状態を終了し、処理をステップS1701に戻す。
In step S1705, the
以上、実施の形態2によれば、、ユーザは操作端末1に対して、例えば、手を上げるというような簡易なジェスチャーによって受付可能状態を開始させ、手を下げるというような簡易なジェスチャーによって受付可能状態を終了させることができる。
As described above, according to the second embodiment, the user causes the
次に、実施の形態2の変形例について説明する。実施の形態2においても、実施の形態1と同様、図9に示すように、に操作端末1に対して複数のユーザがジェスチャーを行う場合、ジェスチャー抽出部700は、1人の操作者を特定してもよい。この場合、ジェスチャー抽出部700は、実施の形態1と同様、最も近くにいるユーザを操作者として特定してもよいし、最初に検出されたユーザがジェスチャー可能範囲901を出るまで、そのユーザを操作者として特定し続けてもよい。
Next, a modification of the second embodiment will be described. In the second embodiment, as in the first embodiment, when a plurality of users make gestures on the
図16の例では、撮像装置301、収音装置307、再生装置603、及び表示装置602は、操作端末1が備えていたが、本開示はこれに限定されない。例えば、図21に示すように、撮像装置301、再生装置603、及び表示装置602は、操作端末1とは別の装置で構成されてもよい。
In the example of FIG. 16, the
図21は、撮像装置301、再生装置603、及び表示装置602を操作端末1とは別の装置で構成した場合の構成の一例を示す図である。図21において、撮像装置301、再生装置603、及び表示装置602はLAN等のネットワークを介して相互に通信可能に接続されている。
FIG. 21 is a diagram illustrating an example of a configuration in a case where the
図21の例では、ユーザU1が収音装置307を有した操作端末1に対して行ったジェスチャーが、操作端末1とは別体の撮像装置301により撮像され、撮像装置301は得られた空間情報から音声入力の開始の意思表示を示すジェスチャー又は音声入力の終了の意思表示を示すジェスチャーとを検出し、検出結果を操作端末1に送信する。操作端末1は、撮像装置301による検出結果に応じて、収音装置307を受付可能状態又は待機状態にする。そして、操作端末1は、状態通知を表示装置602及び再生装置603に送信し、表示装置602及び再生装置603から図10〜図14に示すような状態通知を出力させる。
In the example of FIG. 21, a gesture performed by the user U1 on the
また、図21において、操作端末1、撮像装置301、表示装置602、及び再生装置603は、それぞれ、複数の装置で構成されてもよいし、一つの装置に一体的に構成されていてもよい。また、図21の例では、収音装置307は操作端末1が備えているが、操作端末1とは別体の装置で構成されていてもよい。
In FIG. 21, the
さらに、実施の形態2において、管理部704は、受付可能状態において、無音区間が検出された場合、ユーザがジェスチャー可能範囲901に居るか否かに拘わらず、音声入力の終了の意思表示を示すジェスチャーをするか否かに拘わらず、或いは、タイムアウト期間が経過するか否かに拘わらず、受付可能状態を終了させてもよい。
Further, in the second embodiment, when a silent section is detected in the receivable state, the
本開示によって実現される、操作端末の音声入力の開始および終了をユーザのジェスチャーによって判定する技術は、ユーザが厳密なジェスチャーを覚える必要がなくなり、ジェスチャーによる簡易な音声入力の開始および終了を実現する手法として有用である。 The technology implemented by the present disclosure to determine the start and end of the voice input of the operation terminal by the gesture of the user eliminates the need for the user to memorize a strict gesture, and realizes the simple start and end of the voice input by the gesture. It is useful as a technique.
1 :操作端末
300 :プロセッサ
301 :撮像装置
302 :人検出部
303 :骨格情報抽出部
304 :ジェスチャー抽出部
305 :開始条件判定部
306 :管理部
307 :収音装置
308 :収音音声記録部
309 :メモリ
501 :ディスプレイ
502 :テキスト
503 :アイコン
504 :色
505 :発光装置
506 :スピーカ
601 :管理部
602 :表示装置
603 :再生装置
700 :ジェスチャー抽出部
701 :開始条件判定部
702 :タイムアウト判定部
703 :終了条件判定部
704 :管理部
705 :無音区間検出部
1: operation terminal 300: processor 301: imaging device 302: human detection unit 303: skeleton information extraction unit 304: gesture extraction unit 305: start condition determination unit 306: management unit 307: sound collection device 308: sound collection voice recording unit 309 : Memory 501: Display 502: Text 503: Icon 504: Color 505: Light emitting device 506: Speaker 601: Management unit 602: Display device 603: Playback device 700: Gesture extraction unit 701: Start condition judgment unit 702: Timeout judgment unit 703 : End condition determination unit 704: Management unit 705: Silence section detection unit
Claims (26)
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える、
操作端末。 An operation terminal operated by a user's uttered voice,
An imaging unit for imaging a space;
From the information of the imaged space, a person detection unit that detects the user,
A voice input unit that receives an input of an uttered voice by the user;
When the user is detected by the human detection unit, the first coordinate of a predetermined first portion included in the upper limb of the user based on information obtained by predetermined means and included in the upper body excluding the upper limb of the user A coordinate detection unit that detects a second coordinate of a predetermined second part to be
Comparing the positional relationship between the first coordinates and the second coordinates, and, at least once, when the positional relationship satisfies a predetermined first condition, a condition determination that sets the voice input unit to a state in which a voice input can be accepted. And a part,
Operation terminal.
前記所定の手段によって得られた情報は、前記骨格情報である、
請求項1記載の操作端末。 A skeleton information extraction unit configured to extract skeleton information of the user from the information of the space;
The information obtained by the predetermined means is the skeleton information,
The operation terminal according to claim 1.
請求項1〜3のいずれかに記載の操作端末。 The positional relationship is a positional relationship between the first coordinates and the second coordinates in the vertical direction,
The operation terminal according to claim 1.
請求項1〜3のいずれかに記載の操作端末。 The positional relationship is a positional relationship between the first coordinates and the second coordinates in the trunk axis direction of the user,
The operation terminal according to claim 1.
前記第一条件は、前記第一座標、前記第二座標、及び前記第三座標の成す角度が、所定の閾値を超える、前記所定の閾値を下回る、又は所定の範囲に収まることである、
請求項1〜3のいずれかに記載の操作端末。 The coordinate detection unit further detects a third coordinate of a third part in the upper body,
The first condition is that the angle formed by the first coordinate, the second coordinate, and the third coordinate exceeds a predetermined threshold, is lower than the predetermined threshold, or falls within a predetermined range.
The operation terminal according to claim 1.
前記第一座標は、前記複数の部位のいずれか1以上の座標に基づいて決定される、
請求項1〜6のいずれかに記載の操作端末。 The first portion includes a plurality of portions included in the upper limb,
The first coordinates are determined based on coordinates of any one or more of the plurality of parts,
The operation terminal according to claim 1.
前記第二座標は、前記複数の部位のいずれか1以上の座標に基づいて決定される、
請求項1〜7のいずれかに記載の操作端末。 The second part includes a plurality of parts included in the upper body excluding the upper limb,
The second coordinates are determined based on any one or more coordinates of the plurality of parts,
The operation terminal according to claim 1.
前記条件判定部は、前記位置関係が、前記複数の第二条件の少なくとも1つ、又は前記複数の第二条件の一部を組み合わせた第三条件を満たす場合に前記受付可能状態にする、
請求項1〜8のいずれか一項に記載の操作端末。 The first condition includes a plurality of second conditions,
The condition determination unit sets the receivable state when the positional relationship satisfies at least one of the plurality of second conditions, or a third condition obtained by combining a part of the plurality of second conditions.
An operation terminal according to any one of claims 1 to 8.
請求項1〜9のいずれかに記載の操作端末。 The audio input unit further includes a display unit or a reproduction unit that outputs information indicating whether or not in the acceptable state,
The operation terminal according to claim 1.
請求項10記載の操作端末。 The display unit is a display,
The operation terminal according to claim 10.
請求項10に記載の操作端末。 The display unit is a light emitting device that emits light indicating that the voice input unit is in the acceptable state,
The operation terminal according to claim 10.
請求項10に記載の操作端末。 The playback unit outputs a sound indicating whether the sound input unit is in the receivable state,
The operation terminal according to claim 10.
請求項10に記載の操作端末。 The playback unit outputs a sound indicating whether the voice input unit is in the receivable state,
The operation terminal according to claim 10.
請求項1から15のいずれかに記載の操作端末。 The condition determination unit compares the positional relationship only when the distance between the operation terminal and the user satisfies a predetermined fourth condition,
The operation terminal according to claim 1.
請求項1〜16のいずれかに記載の操作端末。 The condition determination unit terminates the receivable state when a silent section continues for a predetermined time in the receivable state,
An operation terminal according to any one of claims 1 to 16.
請求項1〜17のいずれかに記載の操作端末。 The condition determination unit continues the receivable state as long as the positional relationship satisfies the first condition in the receivable state,
An operation terminal according to any one of claims 1 to 17.
請求項1〜18のいずれかに記載の操作端末。 The condition determination unit, when the state in which the positional relationship does not satisfy the first condition in the receivable state continues for a predetermined timeout period, ends the receivable state,
An operation terminal according to any one of claims 1 to 18.
請求項19記載の操作端末。 The condition determination unit, in the timeout period, if it is determined that the positional relationship satisfies the first condition, extend the timeout period,
The operation terminal according to claim 19.
請求項18に記載の操作端末。 The condition determination unit continues the receivable state if a voice input is detected at the end of the timeout period,
The operation terminal according to claim 18.
請求項1〜21のいずれかに記載の操作端末。 The condition determination unit ends the receivable state when the positional relationship satisfies a predetermined fifth condition different from the first condition,
The operation terminal according to claim 1.
請求項1〜22のいずれかに記載の操作端末。 The condition determination unit, when the human detection unit detects a plurality of users, recognizes a specific one as an operator of the operation terminal,
An operation terminal according to claim 1.
請求項23に記載の操作端末。 The operator is a user closest to the operation terminal among the plurality of users,
The operation terminal according to claim 23.
撮像装置により撮像された空間の情報を取得し、
前記空間の情報から、前記ユーザを検出し、
前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出し、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、音声入力部を音声入力の受付可能状態とする、
音声入力方法。 A voice input method in an operation terminal operated by a user's uttered voice,
Obtain information on the space imaged by the imaging device,
Detecting the user from the information of the space,
When the user is detected, first coordinates of a predetermined first portion included in the upper limb of the user based on information obtained by predetermined means and predetermined second coordinates included in the upper body excluding the upper limb of the user Detect the second coordinate of the part and
Comparing the positional relationship between the first coordinates and the second coordinates, at least once, when the positional relationship satisfies a predetermined first condition, the audio input unit is set to a state in which a voice input can be accepted.
Voice input method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/433,305 US11195525B2 (en) | 2018-06-13 | 2019-06-06 | Operation terminal, voice inputting method, and computer-readable recording medium |
CN201910498853.5A CN110600024A (en) | 2018-06-13 | 2019-06-10 | Operation terminal, voice input method, and computer-readable recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018112671 | 2018-06-13 | ||
JP2018112671 | 2018-06-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019220145A true JP2019220145A (en) | 2019-12-26 |
Family
ID=69096745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019042991A Pending JP2019220145A (en) | 2018-06-13 | 2019-03-08 | Operation terminal, voice input method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019220145A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021140010A (en) * | 2020-03-04 | 2021-09-16 | シャープ株式会社 | Voice input output device, voice input output method, and voice input output program |
JP2022046326A (en) * | 2020-09-10 | 2022-03-23 | ソフトバンク株式会社 | Information processing device, information processing method and information processing program |
-
2019
- 2019-03-08 JP JP2019042991A patent/JP2019220145A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021140010A (en) * | 2020-03-04 | 2021-09-16 | シャープ株式会社 | Voice input output device, voice input output method, and voice input output program |
JP7410754B2 (en) | 2020-03-04 | 2024-01-10 | シャープ株式会社 | Audio input/output device, audio input/output method, and audio input/output program |
JP2022046326A (en) * | 2020-09-10 | 2022-03-23 | ソフトバンク株式会社 | Information processing device, information processing method and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230205151A1 (en) | Systems and methods of gestural interaction in a pervasive computing environment | |
JP6143975B1 (en) | System and method for providing haptic feedback to assist in image capture | |
WO2016157658A1 (en) | Information processing device, control method, and program | |
WO2017134935A1 (en) | Information processing device, information processing method, and program | |
US20170061696A1 (en) | Virtual reality display apparatus and display method thereof | |
TW201805744A (en) | Control system and control processing method and apparatus capable of directly controlling a device according to the collected information with a simple operation | |
JP2020523717A (en) | Device and method for position determination in thermal imaging system | |
CN111163906B (en) | Mobile electronic device and method of operating the same | |
KR20200034376A (en) | Apparatus and method for providing a notification by interworking a plurality of electronic devices | |
US11373650B2 (en) | Information processing device and information processing method | |
CN104159360A (en) | Illumination control method, device and equipment | |
WO2017141530A1 (en) | Information processing device, information processing method and program | |
KR20070029794A (en) | A method and a system for communication between a user and a system | |
US20200074960A1 (en) | Information processor, information processing method, and recording medium | |
CN109145847B (en) | Identification method and device, wearable device and storage medium | |
CN108366220A (en) | A kind of video calling processing method and mobile terminal | |
CN108966198A (en) | Method for connecting network, device, intelligent glasses and storage medium | |
JP2019220145A (en) | Operation terminal, voice input method, and program | |
JPWO2020090227A1 (en) | Information processing equipment, information processing methods, and programs | |
JP2016213674A (en) | Display control system, display control unit, display control method, and program | |
JP2004303251A (en) | Control method | |
US20180039836A1 (en) | Single call-to-connect live communication terminal, method and tool | |
JP2007156688A (en) | User authentication device and its method | |
US11657821B2 (en) | Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user | |
CN110600024A (en) | Operation terminal, voice input method, and computer-readable recording medium |