JP2010204260A - Interactive device - Google Patents
Interactive device Download PDFInfo
- Publication number
- JP2010204260A JP2010204260A JP2009047872A JP2009047872A JP2010204260A JP 2010204260 A JP2010204260 A JP 2010204260A JP 2009047872 A JP2009047872 A JP 2009047872A JP 2009047872 A JP2009047872 A JP 2009047872A JP 2010204260 A JP2010204260 A JP 2010204260A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- pseudo
- noise
- visitor
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
Abstract
Description
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。 The present invention relates to an interactive device that can be operated by an operator using a voice interactive method.
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の所定距離範囲内への存在・不存在を処理開始・終了のトリガーとしたり、操作者の発話内容の音声認識精度を向上する等のために、装置から操作者までの距離を非接触で精度よく検出できることが好ましい。 For example, an interactive device that can be operated by an operator in an interactive manner, such as a reception device that performs a reception work for a visitor to a building, has been known. In such an interactive device, the presence / absence of the operator within a predetermined distance range is used as a trigger for the start / end of processing, the speech recognition accuracy of the operator's utterance content is improved from the device, etc. It is preferable that the distance to the operator can be accurately detected without contact.
このような非接触距離検出に関しては、例えば特許文献1記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物(物体)に対して出力し、検出対象物での反射波(エコーパルス)を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。 For such non-contact distance detection, for example, the prior art described in Patent Document 1 is known. In this prior art, an ultrasonic pulse is generated and output to an object (object), and a reflected wave (echo pulse) on the detection object is detected. Then, by calculating the transmission time of the ultrasonic pulse, the distance to the object is detected based on the transmission time.
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。 However, when the distance detection method using ultrasonic waves as in the above-described conventional technique is applied to the interactive device, there is a problem that it becomes necessary to newly provide a sensor or microphone dedicated to distance detection.
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行える対話装置を提供することにある。 An object of the present invention is to provide an interactive apparatus that can detect a distance to an operator without newly providing a dedicated sensor or microphone.
上記目的を達成するために、第1の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段とを有することを特徴とする。 In order to achieve the above object, the first invention is an interactive apparatus that can be operated by an operator in an interactive manner, and includes an audio input means for inputting audio, and an audio output means for outputting audio. Sound acquisition means for acquiring sound information including a corresponding amplitude or frequency by sound input through the sound input means, and the sound acquisition within a predetermined time after the sound input means inputs the sound. On the basis of the sound information acquired by the means, a pseudo sound output means for outputting a pseudo sound for distance detection via the sound output means, and an object of the pseudo sound input via the sound input means Based on the reflected sound, reflected sound acquisition means for acquiring reflected sound information including a corresponding amplitude or frequency, and based on the reflected sound information acquired by the reflected sound acquisition means, a predetermined calculation process is performed, and the object is Said It has distance detection means for detecting the distance to the operator based on the assumption that the user is an author, and dialogue processing control means for starting dialogue processing with the operator based on the detection result of the distance detection means. It is characterized by.
本願第1発明の対話装置においては、音を用いて操作者との距離を検出する。すなわち、装置の周囲で発生した音(いわゆる雑音)が音声入力手段を介して入力され、対応する音情報が音取得手段で取得される。すると、この音情報に基づき、疑似音出力手段が、距離検出用の疑似音を音声出力手段を介し出力する。出力された疑似音は対象物に向かって伝搬しその反射音が音声入力手段を介して入力される、対応する反射音情報が反射音取得手段で取得される。疑似音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例するが、操作者が存在している場合は対象物としての操作者で反射した反射音が音声入力手段を介して入力され、上記時間は装置から操作者までの距離に比例する。したがって、距離検出手段は、上記反射音情報に基づき、前記対象物が前記操作者であると推測して操作者までの距離を検出する。この距離検出が終わった後に、当該検出結果に基づき、対話処理制御手段が操作者との対話処理を開始することで、確実な対話処理を行うことができる。 In the dialogue apparatus of the first invention of the present application, the distance from the operator is detected using sound. That is, sound (so-called noise) generated around the apparatus is input through the sound input unit, and corresponding sound information is acquired by the sound acquisition unit. Then, based on this sound information, the pseudo sound output means outputs the pseudo sound for distance detection via the sound output means. The output pseudo sound propagates toward the object and the reflected sound is input via the sound input means, and the corresponding reflected sound information is acquired by the reflected sound acquisition means. The time from when the pseudo sound is emitted until the reflected sound returns is proportional to the distance from the device to the object, but when there is an operator, the reflection reflected by the operator as the object Sound is input via the voice input means, and the time is proportional to the distance from the device to the operator. Therefore, the distance detection means detects the distance to the operator by estimating that the object is the operator based on the reflected sound information. After the distance detection is completed, the dialogue processing control means starts the dialogue processing with the operator based on the detection result, so that the certain dialogue processing can be performed.
以上のようにして、本願第1発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段(マイク等)や音声出力手段(スピーカ等)を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。 As described above, in the first invention of the present application, the distance to the operator can be detected using the sound input / output via the voice input means and the voice output means. That is, by utilizing voice input means (such as a microphone) and voice output means (such as a speaker) that are originally provided for interactive processing, other distance detection sensors and dedicated microphones are newly provided. The distance can be detected without any problem.
またこのとき、距離検出のために、装置の周囲で発生した音(いわゆる雑音)に基づく疑似音を用いることにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行える効果もある。 At this time, the distance detection is performed without using the pseudo sound based on the sound (so-called noise) generated around the device without the operator realizing that the sound is detected. There is also an effect that can be performed.
第2発明は、上記第1発明において、前記音取得手段で取得された前記音情報に所定の処理を行い、対応する前記疑似音を生成する疑似音生成手段を有し、前記疑似音出力手段は、前記疑似音生成手段で生成された前記疑似音を出力することを特徴とする。 According to a second aspect of the present invention, in the first aspect of the invention, the pseudo-sound output unit includes a pseudo-sound generation unit that performs a predetermined process on the sound information acquired by the sound acquisition unit and generates the corresponding pseudo-sound. Outputs the pseudo sound generated by the pseudo sound generating means.
これにより、装置の周囲で発生した音(いわゆる雑音)をそのまま用いて距離検出を行う以外に、雑音のうちの所定範囲(レベル範囲や時間範囲)のものを用いたり、雑音に各種の加工を施したものを用いたりすることが可能となる。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。 As a result, in addition to the distance detection using the sound (so-called noise) generated around the device as it is, the noise within a predetermined range (level range or time range) can be used, or various processing can be applied to the noise. It is possible to use what has been applied. As a result, the variation of sound that can be used for distance detection can be expanded, so that the applicability to various applications can be improved.
第3発明は、上記第2発明において、前記疑似音生成手段は、前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする。 According to a third aspect, in the second aspect, the pseudo sound generating means generates the pseudo sound based on the sound information that exceeds a predetermined threshold level.
雑音に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力した疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第3発明においては、所定のしきい値レベルを超えた雑音のみに限定して疑似音を生成することにより、上記のレベル不足による不都合を回避し、確実な距離検出を行うことができる。 When generating the pseudo sound based on the noise, if the level of the original noise is too small, the level of the output pseudo sound is also small and it is difficult to detect the reflected sound. Therefore, in the third invention of the present application, by generating a pseudo sound only for noise exceeding a predetermined threshold level, it is possible to avoid the inconvenience due to the insufficient level and to perform reliable distance detection. it can.
第4発明は、上記第3発明において、前記疑似音生成手段は、所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする。 According to a fourth aspect, in the third aspect, the pseudo sound generating means generates the pseudo sound based on the sound information in a predetermined time range.
音情報に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第4発明においては、所定の時間範囲の雑音のみに限定して疑似音を生成する。これにより、例えばドアをしめた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似音を生成することが可能となる。これにより、前述のようなレベル不足による不都合を回避し、確実な距離検出を行うことができる。 When generating the pseudo sound based on the sound information, if the level of the original noise is too small, the level of the pseudo sound to be output is also small, and it is difficult to detect the reflected sound. Therefore, in the fourth invention of the present application, the pseudo sound is generated by limiting only to noise in a predetermined time range. This cuts out only the large part of the first level until it is attenuated, such as the sound of closing the door or the sound of placing an object, and then decaying rapidly. It is possible to generate a pseudo sound based on the part. As a result, it is possible to avoid the inconvenience due to the insufficient level as described above, and to perform reliable distance detection.
第5発明は、上記第1乃至第4発明のいずれかにおいて、前記対話処理制御手段の制御に基づく前記対話処理が終了した後、所定期間が経過したら、疑似音の出力を再び実行するように制御する出力制御手段を有することを特徴とする。 According to a fifth aspect of the present invention, in any one of the first to fourth aspects, the pseudo sound is output again after a predetermined period of time has elapsed after the completion of the interactive process based on the control of the interactive process control unit. It has the output control means to control, It is characterized by the above-mentioned.
操作者との距離を確定して対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない(あるいは別の操作者がいる)状態になっている可能性が高い。そこで本願第5発明においてはこれに応じ、出力制御手段が、対話処理終了後所定期間が経過したら、疑似音の出力を再び実行するように制御する。これにより、次の操作者に対する距離検出を確実に実行することができる。 When the distance between the operator and the dialogue process is determined, and the dialogue process is completed, it is a while after the dialogue process is completed, the operator who has been in conversation has already moved to another place, and there is no one in the vicinity of the device ( Or there is another possibility that there is another operator). Accordingly, in the fifth aspect of the present invention, in response to this, the output control means performs control so that the output of the pseudo sound is executed again when a predetermined period has elapsed after the end of the dialogue processing. Thereby, the distance detection with respect to the next operator can be performed reliably.
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行うことができる。 According to the present invention, it is not necessary to newly provide a dedicated sensor or microphone, and the distance to the operator can be detected.
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the dialogue apparatus of the present invention is applied to a visitor reception system that performs reception work for visitors to buildings, companies, and other buildings, for example.
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
(A) Basic Configuration of System FIG. 1 is a system configuration diagram showing an overall configuration of a visitor reception system according to the present embodiment.
図1において、来訪者受付システム1は、例えば会社の入口付近に設置され、操作者(この例では、会社への来訪者)Mが対話方式により操作可能な受付端末20(対話装置)を有している。受付端末20には、音声を入力するためのマイク207(音声入力手段)と、音声を出力するためのスピーカ208(音声出力手段)とが設けられている。
In FIG. 1, a visitor reception system 1 is installed near the entrance of a company, for example, and has an acceptance terminal 20 (interactive device) that can be operated by an operator (in this example, a visitor to the company) M in an interactive manner. is doing. The
受付端末20は、来訪者Mとの対話処理(この例では、来訪者Mとの対話による受付処理)や、音声(雑音、疑似雑音、反射音等。後述)を用いた来訪者Mまでの距離の検出を行う。本実施形態では、受付端末20から来訪者Mまでの距離を検出する方法として、スピーカ208から距離検出用の音(後述する疑似雑音)を出力させて、その疑似雑音が来訪者Mで反射し、その反射音がマイク207に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Mまでの距離に比例するという関係から、来訪者Mまでの距離を検出する。すなわち、来訪者Mまでの距離をL、上記所要時間をtとすると、
L=c×t/2 ・・・(式1)
で表される関係が成り立つ(詳細は図7で後述する)。なお、cは音速(約340[m/s]。但し、媒体である空気の密度や圧力により異なる)である。
The
L = c × t / 2 (Formula 1)
(The details will be described later with reference to FIG. 7). Note that c is the speed of sound (about 340 [m / s], but varies depending on the density and pressure of air as a medium).
上記(式1)を解くことによって、来訪者Mまでの距離が検出できる。そして、検出した距離が所定値(受付処理可能な距離に相当。例えば、1[m])以下となったら、受付処理を開始する(詳細は後述する)。 The distance to the visitor M can be detected by solving the above (Formula 1). Then, when the detected distance is equal to or less than a predetermined value (corresponding to a distance that can be accepted, for example, 1 [m]), the acceptance process is started (details will be described later).
また、図1に示すように、受付端末20は、表示部210、上記マイク207、及び上記スピーカ208を有している。表示部210は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース212に対してアーム211を介し支持され、来訪者Mの視線に対して直角となるように面方向が斜め上方を向いている。マイク207は、ベース212に対し先端を来訪者M側へ向けるようにして略円弧状に配置されている。
As illustrated in FIG. 1, the
なお、表示部210をタッチパネルで構成し、表示される表示画面を来訪者Mが直接画面に触れながら操作できるようにしてもよい。
Note that the
図2は、来訪者受付システム1のシステム全体の機能構成を表す機能ブロック図である。 FIG. 2 is a functional block diagram showing the functional configuration of the entire system of the visitor reception system 1.
図2において、来訪者受付システム1は、上記受付端末20と、周知のパーソナルコンピュータにより構成されるDBサーバ10と、会社の従業員それぞれに対応して設けられた複数の(この例では2つの)IP電話機60と、それら複数のIP電話機60の回線交換を行う周知の交換装置であるIP−PBX(Intenet Protocol Private Branch eXchange)50とを有し、これらはすべてルータ40を介して接続されている。
In FIG. 2, the visitor reception system 1 includes a plurality of (two in this example) provided corresponding to the
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、上記表示部210、上記マイク207、及び上記スピーカ208とを有している。
The
マイク207は、入力された音声を音声情報に変換し、端末本体20Aへ出力する。入力音声としては、本実施形態では、例えば来訪者Mが発話した音声や、受付端末20の周囲で発生した雑音(例えば空調の音、ドアを閉めた音、物を置いた音、足音等)等がある。
The
スピーカ208は、端末本体20Aから入力された音声信号を、来訪者Mに対する報知音(案内音声)や距離検出用の疑似雑音(疑似音。詳細は後述する)に変換して出力する。
The
図3は、表示部210における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物IMが、後述の受付処理が開始されると、オフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章B(図中では「***」で略記している)が併せて表示される。
FIG. 3 is a diagram illustrating an example of a display screen in the
図4は、受付端末20の機能的構成を示す機能ブロック図である。
FIG. 4 is a functional block diagram illustrating a functional configuration of the
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205と、計時手段であるタイマ209とを有している。
In FIG. 4, the
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
The
I/Oインタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タイマ209と、上記表示部210と、上記マイク207と、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
The
HDD205には、言語モデル記憶エリア252、辞書記憶エリア253、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
The
言語モデル記憶エリア252には、来訪者Mによる発話の認識に使用するための受理可能な文のパターンが、受付端末20と来訪者Mとの対話で想定される様々な場面に応じて予め作成され、言語モデルとして記憶されている。
In the language
辞書記憶エリア253には、上記言語モデルとともに音声認識に使用される単語辞書や、上記言語モデル及び単語辞書とともに来訪者Mの身元を特定するための音声認識に適宜使用される来訪者辞書等が、記憶されている。
The
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、表示部210に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム等がある。
In the
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
Although not shown, the
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
The
図5は、DBサーバ10の機能的構成を表す機能ブロック図である。
FIG. 5 is a functional block diagram illustrating a functional configuration of the
図5に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置(HDD)150とを有している。
As shown in FIG. 5, the
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
The
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
A
HDD150は、来訪者情報を格納する来訪者予約データベース(DB)記憶エリア151、社員情報を格納する社員データベース(DB)記憶エリア155、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。
The
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
The
(B)受付処理の開始までの流れ
以上のような構成の本実施形態の最大の特徴は、マイク207を介し入力された雑音に対応する雑音情報に基づき距離検出用の疑似雑音をスピーカ208を介し出力すること、マイク207を介し入力された上記疑似雑音の来訪者Mでの反射音に対応する反射音情報に基づき来訪者Mまでの距離を検出すること、及び、検出した距離が所定値以下となったら受付処理を開始すること、である。以下、図6及び図7を用いて、その詳細を順を追って説明する。
(B) Flow until Start of Reception Processing The greatest feature of the present embodiment configured as described above is that the pseudo noise for distance detection is transmitted to the
図6は、スピーカ208より疑似雑音を出力するまでの手順の概要を説明した説明図である。
FIG. 6 is an explanatory diagram for explaining an outline of the procedure until the pseudo noise is output from the
図6(a)には、マイク207に入力された雑音より、疑似雑音を生成する手順を模式的に示している。図6(a)に示すように、受付端末20の周囲で雑音(この例では、会社内の所定の場所に設置されているドア30が閉まる音)が発生すると、この雑音が伝搬してマイク207に入力され、対応する振幅あるいは周波数を含む雑音情報(音情報)が取得される。このとき、取得された雑音情報が、所定のしきい値レベルを超えているかどうかの確認が行われる(例えば、短時間フーリエ変換によりパワーに変換して確認すればよい)。そして、取得された雑音情報が、上記しきい値レベルを超える(パワーが大きい)ものであれば、当該雑音情報に基づき、距離検出用の疑似雑音(疑似音)が生成される。
FIG. 6A schematically shows a procedure for generating pseudo noise from noise input to the
なお、取得された雑音情報が、上記しきい値レベルを超えない(パワーが小さい)ものであれば、後述する疑似雑音の反射音の検出を行うことが困難であるため、上記のような疑似雑音の生成に用いられずに、再度雑音情報の取得が行われる。このように、上記しきい値レベルを超える(パワーが大きい)雑音情報に限定して、言い換えれば、雑音情報のうち、上記しきい値レベルを超える雑音情報が切り取られて、上記疑似雑音の生成に用いられるのである。 If the acquired noise information does not exceed the threshold level (power is small), it is difficult to detect the reflected sound of the pseudo noise described later. Noise information is acquired again without being used for noise generation. Thus, it is limited to noise information that exceeds the threshold level (high power), in other words, noise information that exceeds the threshold level is cut out from the noise information to generate the pseudo noise. It is used for.
図6(b)には、スピーカ208より疑似雑音が出力された状態を模式的に示している。図6(b)に示すように、上記のようにして生成された距離検出用の疑似雑音はスピーカ208より出力される。この疑似雑音は、上記図6(a)において(ドア30において)発生した雑音に似た音(又は加工がされた音でもよい)である。また、疑似雑音の出力とほぼ同時に、タイマ209(図4参照)が起動される。これにより、スピーカ208より疑似雑音が出力されてから、この疑似雑音が来訪者Mに反射し、その反射音(=疑似雑音の来訪者Mでの反射音。以下、単に「反射音」という)がマイク207に入力されるまでの所要時間(以下、単に「所要時間」という)の測定(計測)が開始される。
FIG. 6B schematically shows a state in which pseudo noise is output from the
図7は、来訪者Mまでの距離を検出する手法の概要を説明した説明図である。 FIG. 7 is an explanatory diagram for explaining the outline of the method for detecting the distance to the visitor M. FIG.
前述のようにして疑似雑音がスピーカ208より出力されると、この疑似雑音は、所定の距離範囲(伝搬可能な距離範囲。パワーによって異なる)に伝搬される。このとき、当該範囲内に来訪者Mが存在すると、上記疑似雑音は、図7に示すように、来訪者Mにより反射し、その反射音が伝搬してマイク207に入力され、対応する反射音情報が取得される。このようにしてマイク207に反射音が入力されると、タイマ209によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ209の測定値が上記所要時間となる。
When the pseudo noise is output from the
ここで、上記疑似雑音及びその反射音は、共に音波であるので受付端末20と来訪者Mとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末20と来訪者Mとの間を往復する往復伝搬時間である(詳細にはスピーカ208→来訪者M間の疑似雑音の伝搬時間と、来訪者M→マイク207間の反射音の伝搬時間との合計時間)。すなわち、音速と、上記所要時間の半分(=片道の伝搬時間に相当)との積の値が、受付端末20から来訪者Mまでの距離となる。このようなことから、上記(式1)(図1参照)を解くことによって、受付端末20から来訪者Mまでの距離を検出(算出)することができるのである。
Here, since the pseudo noise and the reflected sound thereof are both sound waves, they propagate between the
例えば、音速を346.5[m/s]とし、タイマ209の測定値(=上記所要時間)を2.0[msec]とすると、来訪者Mまでの距離Lは、
L=346.5×2.0×10−3/2=346.5×10−3[m]≒35[cm]
となる。
For example, if the sound speed is 346.5 [m / s] and the measured value of the timer 209 (= the above required time) is 2.0 [msec], the distance L to the visitor M is
L = 346.5 × 2.0 × 10 −3 /2=346.5×10 −3 [m] ≈35 [cm]
It becomes.
以上のようにして検出された距離Lが、所定値(受付処理可能な距離に相当。例えば1[m])以下となったら、受付処理が開始される。 When the distance L detected as described above is equal to or less than a predetermined value (corresponding to a distance that can be accepted, for example, 1 [m]), the acceptance process is started.
なお、上記のような距離検出の際、この例では、タイマ計測開始から所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。この最小音波受音時間とは、スピーカ208より出力された疑似雑音が、来訪者Mに反射することなく、直接マイク207に入力されるまで(=いわゆる疑似雑音のスピーカ208からマイク207への周り込み)の所要時間である。例えば、スピーカ208とマイク207との間の距離が30[cm]であるとすると、最小音波受音時間は1.73[msec]となる。タイマ209の測定時間が最小音波受音時間を経過するまで、マイク207には、反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク207に入力する不要な音声(上記周り込みした疑似雑音)を、(後述の図9のステップS80で行われる)反射音を入力したか否かの確認の対象から除外することができる。
In the case of the distance detection as described above, in this example, the acquisition of the reflected sound information is not started until a predetermined minimum sound wave receiving time elapses from the start of the timer measurement. The minimum sound wave reception time means that the pseudo noise output from the
また、タイマ計測開始から所定の最大音波受音時間が経過すると反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。この最大音波受音時間とは、スピーカ208より出力された疑似雑音が、受付端末20による受付処理を可能とする最大距離にいる来訪者Mにより反射し、その反射音がマイク207に入力されるまでの所要時間である。例えば、上記最大距離を100[cm]とすると、最大音波受音時間は5.77[msec]となる。この最大音波受音時間を経過した後、マイク207に入力された反射音は、上記最大距離より遠い位置に存在する対象物(来訪者Mとは限らない)により反射されたものである。タイマ209の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音、すなわち、上記最大距離を越えた距離に存在する対象物により反射される反射音より取得される反射音情報を(後述の図9のステップS100で行われる)距離検出の対象から除外することができる。
Further, when a predetermined maximum sound wave receiving time has elapsed from the start of the timer measurement, the acquisition of the reflected sound information is terminated, and the acquisition of noise information is started again. The maximum sound wave reception time is that the pseudo-noise output from the
(C)受付処理の開始後に、雑音情報の取得を再開するまでの流れ
前述のようにして受付処理が開始されると、スピーカ208より所定の音声(案内音声。例えば、「いらっしゃいませ。どちら様でしょうか」等)が出力され、さらにこれに併せて表示部210に所定の表示画面(例えば前述した図3のようなもの)が表示される。来訪者Mがこれら音声や表示に応じて、受付端末20に対して発話すると、対応する音声がマイク207によって入力される。このようにして、来訪者Mによって(表示部210の表示画面を参照にしつつ)対話方式による受付操作が行われる。
(C) Flow from the start of reception processing to restarting acquisition of noise information When reception processing is started as described above, a predetermined voice (guidance voice. For example, “Welcome. In addition, a predetermined display screen (for example, the one shown in FIG. 3 described above) is displayed on the
また、このようにして受付処理が開始された場合、(受付処理を行っている間は)、上記図6(a)に示した雑音情報の取得が再開されない(あるいは、図6(a)のように雑音情報は取得されるが、図6(b)のような疑似雑音の出力は行われない)ようになっている。すなわち、受付処理中においては、先に来訪者Mまでの距離検出のために使用していたマイク207及びスピーカ208が、受付処理(来訪者Mとの対話)に使用されることになる。
In addition, when the reception process is started in this way (when the reception process is being performed), the acquisition of the noise information illustrated in FIG. 6A is not resumed (or as illustrated in FIG. 6A). Thus, although the noise information is acquired, the pseudo noise is not output as shown in FIG. 6B). That is, during the reception process, the
図8(a)〜(c)には、上記の受付処理が終了した後の状態を示している。図8(a)に示すように受付処理が終了すると、来訪者Mが受付端末20の近傍から離れて別の場所に移動して受付端末20の近傍には誰もいない状態となる(図8(b))。すなわち、マイク207及びスピーカ208は、受付処理が終了された後、しばらくすると、受付処理(来訪者Mとの対話)には使用されなくなる。そして、受付処理が終了された後、所定期間(例えば10秒)が経過したら、図8(c)に示すように、上記雑音情報の取得が再開される(あるいは、上記した雑音情報は取得されるが疑似雑音が出力されない状態から、疑似雑音の出力が再開される)。こうして、上記図6(a)の状態に戻る。
FIGS. 8A to 8C show a state after the above reception process is completed. When the reception process is completed as shown in FIG. 8A, the visitor M moves away from the vicinity of the
(D)制御手順
図9は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群(前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム等)に従って、CPU201が実行するものである。
(D) Control Procedure FIG. 9 is a flowchart showing a control procedure executed by the
図9において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。まずステップS10で、所定の初期化処理を実行する。
In FIG. 9, for example, this flow is started when the
そして、ステップS20において、マイク207及びI/Oインタフェイス204を介して入力した音(雑音)により、対応する振幅あるいは周波数を含む上記雑音情報を取得する(音取得手段としての機能)。
In step S20, the noise information including the corresponding amplitude or frequency is acquired from the sound (noise) input via the
その後、ステップS30で、上記ステップS20で取得した雑音情報のレベルが、所定のしきい値レベルを超えたか否かを判定する。雑音情報がしきい値レベルを超えていない場合には、判定が満たされず上記ステップS20に戻り、同様の手順を繰り返す。雑音情報がしきい値レベルを超えていた場合には、判定が満たされてステップS40に移る。 Thereafter, in step S30, it is determined whether or not the level of the noise information acquired in step S20 has exceeded a predetermined threshold level. If the noise information does not exceed the threshold level, the determination is not satisfied and the routine returns to step S20 and the same procedure is repeated. If the noise information exceeds the threshold level, the determination is satisfied and the routine goes to Step S40.
ステップS40では、所定のしきい値レベルを超えた雑音情報に所定の処理を行い、対応する疑似雑音を生成する。 In step S40, predetermined processing is performed on noise information exceeding a predetermined threshold level, and corresponding pseudo noise is generated.
そして、ステップS50に移り、I/Oインタフェイス204及びスピーカ208を介し、上記生成した疑似雑音を出力させる(疑似音出力手段としての機能)。このステップS50の後、ステップS55に移り、生成した擬似雑音の出力を停止する。
Then, the process proceeds to step S50, and the generated pseudo noise is output via the I /
その後、ステップS60で、I/Oインタフェイス204を介してタイマ209に制御信号を出力し、タイマ209を起動させる。これにより、上記ステップS50で出力した疑似雑音が対象物(来訪者Mが存在している場合には来訪者M)に反射し、後述のステップS80で反射音がマイク207に入力されるまでの所要時間の測定(計時測定)が開始される。
Thereafter, in step S60, a control signal is output to the
そして、ステップS70に移り、タイマ209の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップS80に移る。
Then, the process proceeds to step S70, and based on the measurement time of the
ステップS80では、マイク207及びI/Oインタフェイス204を介して、対象物での反射音を入力した否かを判定する。この判定は、上記疑似雑音と、マイク207及びI/Oインタフェイス204を介して入力した音声との、パワースペクトルを比較する等の公知の手法により行えば足りる。反射音を入力していない場合には、判定が満たされずステップS85に移る。
In step S <b> 80, it is determined whether or not a reflected sound from the object is input via the
ステップS85では、上記ステップS60で既に計時開始しているタイマ209の測定時間に基づき、計時開始してから前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップS80に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップS20に戻り、同様の手順を繰り返す。
In step S85, based on the measurement time of the
一方、上記ステップS80において、反射音を入力していた場合には、ステップS80の判定が満たされてステップS90に移る。 On the other hand, if the reflected sound is input in step S80, the determination in step S80 is satisfied and the process proceeds to step S90.
ステップS90では、上記ステップS80でマイク207及びI/Oインタフェイス204を介して入力された反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
In step S90, the reflected sound information including the corresponding amplitude or frequency is acquired from the reflected sound input via the
ステップS100では、上記ステップS90で取得された反射音情報と、上記ステップS60で既に計時開始しているタイマ209のここまでの測定時間とに基づき、所定の演算処理(この例では、前述の図1や図7で説明した上記(式1)を用いる手法)を行い、対象物までの距離(来訪者Mがいる場合は来訪者Mまでの距離)を検出する(距離検出手段としての機能)。
In step S100, based on the reflected sound information acquired in step S90 and the measurement time of the
その後、ステップS110で、上記ステップS100の距離検出結果に基づき、対象物までの距離が所定値(例えば、1[m])以下であるか否かを判定する。対象物までの距離が所定値より大きい場合には、判定が満たされず、来訪者Mが存在していないと推測して(あるいは来訪者Mが存在しているが受付処理するには遠すぎるとみなして)上記ステップS20に戻り、同様の手順を繰り返す。対象物までの距離が所定値以下である場合は判定が満たされ、来訪者Mが受付可能な距離に存在していると推測して、ステップS120に移る。 Thereafter, in step S110, based on the distance detection result in step S100, it is determined whether or not the distance to the object is equal to or less than a predetermined value (for example, 1 [m]). If the distance to the object is greater than the predetermined value, the determination is not satisfied, and it is assumed that the visitor M does not exist (or the visitor M exists but is too far for the reception process). (Considering) Returning to step S20, the same procedure is repeated. If the distance to the object is less than or equal to the predetermined value, the determination is satisfied, and it is assumed that the visitor M exists within a distance that can be accepted, and the process proceeds to step S120.
ステップS120では、HDD205のプログラム記憶エリア256に記憶された所定のアプリケーションプログラムを読み出し、当該アプリケーションを起動することで、受付処理を開始する。
In step S120, a predetermined application program stored in the
そして、ステップS130に移り、上記ステップS120において開始した受付処理が終了しているか否かを判定する。受付処理が終了するまでは判定が満たされずループ待機し、受付処理が終了したら判定が満たされて、ステップS140に移る(なお、このとき後述するステップS140のためにタイマ209による計時を開始する)。
Then, the process proceeds to step S130, and it is determined whether or not the reception process started in step S120 has been completed. Until the acceptance process is completed, the determination is not satisfied and the system waits in a loop. When the acceptance process is completed, the determination is satisfied, and the process proceeds to step S140 (at this time, the
ステップS140では、受付処理が終了した後、所定の期間(例えば、10秒)経過したか否かを(例えば上記タイマ209による計時に基づき)判定する。所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS20に戻り、同様の手順を繰り返す。この結果、上記のフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
In step S140, it is determined whether or not a predetermined period (for example, 10 seconds) has elapsed (for example, based on the time measured by the timer 209) after the reception process is completed. Until the predetermined period elapses, the determination is not satisfied and the loop waits. When the predetermined period elapses, the determination is satisfied, the process returns to step S20, and the same procedure is repeated. As a result, the above-described flow is repeatedly executed continuously at a predetermined time interval (for example, every 2 seconds) until the receiving
なお、上記において、ステップS30及びステップS40が、各請求項記載の疑似音生成手段として機能し、ステップS80及びステップS90が、反射音取得手段として機能し、ステップS120が、対話処理制御手段として機能する。 In the above, Step S30 and Step S40 function as the pseudo sound generation means described in each claim, Step S80 and Step S90 function as the reflected sound acquisition means, and Step S120 functions as the dialog processing control means. To do.
また、ステップS120で受付処理が開始された後、ステップS130の判定が満たされずにループ待機している期間、言い換えれば、受付処理が行われている期間は、ステップS140に移行せず図9のフローは終了しない。すなわち、受付処理が行われている期間は、上記雑音情報の取得が再び行われることはない。 In addition, after the reception process is started in step S120, the period in which the determination in step S130 is not satisfied and the loop is waiting, in other words, the period in which the reception process is performed does not proceed to step S140 and does not move to step S140. The flow does not end. That is, the acquisition of the noise information is not performed again during the period in which the reception process is performed.
また、受付処理が終了した後、ステップS140の判定が満たされると、言い換えれば、所定期間(例えば10秒)が経過すると図9のフローは終了する。すなわち、フローが再び「START」位置から開始され、ステップS10→ステップS20と移り、上記雑音情報の取得を再び実行する。この結果、ステップS140は、受付処理が終了した後、所定期間経過したら、疑似雑音の出力を再び実行するように制御する出力制御手段として機能している。 In addition, when the determination in step S140 is satisfied after the reception process ends, in other words, the flow in FIG. 9 ends when a predetermined period (for example, 10 seconds) elapses. That is, the flow is started again from the “START” position, and the process proceeds from step S10 to step S20, and the acquisition of the noise information is executed again. As a result, step S140 functions as an output control unit that performs control so that pseudo noise is output again after a predetermined period of time has elapsed after the reception process is completed.
以上説明したように、本実施形態の受付端末20においては、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mとの距離を検出する。すなわち、受付端末20の周囲で発生した雑音(例えば、ドアが閉まる音等)がマイク207を介し入力されると、対応する雑音情報を取得し(ステップS20参照)、この取得した雑音情報に基づき、距離検出用の疑似雑音をスピーカ208を介し出力する(ステップS50参照)。そして、出力された疑似雑音が伝搬し来訪者Mで反射すると、その反射音がマイク207を介し入力され、対応する反射音情報を取得する(ステップS90参照)。そして、当該取得した反射音情報に基づき、来訪者Mまでの距離を検出する(ステップS100参照)。そして、当該検出した距離が所定値以下であれば、受付処理を開始する(ステップS120参照)ことで、来訪者Mに対して確実な受付処理を行うことができる。
As described above, in the
この結果、本実施形態の受付端末20によれば、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク207及びスピーカ208を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。
As a result, according to the
またこのとき、距離検出のために、雑音情報に基づく疑似雑音(周囲で発生した雑音に似ている音)を用いることにより、音を用いて検出していることを来訪者Mに悟られることなく、距離検出を行える効果もある。 At this time, the visitor M can realize that the sound is detected by using pseudo noise (sound similar to noise generated in the surroundings) based on noise information for distance detection. There is also an effect that distance detection can be performed.
また、本実施形態では特に、上記雑音情報に所定の処理を行い、対応する疑似雑音を生成し(ステップS40参照)、スピーカ208を介し疑似雑音を出力する(ステップS50参照)。これにより、雑音情報をそのまま用いて距離検出を行う以外に、雑音情報のうちの所定範囲(レベル範囲や時間範囲)のものを用いたり(後述の(1)の変形例参照)、雑音情報に各種の加工を施したものを用いたりすることができる(後述の(2)の変形例参照)。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。 In the present embodiment, in particular, predetermined processing is performed on the noise information, corresponding pseudo noise is generated (see step S40), and the pseudo noise is output via the speaker 208 (see step S50). As a result, in addition to the distance detection using the noise information as it is, the noise information having a predetermined range (level range or time range) can be used (see a modification of (1) described later), or the noise information can be used. What gave various processes can be used (refer the modification of below-mentioned (2)). As a result, the variation of sound that can be used for distance detection can be expanded, so that the applicability to various applications can be improved.
ここで、雑音情報に基づき疑似雑音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似雑音のレベルも小さく、その反射音を検出することが困難となる。そこで、本実施形態では特に、上記雑音情報のうち所定のしきい値レベルを超えたもの(例えばパワーが大きいもの)に基づき、疑似雑音を生成する(ステップS30参照)。これにより、上記のように、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。 Here, when the pseudo noise is generated based on the noise information, if the level of the original noise is too small, the level of the pseudo noise to be output is also small, and it is difficult to detect the reflected sound. Therefore, in the present embodiment, pseudo noise is generated based on the noise information that exceeds a predetermined threshold level (for example, power is high) (see step S30). Thereby, as described above, inconvenience due to insufficient level of pseudo noise to be output can be avoided, and reliable distance detection can be performed.
また、距離検出を行って来訪者Mとの距離を確定した後、受付処理を開始した場合には、当該来訪者Mによって対話方式による操作が安定的に行われているはずである。これに対応し、本実施形態では特に、受付処理が開始された後は、疑似雑音の出力を再び行わないようにする(ステップS130参照)。これにより、上記のような安定的な操作時に再び疑似雑音の出力を繰り返す無駄を避けることができる。 In addition, when the reception process is started after the distance is detected and the distance to the visitor M is determined, the visitor M should be stably operated by the interactive method. Corresponding to this, particularly in the present embodiment, the pseudo-noise is not output again after the acceptance process is started (see step S130). Thereby, it is possible to avoid waste of repeating the output of pseudo noise again during the stable operation as described above.
さらに、来訪者Mとの距離を確定して受付処理が行われ、その受付処理が終了してしばらく経過した場合には、対話していた来訪者Mは既に別の場所に移動し、受付端末20の近傍に誰もいない(あるいは別の来訪者Mがいる)状態になっている可能性が高い。これに対応し、本実施形態では特に、受付処理が終了した後、所定期間(例えば、10秒)が経過したら、雑音情報の取得を再び実行するようにする(ステップS140参照)。したがって、受付処理終了後、所定期間が経過したら、(フローを終了し、再度フローを開始して)疑似雑音の出力を再び行うようにすることで、次の来訪者Mに対する距離検出を確実に実行することができる。 Furthermore, when the reception process is performed after the distance to the visitor M is determined and the reception process is completed, the visitor M who has been in conversation has already moved to another place, and the reception terminal There is a high possibility that there is no one in the vicinity of 20 (or there is another visitor M). Corresponding to this, particularly in the present embodiment, when a predetermined period (for example, 10 seconds) elapses after the reception process ends, the acquisition of noise information is executed again (see step S140). Therefore, when a predetermined period elapses after the reception process is completed, the distance detection for the next visitor M is ensured by outputting the pseudo noise again (ending the flow and starting the flow again). Can be executed.
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit and technical idea of the present invention. Hereinafter, such modifications will be described in order.
(1)所定の時間範囲の雑音情報に限定して疑似雑音を生成する場合
上記実施形態においては、出力する疑似雑音のレベル不足による不都合を回避するために、所定のしきい値レベルを超えた(パワーの大きい)雑音情報に限定して疑似雑音を生成していたが、これに限られない。すなわち、所定の時間範囲(例えば、最初の1[msec])の雑音情報に限定して疑似雑音を生成するようにしてもよい。
(1) When generating pseudo-noise limited to noise information in a predetermined time range In the above embodiment, in order to avoid inconvenience due to insufficient level of pseudo-noise to be output, a predetermined threshold level is exceeded. Although pseudo-noise was generated only for noise information (high power), the present invention is not limited to this. That is, the pseudo noise may be generated limited to noise information in a predetermined time range (for example, first 1 [msec]).
本変形例の受付端末20の制御回路部200により実行する制御手順は、前述の図9とほぼ同様のもので足りる。但し、ステップS30では、上記ステップS20で取得した雑音情報のうち、所定のしきい値レベルを超えたものから、図10に示すような所定の時間Tの範囲(例えば最初の1[msec])で雑音情報を時間的に抽出する(切り取る)。
The control procedure executed by the
そして、ステップS40では、上記のようにしてステップS30で抽出した所定の時間範囲の雑音情報に基づき、対応する疑似雑音を生成する。 In step S40, the corresponding pseudo noise is generated based on the noise information in the predetermined time range extracted in step S30 as described above.
本変形例によれば、疑似雑音の生成時に、取得した雑音情報をそのまま用いるのではなく、所定の時間範囲(例えば、最初の1[msec])の雑音情報のみに限定して疑似雑音を生成する。これにより、ドアを閉めた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似雑音を生成することができる。これにより、上記実施形態と同様、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。 According to this modified example, when the pseudo noise is generated, the acquired noise information is not used as it is, but the pseudo noise is generated only in a predetermined time range (for example, first 1 [msec]). To do. This cuts out only the large part of the first level of the noise that suddenly attenuates, such as the sound of closing the door and the sound of placing objects, until it attenuates. Pseudo noise can be generated based on the portion. As a result, as in the above-described embodiment, it is possible to avoid inconvenience due to insufficient level of the pseudo noise to be output, and perform reliable distance detection.
(2)変調処理を行ってから疑似雑音を生成する場合
以上においては、所定の範囲の雑音情報(しきい値レベルを超えた雑音情報、時間範囲の雑音情報)に限定して疑似雑音を生成していたが、これに限られない。すなわち、雑音情報に変調処理(例えば振幅変調や周波数変調等)を行って疑似雑音を生成するようにしてもよい。この変形例の受付端末20の制御回路部200により実行する制御手順では、図9におけるステップS30が省略される。また、図9のステップS40において、上記ステップS20で取得した雑音情報に変調処理(例えば振幅変調)を行い、対応する疑似雑音を生成する(疑似音生成手段としての機能)。その後のステップS50〜ステップS140は、前述の図9と同様である。
(2) When generating pseudo-noise after performing modulation processing In the above, pseudo-noise is generated by limiting to noise information in a predetermined range (noise information exceeding a threshold level, noise information in a time range) However, it is not limited to this. In other words, pseudo noise may be generated by performing modulation processing (for example, amplitude modulation or frequency modulation) on the noise information. In the control procedure executed by the
本変形例では、取得した雑音情報に変調処理を行うことにより、マイク207に入力した雑音のレベルに対して、適宜の大きさ(例えば5倍)に増幅した疑似雑音をスピーカ208を介して出力できるので、確実な距離検出を行うことができる。なお、この場合、元となる雑音情報は、所定のしきい値レベル(上記実施形態)や所定の時間範囲(上記(1)の変形例)等、所定の範囲内のものに限定されないという効果もある。あるいは、上記変調により、検出に都合がよいような周波数に変えて疑似雑音を生成することも可能であり、これによっても確実な距離検出を行うことができる。
In this modification, by performing a modulation process on the acquired noise information, pseudo noise amplified to an appropriate level (for example, five times) with respect to the noise level input to the
(3)その他
以上においては、音声入力手段を、1つのマイク207で構成したが、これに限らず、複数の(例えば、2つの)マイクで構成してもよい(いわゆるアレー型のマイクロホン装置)。このような構成とすることで、受付端末20の周囲で発生した雑音を複数のマイクのそれぞれで入力でき、良好に(感度よく)雑音情報を取得することができる。また、複数のマイクそれぞれの指向性を制御することで雑音発生方向を特定することができる。この結果、雑音発生方向へのマイク感度を高めたり、スピーカにより出力する疑似雑音を当該雑音発生方向に対応した態様とすることで、来訪者Mに対しさらに気づかれにくくすることができる、等の効果を得る。
(3) Others In the above, the voice input unit is configured by one
また、以上においては、所定の演算処理として、疑似雑音を出力してから、その反射音が入力されるまでの所要時間を測定し、この所要時間が、来訪者Mまでの距離に比例するという関係(上記(式1)を参照)から来訪者Mまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した疑似雑音と入力した反射音との位相差から来訪者Mまでの距離を検出するようにしてもよい。この場合でも上記と同様の効果を得る。 In the above, as the predetermined calculation process, the time required from the output of pseudo noise to the input of the reflected sound is measured, and this time required is proportional to the distance to the visitor M. The distance from the relationship (see above (formula 1)) to the visitor M was detected. However, the present invention is not limited to this, and as a predetermined calculation process, the distance to the visitor M may be detected from the phase difference between the output pseudo noise and the input reflected sound. Even in this case, the same effect as described above can be obtained.
なお、以上において、図4、図5等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。 In addition, in the above, the arrow shown in each figure of FIG. 4, FIG. 5, etc. shows an example of the flow of a signal, and does not limit the flow direction of a signal.
また、図9に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。 In addition, the flowchart shown in FIG. 9 does not limit the present invention to the procedure shown in the above-described flow, and the procedure may be added / deleted or the order may be changed without departing from the spirit and technical idea of the invention. Good.
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。 In addition to those already described above, the methods according to the above-described embodiments and modifications may be used in appropriate combination.
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。 In addition, although not illustrated one by one, the present invention is implemented with various modifications within a range not departing from the gist thereof.
20 受付端末(対話装置)
201 CPU
207 マイク(音声入力手段)
208 スピーカ(音声出力手段)
M 来訪者(操作者)
20 Reception terminal (dialogue device)
201 CPU
207 Microphone (voice input means)
208 Speaker (Audio output means)
M Visitor (operator)
Claims (5)
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、
前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段と
を有することを特徴とする対話装置。 An interactive device that an operator can operate in an interactive manner,
Voice input means for inputting voice;
Audio output means for outputting audio;
Sound acquisition means for acquiring sound information including a corresponding amplitude or frequency by sound input through the voice input means;
A pseudo sound output means for outputting a pseudo sound for distance detection via the sound output means based on the sound information acquired by the sound acquisition means within a predetermined time after the sound input means inputs the sound. When,
Reflected sound acquisition means for acquiring reflected sound information including a corresponding amplitude or frequency from the reflected sound of the pseudo sound object input through the voice input means;
Based on the reflected sound information acquired by the reflected sound acquisition means, a predetermined calculation process, a distance detection means for detecting the distance to the operator by assuming that the object is the operator;
A dialogue processing control means for starting dialogue processing with the operator based on a detection result of the distance detection means.
前記疑似音出力手段は、
前記疑似音生成手段で生成された前記疑似音を出力する
ことを特徴とする請求項1記載の対話装置。 Performing a predetermined process on the sound information acquired by the sound acquisition unit, and generating a corresponding pseudo sound,
The pseudo sound output means includes
The interactive apparatus according to claim 1, wherein the pseudo sound generated by the pseudo sound generating means is output.
前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする請求項2記載の対話装置。 The pseudo sound generating means includes
The interactive apparatus according to claim 2, wherein the pseudo sound is generated based on sound information that exceeds a predetermined threshold level.
所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする請求項3記載の対話装置。 The pseudo sound generating means includes
The interactive apparatus according to claim 3, wherein the pseudo sound is generated based on the sound information in a predetermined time range.
ことを特徴とする請求項1乃至請求項4のいずれか1項記載の対話装置。 2. An output control unit that controls to output a pseudo sound again after a predetermined period of time has elapsed after the completion of the interactive processing based on the control of the interactive processing control unit. Item 5. The interactive device according to any one of items 4 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009047872A JP2010204260A (en) | 2009-03-02 | 2009-03-02 | Interactive device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009047872A JP2010204260A (en) | 2009-03-02 | 2009-03-02 | Interactive device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010204260A true JP2010204260A (en) | 2010-09-16 |
Family
ID=42965829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009047872A Pending JP2010204260A (en) | 2009-03-02 | 2009-03-02 | Interactive device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010204260A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101323386B1 (en) | 2012-08-13 | 2013-10-29 | 한국 한의학 연구원 | Apparatus of recording voice for acquiring speaking size information and method for the thereof |
WO2017141530A1 (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
-
2009
- 2009-03-02 JP JP2009047872A patent/JP2010204260A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101323386B1 (en) | 2012-08-13 | 2013-10-29 | 한국 한의학 연구원 | Apparatus of recording voice for acquiring speaking size information and method for the thereof |
WO2017141530A1 (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
JP2017144521A (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
US20190042188A1 (en) * | 2016-02-18 | 2019-02-07 | Sony Corporation | Information processing device, information processing method, and program |
EP3419020A4 (en) * | 2016-02-18 | 2019-02-27 | Sony Corporation | Information processing device, information processing method and program |
US11237794B2 (en) | 2016-02-18 | 2022-02-01 | Sony Corporation | Information processing device and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475445B1 (en) | Methods and devices for selectively ignoring captured audio data | |
JP6938583B2 (en) | Voice trigger for digital assistant | |
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US11756563B1 (en) | Multi-path calculations for device energy levels | |
US11922095B2 (en) | Device selection for providing a response | |
CN106796791B (en) | Speaker identification and unsupported speaker adaptation techniques | |
CN106448678B (en) | Method and apparatus for executing voice command in electronic device | |
JP3674990B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
US10109294B1 (en) | Adaptive echo cancellation | |
KR20140025361A (en) | Location-based conversational understanding | |
KR20090054642A (en) | Method for recognizing voice, and apparatus for implementing the same | |
JP2010206365A (en) | Interaction device | |
JP2010204260A (en) | Interactive device | |
CN112823047A (en) | System and apparatus for controlling web applications | |
CN114694667A (en) | Voice output method, device, computer equipment and storage medium | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP2016080767A (en) | Frequency component extraction device, frequency component extraction method and frequency component extraction program | |
JP2003255987A (en) | Method, unit, and program for control over equipment using speech recognition | |
JP2010230994A (en) | Reception device | |
US20240127799A1 (en) | Processing continued conversations over multiple devices | |
JP7429107B2 (en) | Speech translation device, speech translation method and its program | |
KR20090082959A (en) | Method of displaying speech recognition status for improving speech recognition and the apparatus for displaying speech recognition status using therrof | |
JP2007249021A (en) | Speech information processor and speech information processing method |