JP5807451B2 - Voice processing device, voice processing method, program, and guidance system - Google Patents

Voice processing device, voice processing method, program, and guidance system Download PDF

Info

Publication number
JP5807451B2
JP5807451B2 JP2011186489A JP2011186489A JP5807451B2 JP 5807451 B2 JP5807451 B2 JP 5807451B2 JP 2011186489 A JP2011186489 A JP 2011186489A JP 2011186489 A JP2011186489 A JP 2011186489A JP 5807451 B2 JP5807451 B2 JP 5807451B2
Authority
JP
Japan
Prior art keywords
user
sound source
voice
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011186489A
Other languages
Japanese (ja)
Other versions
JP2013047653A (en
Inventor
鈴木 雄介
雄介 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2011186489A priority Critical patent/JP5807451B2/en
Publication of JP2013047653A publication Critical patent/JP2013047653A/en
Application granted granted Critical
Publication of JP5807451B2 publication Critical patent/JP5807451B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Instructional Devices (AREA)
  • Navigation (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声処理装置、音声処理方法、プログラムおよび誘導案内システムに関する。   The present invention relates to a voice processing device, a voice processing method, a program, and a guidance system.

近年、ユーザを目標位置まで誘導するための誘導案内技術が広く普及している。例えば、誘導案内装置の典型例であるカーナビゲーションシステムは、現在位置から目標位置までの経路を作成し、当該経路に基づいて地図表示と音声出力との組合せによりユーザを目標位置まで誘導する。   In recent years, guidance and guidance techniques for guiding a user to a target position have become widespread. For example, a car navigation system, which is a typical example of a guidance and guidance device, creates a route from a current position to a target position, and guides the user to the target position by a combination of map display and voice output based on the route.

一方、視覚障害者については、地図表示に依存して目標位置まで誘導することは困難である。このため、視覚障害者であるユーザを音声出力のみにより誘導する技術が提案されている。   On the other hand, it is difficult for a visually handicapped person to guide to a target position depending on the map display. For this reason, a technique for guiding a user who is visually impaired by only sound output has been proposed.

例えば、下記特許文献1では、ユーザの向きを検出し、当該ユーザの向きに基づいてユーザが進行すべき方向を決定し、当該進行すべき方向を音声により通知する誘導案内装置が提案されている。   For example, Patent Document 1 below proposes a guidance and guidance device that detects the direction of a user, determines a direction in which the user should proceed based on the direction of the user, and notifies the direction to proceed by voice. .

特開2002−257581号公報JP 2002-257581 A

しかし、上記特許文献1の誘導案内装置では、ユーザは、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することができない。例えば、ユーザは、正しい方向に進めているかを知るために、マイクに向かって音声を発することによって誘導案内装置にその都度確認しなければならない。また、ユーザは、経路から離れてしまった場合に当該経路や移動の開始位置を容易に把握することができない。   However, in the guidance and guidance device of Patent Document 1, the user cannot intuitively grasp the correct traveling direction and how to return when the user leaves the route. For example, in order to know whether the user is moving in the right direction, the user must confirm with the guidance and guidance device each time by uttering a voice toward a microphone. In addition, when the user is away from the route, the user cannot easily grasp the route and the start position of the movement.

そこで、本発明は、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することを可能にする、新規かつ改良された音声処理装置、音声処理方法、プログラムおよび誘導案内システムを提供しようとするものである。   Therefore, the present invention provides a new and improved voice processing device, voice processing method, program, and guidance system that make it possible to intuitively grasp the correct direction of travel and how to return when leaving a route. It is something to try.

本発明によれば、ユーザ位置を検出する検出部と、ユーザに対する誘導が開始される時点で上記検出部により検出された上記ユーザ位置である開始位置に応じた第1の仮想音源位置、および上記誘導の目標位置または上記ユーザ位置と上記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、上記検出部により検出された上記ユーザ位置を用いて、上記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および上記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成する音声作成部とを備え、上記第1の音声データおよび上記第2の音声データは、異なる音声パターンを有し、上記音声作成部は、上記第1の音声データおよび上記第2の音声データを時間軸上の異なる位置に配置する、音声処理装置が提供される。
According to the present invention, a detection unit that detects a user position, a first virtual sound source position corresponding to a start position that is the user position detected by the detection unit when guidance to the user is started, and the above a sound source setting unit that sets a second virtual sound source position corresponding to the position existing on the path between the target position or the user position and the target position of the induction, the detected the user position by the detection unit The first audio data in which the first virtual sound source position is perceived by the user as the sound source position and the second sound data in which the second virtual sound source position is perceived by the user as the sound source are used. and a creating unit, the first sound data and the second audio data has a different voice pattern, the audio creation unit, the first audio data and the second audio data It places at different positions on the time axis, the sound processing apparatus is provided.

上記第1の音声データおよび上記第2の音声データは、異なる音声パターンを有し、上記音声作成部は、上記第1の音声データおよび上記第2の音声データを時間軸上の異なる位置に配置してもよい。   The first voice data and the second voice data have different voice patterns, and the voice creation unit arranges the first voice data and the second voice data at different positions on the time axis. May be.

上記検出部は、上記ユーザの向きをさらに検出し、上記音声作成部は、上記第1の音声データまたは上記第2の音声データの各々を、上記ユーザ位置または上記ユーザの向きと、上記第1の仮想音源位置または上記第2の仮想音源位置の各々との相対的関係に基づいて作成してもよい。   The detection unit further detects the orientation of the user, and the voice creation unit detects each of the first voice data or the second voice data as the user position or the user orientation, and the first voice data. May be created based on a relative relationship with each of the virtual sound source positions or the second virtual sound source positions.

上記音声作成部は、上記第1の音声データおよび上記第2の音声データの各々を、上記相対的関係に応じた音量または音声パターンで作成してもよい。   The voice creation unit may create each of the first voice data and the second voice data with a volume or a voice pattern corresponding to the relative relationship.

上記音声作成部は、上記第1の音声データおよび上記第2の音声データの各々を、上記相対的関係に応じた頻度で時間軸上の異なる位置に配置してもよい。   The voice creation unit may arrange each of the first voice data and the second voice data at different positions on the time axis at a frequency according to the relative relationship.

上記相対的関係は、上記ユーザ位置と、上記第1の仮想音源位置若しくは上記第2の仮想音源位置との距離、または、上記ユーザの向きと、上記第1の仮想音源位置の方向若しくは上記第2の仮想音源位置の方向とのなす角度を含んでもよい。   The relative relationship is the distance between the user position and the first virtual sound source position or the second virtual sound source position, or the direction of the user and the direction of the first virtual sound source position or the first virtual sound source position. An angle formed by the direction of the two virtual sound source positions may be included.

上記音声作成部は、上記第1の音声データおよび上記第2の音声データをステレオ形式で作成してもよい。   The voice creation unit may create the first voice data and the second voice data in a stereo format.

上記音声作成部は、上記第1の音声データおよび上記第2の音声データを頭部伝達関数の畳み込みにより作成してもよい。   The voice creation unit may create the first voice data and the second voice data by convolution of a head-related transfer function.

また、本発明によれば、検出部がユーザ位置を検出するステップと、音源設定部がユーザに対する誘導が開始される時点で上記検出部により検出された上記ユーザ位置である開始位置に応じた第1の仮想音源位置、および上記誘導の目標位置または上記ユーザ位置と上記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定するステップと、音源作成部が上記検出部により検出された上記ユーザ位置を用いて、上記音源設定部により設定された上記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および上記第1の音声データとは異なる音声パターンを有し、上記音源設定部により設定された上記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成するステップと、上記音源作成部が上記第1の音声データおよび上記第2の音声データを時間軸上の異なる位置に配置するステップとを含む、音声処理方法が提供される。
According to the present invention, the detection unit detects the user position, and the sound source setting unit detects the user position according to the start position that is the user position detected by the detection unit when the guidance to the user is started. 1 of the virtual sound source position, and a step of setting a second virtual sound source position corresponding to the position existing on the path between the target position or the user position and the target position of the induction, sound creation section above First audio data in which the first virtual sound source position set by the sound source setting unit is perceived by the user as a sound source position using the user position detected by the detection unit , and the first sound data and creating a different an audio pattern, the second sound data set the second virtual sound source position by the sound source setting unit is perceived by the user as sound source and, Serial sound creation unit and placing at different positions on the time axis of the first audio data and the second audio data, the audio processing method is provided.

また、本発明によれば、コンピュータを、ユーザ位置を検出する検出部と、ユーザに対する誘導が開始される時点で上記検出部により検出された上記ユーザ位置である開始位置に応じた第1の仮想音源位置、および上記誘導の目標位置または上記ユーザ位置と上記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、上記検出部により検出された上記ユーザ位置を用いて、上記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および上記第1の音声データとは異なる音声パターンを有し上記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成し、上記第1の音声データおよび上記第2の音声データを時間軸上の異なる位置に配置する音声作成部と、として機能させるためのプログラムが提供される。
According to the present invention, the computer includes a detection unit that detects a user position, and a first virtual corresponding to the start position that is the user position detected by the detection unit when guidance to the user is started. sound source location, and a sound source setting unit that sets a second virtual sound source position corresponding to the position existing on the path between the target position or the user position and the target position of the induction, is detected by the detection unit In addition, using the user position, the first virtual sound source position is perceived by the user as a sound source position, and the second virtual sound source has a sound pattern different from the first sound data. create a second audio data source position is perceived to the user as a sound source, a sound creation unit for disposing the first voice data and the second audio data at different positions on the time axis Program for functioning as is provided.

また、本発明によれば、センサ、音声出力装置および音声処理装置を含む誘導案内システムであって、上記音声処理装置は、上記センサからの入力に基づいてユーザ位置を検出する検出部と、ユーザに対する誘導が開始される時点で上記検出部により検出された上記ユーザ位置である開始位置に応じた第1の仮想音源位置、および上記誘導の目標位置または上記ユーザ位置と上記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、上記検出部により検出された上記ユーザ位置を用いて、上記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および上記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成する音声作成部とを備え、上記第1の音声データおよび上記第2の音声データは、異なる音声パターンを有し、上記音声作成部は、上記第1の音声データおよび上記第2の音声データを時間軸上の異なる位置に配置し、上記音声出力装置は、上記第1の音声データの音声および上記第2の音声データの音声を出力する、誘導案内システムが提供される。 According to the present invention, there is provided a guidance system including a sensor, a voice output device, and a voice processing device, wherein the voice processing device includes a detection unit that detects a user position based on an input from the sensor, and a user A first virtual sound source position corresponding to the start position which is the user position detected by the detection unit at the time when the guidance for the guidance is started , and a route between the guidance target position or the user position and the target position a sound source setting unit that sets a second virtual sound source position corresponding to the position that is present above using the detected the user position by the detection unit, the user of the first virtual sound source position as a sound source position It comprises first audio data to be perceived, and the second virtual sound source position and the voice generating unit configured to generate a second audio data that is perceived to the user as a sound source, the first speech Over data and the second audio data has a different voice pattern, the audio creation unit arranges the first audio data and the second audio data at different positions on the time axis, the sound The output device is provided with a guidance guidance system that outputs the voice of the first voice data and the voice of the second voice data.

以上説明したように本発明に係る音声処理装置、音声処理方法、プログラムおよび誘導案内システムによれば、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することが可能になる。   As described above, according to the voice processing device, the voice processing method, the program, and the guidance and guidance system according to the present invention, it is possible to intuitively grasp the correct traveling direction and how to return when leaving the route.

一実施形態に係る誘導案内システムの概略的な構成の一例を示す説明図である。It is explanatory drawing which shows an example of the schematic structure of the guidance system which concerns on one Embodiment. 一実施形態に係る音声処理装置の構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the audio | voice processing apparatus which concerns on one Embodiment. 検出されるユーザの方向の例を説明するための説明図である。It is explanatory drawing for demonstrating the example of the direction of the user detected. 案内情報作成部により作成される経路の例を説明するための説明図である。It is explanatory drawing for demonstrating the example of the route produced by the guidance information creation part. 音声作成部による音声データの作成を説明するための説明図である。It is explanatory drawing for demonstrating preparation of the audio | voice data by an audio | voice preparation part. ユーザが目標位置の方向に向くまでの音声データの作成を説明するための説明図である。It is explanatory drawing for demonstrating preparation of the audio | voice data until a user turns to the direction of a target position. ユーザが目標位置に向かって直線移動する際の音声データの作成を説明するための説明図である。It is explanatory drawing for demonstrating creation of the audio | voice data at the time of a user moving linearly toward a target position. ユーザが移動の途中で向きを変える際の音声データの作成を説明するための説明図である。It is explanatory drawing for demonstrating creation of the audio | voice data when a user changes direction in the middle of a movement. 音声作成部による音声データの時間軸上への配置を説明するための説明図である。It is explanatory drawing for demonstrating arrangement | positioning on the time-axis of the audio | voice data by an audio | voice preparation part. 仮想音源位置の設定の変形例を説明するための説明図である。It is explanatory drawing for demonstrating the modification of the setting of a virtual sound source position. 一実施形態に係る音声処理の概略的な流れの一例を示すフローチャートである。It is a flowchart which shows an example of the schematic flow of the audio | voice process which concerns on one Embodiment.

以下に添付の図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.

以下では、<1.はじめに>、<2.誘導案内システムの概略的な構成>、<3.音声処理装置の構成>、<4.処理の流れ>という順序で本発明の実施形態を説明する。   In the following, <1. Introduction>, <2. Schematic configuration of guidance system>, <3. Configuration of speech processing apparatus>, <4. Embodiments of the present invention will be described in the order of processing flow>.

<1.はじめに>
近年、ユーザを目標位置まで誘導するための誘導案内技術が広く普及している。例えば、誘導案内装置の典型例であるカーナビゲーションシステムは、まずGPS(Global Positioning System)から現在位置の情報を取得する。そして、当該カーナビゲーションシステムは、現在位置から目標位置までの経路を作成し、当該経路に基づいて地図表示と音声出力との組合せによりユーザを目標位置まで誘導する。上記カーナビゲーションシステムによれば、ユーザは、表示された地図を閲覧することにより、自らの位置と目標位置または案内の開始位置との位置関係、正しい方向に進んでいるか否か、経路から離れているか否か、等を容易に把握することができる。また、ユーザは、右折左折のタイミング等を通知する音声を聞くことにより、目標位置まで到達するための有用情報を得ることができる。このように、多くの誘導案内技術は、地図表示と音声の組合せによってユーザを目標位置に誘導する。
<1. Introduction>
In recent years, guidance and guidance techniques for guiding a user to a target position have become widespread. For example, a car navigation system, which is a typical example of a guidance and guidance device, first acquires current position information from a GPS (Global Positioning System). Then, the car navigation system creates a route from the current position to the target position, and guides the user to the target position by a combination of map display and audio output based on the route. According to the car navigation system, the user can browse the displayed map to determine the positional relationship between the user's position and the target position or the start position of the guidance, whether or not the vehicle is moving in the correct direction, and away from the route. It is possible to easily grasp whether or not there is. In addition, the user can obtain useful information for reaching the target position by listening to the sound for notifying the timing of turning right or left. As described above, many guide guidance techniques guide a user to a target position by a combination of map display and voice.

一方、視覚障害者にとって表示された地図を閲覧することは難しいので、上記のように地図表示に依存して視覚障害者であるユーザを目標位置まで誘導することは困難である。このため、音声出力のみにより視覚障害者であるユーザを誘導する技術が提案されている。一例として、ユーザの向きを検出し、当該ユーザの向きに基づいてユーザが進行すべき方向を決定し、当該進行すべき方向を音声により通知する誘導案内装置が提案されている(特開2002−257581号公報)。   On the other hand, since it is difficult for a visually handicapped person to view a displayed map, it is difficult to guide a user who is a visually handicapped person to a target position depending on the map display as described above. For this reason, a technique for guiding a user who is visually impaired by only sound output has been proposed. As an example, there has been proposed a guidance and guidance device that detects a user's direction, determines a direction in which the user should travel based on the user's direction, and notifies the direction to travel by voice (Japanese Patent Laid-Open No. 2002-2002). No. 2,57581).

しかし、従来の誘導案内技術では、ユーザは、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することができない。例えば、一例として挙げられた上記誘導案内装置を用いる場合、ユーザは、正しい方向に進めているかを知るためには、マイクに向かって音声を発することによって誘導案内装置にその都度確認しなければならない。また、ユーザは、経路から離れてしまった場合に、経路から離れてしまっていることおよび元の経路または移動の開始位置への戻り方を容易に把握することができない。   However, with the conventional guidance and guidance technology, the user cannot intuitively grasp the correct traveling direction and how to return when the user leaves the route. For example, when using the above-described guidance and guidance device as an example, in order to know whether the user is moving in the right direction, the user must confirm with the guidance and guidance device each time by uttering a voice toward a microphone. . Further, when the user has left the route, the user cannot easily grasp that the user has left the route and how to return to the original route or the start position of the movement.

発明者は、誘導案内技術の上記問題を認識し、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することを可能にする誘導案内技術を研究するに至った。そして、当該案内技術の研究の中で、発明者は、「異種鳴き交わし方式」に着目した。   The inventor has recognized the above problems of the guidance and guidance technology, and has studied the guidance and guidance technology that makes it possible to intuitively grasp the correct traveling direction and how to return when leaving the route. And in the research of the guidance technology, the inventor paid attention to the “heterogeneous squealing method”.

異種鳴き交わし方式は、視覚障害者が安全に道路を横断できるように信号機に導入される音声誘導手法である(「平成十五年10月22日警視庁丁規発77号 視覚障害者用付加装置に関する設置・運用指針の制定について」を参照)。当該異種鳴き交わし方式によれば、一方の横断歩道端に位置する信号機が、「カッコー」、「ピヨ」等の音声を発し、他方の横断歩道端に位置する信号機が、「カカッコー」、「ピヨピヨ」等の音声を発する。ユーザは、これらの音声を聞くことによって、2つの横断歩道端がどのあたりに存在するかを直感的に把握することができる。また、ユーザが聞くこれらの音声は、ユーザの移動に応じて変化するので、ユーザは、当該音声の変化から、自身が正しい進行方向に進んでいるか、横断歩道から離れていないかを、随時直感的に把握することができる。また、横断歩道の両端の信号機から音声が発せられるので、ユーザは、横断歩道から離れてしまった場合であっても、横断歩道や自身がいた方の横断歩道端に戻ることもできる。このように、異種鳴き交わし方式は、正しい進行方向および横断歩道から離れた場合の戻り方を直感的に把握することを可能にするという利点を有する。なお、2つの信号機は互いに異なる音声を発するので、ユーザは当該2つの信号機(または2つの横断歩道端)を区別することができる。また、これらの音声は異なる時間に交互に発せられるので、当該音声は混じり合わず、その結果、ユーザは当該音声を容易に聞きとることができる。ただし、当該異種鳴き交わし方式は、横断歩道のように特定の場所に設置されたスピーカ等により音声が発せられるので、当該特定の場所以外ではユーザを誘導することはできない。   The heterogeneous squealing method is a voice guidance method that is introduced to traffic lights so that visually impaired people can safely cross the road ("No. 77 of the Tokyo Metropolitan Police Department, No. 77, visually impaired person additional device for visually impaired persons, October 22, 2003." (See “Establishment of Installation / Operation Guidelines”). According to the heterogeneous squealing method, a traffic light located at one pedestrian crossing emits a sound such as “cuckoo” or “piyo”, and a traffic light located at the other pedestrian crossing ends is “cuckoo” or “piyopiyo”. And so on. The user can intuitively grasp where the two pedestrian crossings exist by listening to these sounds. In addition, since these voices heard by the user change in accordance with the movement of the user, the user can intuitively know from the change in the voice whether he / she is moving in the correct direction of travel or not away from the pedestrian crossing. Can be grasped. In addition, since the sound is emitted from the traffic lights at both ends of the pedestrian crossing, the user can return to the pedestrian crossing or to the end of the pedestrian crossing where he / she was. As described above, the heterogeneous squealing method has an advantage that it is possible to intuitively grasp the correct traveling direction and how to return when leaving a pedestrian crossing. Since the two traffic lights emit different sounds, the user can distinguish between the two traffic lights (or two pedestrian crossing ends). Moreover, since these voices are emitted alternately at different times, the voices are not mixed, and as a result, the user can easily listen to the voices. However, in the heterogeneous squealing method, since a voice is emitted from a speaker or the like installed at a specific place like a pedestrian crossing, the user cannot be guided outside the specific place.

そこで、本実施形態では、上記特定の位置に限定されずに、異種鳴き交わし方式のように、正しい進行方向および経路から離れた場合の戻り方を直感的に把握させることを可能にする誘導案内システムを説明する。
<2.誘導案内システムの概略的な構成>
まず、図1を参照して、本実施形態に係る誘導案内システム1の概略的な構成について説明する。図1は、本実施形態に係る誘導案内システム1の概略的な構成の一例を示す説明図である。図1を参照すると、誘導案内システム1は、センサ10、音声出力装置20および音声処理装置100を含む。
Therefore, in this embodiment, the guidance guidance is not limited to the above specific position, and it is possible to intuitively grasp the correct traveling direction and how to return when leaving the route as in the case of different squealing methods. Describe the system.
<2. Schematic configuration of guidance system>
First, with reference to FIG. 1, the schematic structure of the guidance system 1 which concerns on this embodiment is demonstrated. FIG. 1 is an explanatory diagram illustrating an example of a schematic configuration of the guidance system 1 according to the present embodiment. Referring to FIG. 1, the guidance and guidance system 1 includes a sensor 10, a voice output device 20, and a voice processing device 100.

(センサ10)
センサ10は、ユーザ3の位置(以下、「ユーザ位置」と呼ぶ)を検知する装置である。センサ10は、例えばGPS(Global Positioning System)受信機を備えてもよい。または、センサ10は、例えば特開2003−91794号公報に開示されているような、ユーザ3が移動する環境内に設けられたアクティブマーカまたはパッシブマーカから電波、赤外線等により位置情報を受信する受信機を備えてもよい。ここで、センサ10は、当該受信機によりアクティブマーカまたはパッシブマーカから位置情報ではなくIDを取得し、当該IDと位置情報との対応関係を記憶するサーバ装置にアクセスすることにより、位置情報を取得可能であってもよい。
(Sensor 10)
The sensor 10 is a device that detects the position of the user 3 (hereinafter referred to as “user position”). The sensor 10 may include, for example, a GPS (Global Positioning System) receiver. Alternatively, the sensor 10 receives position information by radio waves, infrared rays, or the like from an active marker or passive marker provided in an environment in which the user 3 moves as disclosed in, for example, Japanese Patent Application Laid-Open No. 2003-91794. A machine may be provided. Here, the sensor 10 acquires the position information by acquiring the ID instead of the position information from the active marker or the passive marker by the receiver, and accessing the server device that stores the correspondence relationship between the ID and the position information. It may be possible.

また、センサ10は、例えば、ユーザ3の向き(以下、「ユーザの向き」と呼ぶ)をさらに検知する。センサ10は、ジャイロセンサ、地磁気センサ、加速度センサのいずれかを備えてもよい。または、センサ10は、アクティブマーカまたはパッシブマーカから情報を受信する上記受信機を備え、当該受信機とアクティブマーカまたはパッシブマーカとの位置関係からユーザ3の方向を検知してもよい。   The sensor 10 further detects, for example, the orientation of the user 3 (hereinafter referred to as “user orientation”). The sensor 10 may include any of a gyro sensor, a geomagnetic sensor, and an acceleration sensor. Alternatively, the sensor 10 may include the receiver that receives information from the active marker or the passive marker, and may detect the direction of the user 3 from the positional relationship between the receiver and the active marker or the passive marker.

図1を参照すると、一例として、センサ10は、GPS受信機および加速度センサを備える場合に、ユーザ3の腰に装着される。なお、センサ10は、アクティブマーカまたはパッシブマーカから情報を受信する受信機である場合に、ユーザ3が利用する白杖と同様の形状で形成され、ユーザ3により携行されてもよい。   Referring to FIG. 1, as an example, when the sensor 10 includes a GPS receiver and an acceleration sensor, the sensor 10 is mounted on the waist of the user 3. When the sensor 10 is a receiver that receives information from an active marker or a passive marker, the sensor 10 may be formed in the same shape as the white cane used by the user 3 and carried by the user 3.

(音声出力装置20)
音声出力装置20は、音声処理装置100により作成された音声データの音声を出力する装置である。音声出力装置20は、例えば、2チャンネルステレオ音声を発するヘッドホンである。音声出力装置20は、例えば、音声データをデジタル/アナログ変換(以下、「D/A変換」と呼ぶ)することにより得られるアナログ音声信号を音声処理装置100から取得し、当該アナログ音声信号に基づいて音声を出力する。音声出力装置20は、音声処理装置100から音声データそのものを取得し、当該音声データをD/A変換してもよい。図1を参照すると、一例として、音声出力装置20は、上記ヘッドホンである場合にユーザ3の頭部に装着される。
(Audio output device 20)
The audio output device 20 is a device that outputs audio of audio data created by the audio processing device 100. The audio output device 20 is, for example, headphones that emit 2-channel stereo sound. The audio output device 20 acquires, for example, an analog audio signal obtained by digital / analog conversion (hereinafter referred to as “D / A conversion”) of audio data from the audio processing device 100, and based on the analog audio signal. To output sound. The audio output device 20 may acquire the audio data itself from the audio processing device 100 and perform D / A conversion on the audio data. Referring to FIG. 1, as an example, the audio output device 20 is worn on the head of the user 3 in the case of the headphones.

(音声処理装置100)
音声処理装置100は、正しい進行方向および経路から離れた場合の戻り方を直感的に把握することを可能にするための音声データを作成する装置である。音声処理装置100は、有線または無線によりセンサ30および音声出力装置20と接続される。音声処理装置100は、例えば、センサ10により検知されたユーザ位置およびユーザの向きに基づいて音声データを作成する。そして、音声処理装置100は、例えば、音声データをD/A変換することにより得られたアナログ音声信号を音声出力装置20に出力する。音声出力装置20が音声データをD/A変換する場合には、音声処理装置100は音声データを音声出力装置20に出力してもよい。なお、当該音声処理装置100の具体的な構成および当該音声処理装置100による具体的な音声処理については、後述の<3.音声処理装置の構成>および<4.処理の流れ>において説明する。
(Speech processor 100)
The voice processing device 100 is a device that creates voice data for enabling an intuitive grasp of the correct traveling direction and how to return when leaving a route. The audio processing device 100 is connected to the sensor 30 and the audio output device 20 by wire or wireless. For example, the voice processing apparatus 100 creates voice data based on the user position and the user orientation detected by the sensor 10. Then, the audio processing device 100 outputs, for example, an analog audio signal obtained by D / A converting audio data to the audio output device 20. When the audio output device 20 performs D / A conversion on the audio data, the audio processing device 100 may output the audio data to the audio output device 20. Note that the specific configuration of the voice processing apparatus 100 and the specific voice processing by the voice processing apparatus 100 will be described in <3. Configuration of speech processing apparatus> and <4. Processing flow> will be described.

以上、図1を参照して本発明の実施形態に係る誘導案内システム1の構成の一例を説明したが、誘導案内システム1の構成はこれに限られない。例えば、センサ10、音声出力装置20および音声処理装置100を物理的に分離された別の装置として説明したが、これらの装置のうちのいずれか2つ以上が、物理的に一体化された装置であってもよい。   As mentioned above, although an example of the structure of the guidance system 1 which concerns on embodiment of this invention with reference to FIG. 1 was demonstrated, the structure of the guidance system 1 is not restricted to this. For example, the sensor 10, the sound output device 20, and the sound processing device 100 have been described as separate devices that are physically separated, but any two or more of these devices are physically integrated. It may be.

<3.音声処理装置の構成>
次に、図2〜図10を参照して、本実施形態に係る音声処理装置100の構成の一例について説明する。図2は、本実施形態に係る音声処理装置100の構成の一例を示すブロック図である。図2を参照すると、音声処理装置100は、検出部110、目標入力部120、記憶部130、案内情報作成部140、音源設定部150、音声作成部160および音声出力部170を備える。
<3. Configuration of speech processing apparatus>
Next, an example of the configuration of the speech processing apparatus 100 according to the present embodiment will be described with reference to FIGS. FIG. 2 is a block diagram illustrating an example of the configuration of the speech processing apparatus 100 according to the present embodiment. Referring to FIG. 2, the voice processing apparatus 100 includes a detection unit 110, a target input unit 120, a storage unit 130, a guidance information creation unit 140, a sound source setting unit 150, a voice creation unit 160, and a voice output unit 170.

(検出部110)
検出部110は、ユーザ位置Pを検出する。より具体的には、検出部110は、例えば、センサ10により検知されたユーザ位置をセンサ10から取得することにより、ユーザ位置Pを検出する。ユーザ位置Pは、例えば、x座標、y座標からなる平面座標(x,y)で表される。例えば、センサ10がGPS受信機を備える場合に、x座標およびy座標は、それぞれ緯度および経度であってもよい。なお、ユーザ位置Pは、x座標、y座標およびz座標からなる空間座標(x,y,z)により表されてもよい。この場合に、z座標は、標高のような高さを示す値であってもよい。
(Detector 110)
The detection unit 110 detects the user position Pu . More specifically, the detection unit 110 is, for example, by obtaining the user position detected by the sensor 10 from the sensor 10 detects the user position P u. The user position P u is represented by, for example, plane coordinates (x u , yu ) consisting of an x coordinate and ay coordinate. For example, when the sensor 10 includes a GPS receiver, the x coordinate and the y coordinate may be latitude and longitude, respectively. Note that the user position P u may be represented by spatial coordinates (x u , yu , z u ) made up of an x coordinate, ay coordinate, and a z coordinate. In this case, the z coordinate may be a value indicating a height such as an altitude.

また、検出部110は、例えば、ユーザの向きをさらに検出する。より具体的には、検出部110は、例えば、センサ10により検知されたユーザの向きをセンサ10から取得することにより、ユーザの向きを検出する。ここでのユーザの向きは、例えばユーザの正面方向であり、ユーザの正面方向と所定の方向とのなす角度θで表される。図3は、検出されるユーザの向きの例を説明するための説明図である。図3を参照すると、例えば、ユーザ位置Pが上記平面座標(x,y)で表される場合に、ユーザの向きは、x軸の正の方向とユーザの向きとのなす角度θで表される。 Moreover, the detection part 110 further detects a user's direction, for example. More specifically, the detection unit 110 detects the direction of the user by acquiring the direction of the user detected by the sensor 10 from the sensor 10, for example. The direction of the user here is, for example, the front direction of the user, and is represented by an angle θ u formed by the front direction of the user and a predetermined direction. FIG. 3 is an explanatory diagram for explaining an example of a detected user orientation. Referring to FIG. 3, for example, when the user position P u is represented by the plane coordinates (x u , y u ), the user orientation is the angle θ formed by the positive x-axis direction and the user orientation. It is represented by u .

(目標入力部120)
目標入力部120は、ユーザ3による移動の最終的な目標位置(以下、「最終目標位置」と呼ぶ)を取得する。最終目標位置は、例えば、ユーザ位置Pと同様の形式で表される。目標入力部120は、例えばユーザ3による入力操作に応じて最終目標位置を取得する。より具体的には、目標入力部120は、音声により最終目標位置の候補をユーザ3に提示し、ボタン、スイッチ、レバー等の操作部によりユーザ3により選択された候補を最終目標位置として取得してもよい。または、目標入力部120は、操作部によりユーザ3により選択された数字を検知し、当該数字を最終目標位置の平面座標として取得してもよい。または、目標入力部120は、集音されたユーザ3の音声を認識し、認識された音声に対応する最終目標位置を取得してもよい。なお、目標入力部120は、操作部を用いたユーザによる開始指示に応じて、ユーザ3に入力操作を求めてもよく、または、ユーザ位置Pが地下鉄の改札出口、横断歩道端等の特定の位置となる場合に、ユーザ3に入力操作を求めてもよい。一方、ユーザ3による入力操作の代わりに、目標入力部120は、自動的に最終目標位置を取得してもよい。例えば、目標入力部120は、ユーザ位置Pが地下鉄の改札出口、横断歩道端等の特定の位置となる場合に、当該特定の位置に対応する所定の位置を最終目標位置として自動的に取得してもよい。
(Target input unit 120)
The target input unit 120 acquires a final target position (hereinafter referred to as “final target position”) of movement by the user 3. Final target position is represented by, for example, user position P u similar format. The target input unit 120 acquires the final target position in accordance with, for example, an input operation by the user 3. More specifically, the target input unit 120 presents the final target position candidate to the user 3 by voice, and acquires the candidate selected by the user 3 using the operation unit such as a button, switch, or lever as the final target position. May be. Alternatively, the target input unit 120 may detect a number selected by the user 3 using the operation unit and acquire the number as the plane coordinates of the final target position. Alternatively, the target input unit 120 may recognize the collected voice of the user 3 and acquire a final target position corresponding to the recognized voice. The target input unit 120 may request the user 3 to perform an input operation in response to a start instruction from the user using the operation unit, or the user position Pu may specify a subway ticket gate exit, a pedestrian crossing end, or the like. The user 3 may be requested to perform an input operation. On the other hand, instead of the input operation by the user 3, the target input unit 120 may automatically acquire the final target position. For example, when the user position Pu is a specific position such as a subway ticket gate exit or a crosswalk end, the target input unit 120 automatically acquires a predetermined position corresponding to the specific position as the final target position. May be.

(記憶部130)
記憶部130は、音声処理装置100において一時的にまたは恒久的に保持すべき情報を記憶する。記憶部130は、例えば、ユーザが移動する空間における地図情報、および後述の案内情報作成部140により作成される経路を記憶する。また、記憶部130は、音声データを作成するためのサンプル音声データを記憶する。なお、記憶部130は、ハードディスク(Hard Disk)等の磁気記録媒体であってもよく、またはEEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)等の不揮発性メモリであってもよい。
(Storage unit 130)
The storage unit 130 stores information that should be temporarily or permanently stored in the speech processing apparatus 100. The storage unit 130 stores, for example, map information in a space where the user moves, and a route created by the guidance information creation unit 140 described later. The storage unit 130 also stores sample audio data for creating audio data. The storage unit 130 may be a magnetic recording medium such as a hard disk, an EEPROM (Electrically Erasable and Programmable Read Only Memory), a flash memory, a MRAM (Magnetoresistive Random Access Memory), It may be a non-volatile memory such as FeRAM (Ferroelectric Random Access Memory) or PRAM (Phase change Random Access Memory).

(案内情報作成部140)
案内情報作成部140は、ユーザ3を誘導すべき目標位置Pと、当該目標位置への誘導の開始位置Pとを設定する。案内情報作成部140は、例えば、記憶部130に記憶される地図情報に基づき、目標入力部120により取得された最終目標位置までの経路を作成し、当該経路に基づいて上記目標位置Pおよび上記開始位置Pを設定する。以下、この点について図4を参照してより具体的に説明する。
(Guidance information creation unit 140)
Guide information creating unit 140 sets the target position P g should guide the user 3, the start position P s of guidance to the target position. For example, the guidance information creation unit 140 creates a route to the final target position acquired by the target input unit 120 based on the map information stored in the storage unit 130, and based on the route, the target position Pg and setting the start position P s. Hereinafter, this point will be described more specifically with reference to FIG.

図4は、案内情報作成部140により作成される経路の例を説明するための説明図である。図4の4−1に示されるように、一例として、最終目標位置43は、直線的な移動により経路作成時のユーザ位置41から到達可能な位置である。この場合に、案内情報作成部140は、経路作成時のユーザ位置41および最終目標位置43を含む経路を作成する。そして、案内情報作成部140は、例えば経路作成時のユーザ位置41を開始位置Pとして設定し、最終目標位置43を目標位置Pとして設定する。 FIG. 4 is an explanatory diagram for explaining an example of a route created by the guidance information creation unit 140. As shown in 4-1 of FIG. 4, as an example, the final target position 43 is a position that can be reached from the user position 41 at the time of route creation by linear movement. In this case, the guidance information creation unit 140 creates a route including the user position 41 and the final target position 43 when the route is created. The guide information creation unit 140, for example, sets the user position 41 during route generation starting at P s, sets the final target position 43 as the target position P g.

また、図4の4−2に示されるように、別の例として、最終目標位置43は、進行方向を変えることにより経路作成時のユーザ位置41から到達可能な位置である。この場合に、案内情報作成部140は、経路作成時のユーザ位置41、最終目標位置43、および進行方向を変えるべき経路上の位置45を含む経路を作成する。そして、案内情報作成部140は、まず例えば経路作成時のユーザ位置41を開始位置Ps1として設定し、当該開始位置Ps1から直線的な移動により到達可能な経路上の位置45aを目標位置Pg1として設定する。その後、ユーザ3が、経路上の位置45aである目標位置Pg1に到達すると、案内情報作成部140は、経路上の位置45aを新たな開始位置Ps2として設定し、当該開始位置Ps2から直線的な移動により到達可能な経路上の位置45bを新たな目標位置Pg2として設定する。その後、同様に、案内情報作成部140は、経路上の位置45bを新たな開始位置Ps3として設定し、最終目標位置43を新たな目標位置Pg3として設定する。なお、案内情報作成部140は、例えば、作成された経路を記憶部130に記憶させる。 As shown in 4-2 of FIG. 4, as another example, the final target position 43 is a position that can be reached from the user position 41 at the time of route creation by changing the traveling direction. In this case, the guidance information creation unit 140 creates a route including the user position 41 at the time of route creation, the final target position 43, and a position 45 on the route whose traveling direction should be changed. The guidance information creation unit 140 first sets, for example, the user position 41 at the time of route creation as the start position P s1 , and sets the position 45a on the route that can be reached by linear movement from the start position P s1 as the target position P. Set as g1 . Thereafter, when the user 3 reaches the target position P g1 that is the position 45a on the route, the guidance information creation unit 140 sets the position 45a on the route as a new start position P s2 , and starts from the start position P s2. A position 45b on the path that can be reached by linear movement is set as a new target position Pg2 . Thereafter, similarly, the guidance information creation unit 140 sets a position 45b on the route as a new start position Ps3 , and sets a final target position 43 as a new target position Pg3 . Note that the guidance information creation unit 140 stores the created route in the storage unit 130, for example.

なお、案内情報作成部140は、例えば、ユーザ3が目標位置Pに到達したか否かを判定する。案内情報作成部140は、目標位置Pとユーザ位置Pとが一致する場合、または目標位置Pとユーザ位置Pとの距離が所定の閾値以下である場合に、ユーザ3が目標位置Pに到達したと判定してもよい。また、案内情報作成部140は、ユーザの向きにも基づいて、ユーザ3が目標位置Pに到達したと判定してもよい。例えば、案内情報作成部140は、上記距離が所定の閾値以下であって、かつユーザの向きが次の目標位置Pの方向と一致する場合、すなわちユーザ3が次の目標位置Pに向けて進み始める場合に、ユーザ3が目標位置Pに到達したと判定してもよい。 The guide information creation unit 140, for example, determines whether the user 3 reaches the target position P g. Guide information creating unit 140, when the case where the target position P g and the user position P u match, or the distance between the target position P g and the user position P u is equal to or less than a predetermined threshold value, the user 3 the target position It may be determined that Pg has been reached. The guide information creation unit 140, also based on the user's orientation, it may be determined that the user 3 has reached the target position P g. For example, the guide information creating unit 140 is a is the distance is equal to or less than a predetermined threshold value, and if the user of the orientation coincides with the direction of the next target position P g, i.e. the user 3 toward the next target position P g If you start the process proceeds Te, it may determine that the user 3 has reached the target position P g.

(音源設定部150)
音源設定部150は、開始位置Pに応じた第1の仮想音源位置(以下、「開始側仮想音源位置」と呼ぶ)、および目標位置Pに応じた第2の仮想音源位置(以下、「目標側仮想音源位置」と呼ぶ)を設定する。音源設定部150は、例えば、案内情報作成部140により設定された開始位置Pを開始側仮想音源位置として設定し、案内情報作成部140により設定された目標位置Pを目標側仮想音源位置として設定する。以下、開始側仮想音源位置および目標側仮想音源位置がこのように設定される例について説明する。当該設定が前提となることを容易に理解できるように、開始側仮想音源位置を開始側仮想音源位置P、目標側仮想音源位置を目標側仮想音源位置Pと記載する。
(Sound source setting unit 150)
The sound source setting unit 150 includes a first virtual sound source position corresponding to the start position P s (hereinafter referred to as “start side virtual sound source position”) and a second virtual sound source position corresponding to the target position P g (hereinafter referred to as “start virtual sound source position”). (Referred to as “target-side virtual sound source position”). Sound source setting unit 150, for example, set the start position P s that is set by the guide information creation section 140 as a starting virtual sound source position, target virtual sound source position set target position P g by the guide information creation portion 140 Set as. Hereinafter, an example in which the start side virtual sound source position and the target side virtual sound source position are set in this way will be described. In order to easily understand that this setting is a prerequisite, the start side virtual sound source position is described as a start side virtual sound source position P s , and the target side virtual sound source position is described as a target side virtual sound source position P g .

(音声作成部160)
音声作成部160は、検出部110により検出されたユーザ位置Pを用いて、開始側仮想音源位置Pが音源位置としてユーザ3に知覚される第1の音声データ(以下、「開始側音声データ」と呼ぶ)、および目標側仮想音源位置Pが音源としてユーザ3に知覚される第2の音声データ(以下、「目標側音声データ」と呼ぶ)を作成する。また、音声作成部160は、例えば、開始側音声データまたは目標側音声データの各々を、ユーザ位置Pまたはユーザの向きと、開始側仮想音源位置Pまたは目標側仮想音源位置Pの各々との相対的関係に基づいて作成する。以下、この点について図5を参照してより具体的に説明する。
(Voice creation unit 160)
The sound creation unit 160 uses the user position P u detected by the detection unit 110 to generate first sound data (hereinafter referred to as “start side sound”) that the user 3 perceives the start side virtual sound source position P s as the sound source position. And second audio data (hereinafter referred to as “target-side audio data”) in which the user 3 perceives the target-side virtual sound source position Pg as a sound source. Also, each of the sound creation unit 160, for example, the each initiator audio data or the target-side audio data, and user position P u or user orientation, starting virtual sound source position P s or target virtual sound source position P g Create based on the relative relationship. Hereinafter, this point will be described more specifically with reference to FIG.

図5は、音声作成部160による音声データの作成を説明するための説明図である。図5を参照すると、例えば、音声作成部160は、ユーザ位置Pと開始側仮想音源位置Pとの距離d、およびユーザの向き(ユーザの正面方向)と開始側仮想音源位置Pの方向のなす角度θを算出する。そして、音声作成部160は、開始側音声データとして、正面方向から角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される音声データを作成する。同様に、音声作成部160は、例えば、ユーザ位置Pと目標側仮想音源位置Pとの距離d、およびユーザの向き(ユーザの正面方向)と目標側仮想音源位置Pの方向のなす角度θを算出する。そして、音声作成部160は、目標側音声データとして、正面方向から角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される音声データを作成する。すなわち、上記相対的関係は、例えば、ユーザ位置Pと開始側仮想音源位置Pとの距離d、ユーザ位置Pと目標側仮想音源位置Pとの距離d、ユーザの向きと開始側仮想音源位置Pの方向とのなす角度θ、またはユーザの向きと目標側仮想音源位置Pの方向とのなす角度θを含む。 FIG. 5 is an explanatory diagram for explaining creation of voice data by the voice creation unit 160. Referring to FIG. 5, for example, the sound creation unit 160 includes the distance d 1 between the user position P u and the start-side virtual sound source position P s , the user orientation (the user's front direction), and the start-side virtual sound source position P s. An angle θ 1 formed by the directions is calculated. Then, the voice creation unit 160 creates voice data in which the position separated by the distance d 1 in the direction shifted by the angle θ 1 from the front direction is perceived as the sound source as the start side voice data. Similarly, the voice creation unit 160, for example, the distance d 2 between the user position P u and the target-side virtual sound source position P g and the direction of the user (the front direction of the user) and the direction of the target-side virtual sound source position P g The formed angle θ 2 is calculated. Then, the sound creation unit 160 creates sound data in which the position separated by the distance d 2 in the direction shifted by the angle θ 2 from the front direction is perceived as the sound source as the target side sound data. That is, the relative relationship, for example, the distance between the user position P u start and virtual sound source position P s d 1, user position P u and the distance d 2 between the target virtual sound source position P g, and the user's orientation It includes an angle θ 1 formed with the direction of the start-side virtual sound source position P s , or an angle θ 2 formed between the user direction and the direction of the target-side virtual sound source position P g .

上記距離dおよびd、並びに上記角度θおよびθの算出手法を説明する。図5を参照すると、音声作成部160は、まず、検出部110により検出されたユーザ位置Pおよびユーザの向きθ、並びに、音源設定部150により設定された開始側仮想音源位置Pおよび目標側仮想音源位置Pを取得する。ここで、ユーザ位置P、開始側仮想音源位置Pおよび目標側仮想音源位置Pが、それぞれ平面座標(x,y)、(x,y)および(x,y)で表されるものとする。すると、音声作成部160は、以下の式(1)および(2)により、距離dおよびdを算出する。 A method for calculating the distances d 1 and d 2 and the angles θ 1 and θ 2 will be described. Referring to FIG. 5, first, the sound creation unit 160 first detects the user position P u and the user orientation θ u detected by the detection unit 110, and the start side virtual sound source position P s set by the sound source setting unit 150. The target side virtual sound source position Pg is acquired. Here, the user position P u , the start-side virtual sound source position P s, and the target-side virtual sound source position P g are respectively represented by plane coordinates (x u , yu ), (x s , y s ), and (x g , y g). ). Then, the voice creation unit 160 calculates the distances d 1 and d 2 by the following equations (1) and (2).

Figure 0005807451
(1)
Figure 0005807451
(2)

また、音声作成部160は、以下の式(3)および(4)により、ユーザ位置Pから開始側仮想音源位置Pへの方向θ、およびユーザ位置Pから目標側仮想音源位置Pへの方向θを算出する。
Figure 0005807451
(1)
Figure 0005807451
(2)

The audio creation unit 160, following the equation (3) and (4), the direction theta s from the user position P u to start virtual sound source position P s, and user location P u target virtual sound source position from the P to calculate the direction θ g to g.

Figure 0005807451
(3)
Figure 0005807451
(4)

そして、音声作成部160は、以下の式(5)および(6)により、角度θおよびθを算出する。
Figure 0005807451
(3)
Figure 0005807451
(4)

Then, the voice creation unit 160 calculates the angles θ 1 and θ 2 by the following equations (5) and (6).

Figure 0005807451
(5)
Figure 0005807451
(5)
Figure 0005807451
(5)
Figure 0005807451
(5)

また、音声作成部160は、例えば以下のような音源定位手法により、正面方向から角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される開始側音声データと、正面方向から角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される目標側音声データとを作成する。なお、音声作成部160は、開始側音声データおよび目標側音声データをステレオ形式で作成する。 In addition, the voice creation unit 160 uses, for example, the following sound source localization method, start side voice data in which a position separated by a distance d 1 in a direction shifted by an angle θ 1 from the front direction is perceived as a sound source, and the front direction And target side audio data in which a position separated by a distance d 2 in a direction deviated by an angle θ 2 from the target is perceived as a sound source. The voice creation unit 160 creates the start side voice data and the target side voice data in a stereo format.

第1の例として、音声作成部160は、開始側音声データおよび目標側音声データを頭部伝達関数(HRTF:Head Related Transfer Function)の畳み込みにより作成する。HRTFは、音源から耳に至るまでの音の伝達特性を表す関数である。例えば、ダミーヘッドとその耳の箇所に取付けられたマイクロフォンで、離散的に配置された音源で発する音のインパルス応答を測定することにより、HRTFを得ることができる。音声作成部160は、記憶部130に記憶されている第1のサンプル音声データに、角度θおよび距離dに対応するHRTFを時間領域で畳み込むことにより、開始側音声データを作成することができる。同様に、音声作成部160は、記憶部130に記憶されている第2のサンプル音声データに、角度θおよび距離dに対応するHRTFを時間領域で畳み込むことにより、目標側音声データを作成することができる。 As a first example, the voice creation unit 160 creates start-side voice data and target-side voice data by convolution of a head related transfer function (HRTF). HRTF is a function representing the transfer characteristic of sound from the sound source to the ear. For example, the HRTF can be obtained by measuring the impulse response of sound emitted from a discretely arranged sound source with a dummy head and a microphone attached to the ear. The sound creation unit 160 can create start-side sound data by convolving the first sample sound data stored in the storage unit 130 with the HRTF corresponding to the angle θ 1 and the distance d 1 in the time domain. it can. Similarly, the voice creation unit 160 creates target side voice data by convolving the HRTF corresponding to the angle θ 2 and the distance d 2 with the second sample voice data stored in the storage unit 130 in the time domain. can do.

第2の例として、音声作成部160は、ステレオ形式におけるチャンネル間の音量のバランスを調整することにより、開始側音声データおよび目標側音声データを作成する。例えば、左右の2チャンネルステレオ形式で各音声データが作成される場合に、音声作成部160は、角度θおよび距離dに応じて左チャネルと右チャネルとの間の音量バランスを調整することにより、開始側音声データを作成する。同様に、音声作成部160は、角度θおよび距離dに応じて左チャネルと右チャネルとの間の音量バランスを調整することにより、目標側音声データを作成する。 As a second example, the sound creation unit 160 creates start-side sound data and target-side sound data by adjusting the balance of volume between channels in the stereo format. For example, when each audio data is generated in the left and right two-channel stereo format, the audio generation unit 160 adjusts the volume balance between the left channel and the right channel according to the angle θ 1 and the distance d 1. Thus, the start side audio data is created. Similarly, the voice creation unit 160 creates target-side voice data by adjusting the volume balance between the left channel and the right channel according to the angle θ 2 and the distance d 2 .

以上、音声作成部160による開始側音声データおよび目標側音声データの作成手法を説明した。次に、図6〜図8を参照して、ユーザ3が開始位置Pから目標位置Pに移動するまでどのように音声データが作成されるかについて説明する。 Heretofore, the creation method of the start side voice data and the target side voice data by the voice creation unit 160 has been described. Next, with reference to FIGS. 6 to 8, it will be described how the audio data to the user 3 moves from the start position P s in the target position P g is created.

図6は、ユーザ3が目標位置Pの方向に向くまでの音声データの作成を説明するための説明図である。図6を参照すると、6−1で、開始位置Pから目標位置Pへのユーザ3の誘導が開始される。そして、6−1から6−3にかけて、ユーザ3は、ユーザの向きと目標位置Pの方向とが一致するように向きを変える。これに伴い、ユーザの向きと目標位置P(すなわち目標側音源位置P)の方向とのなす角θが変化するので、音声作成部160は、正面方向から当該角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される目標側音声データを随時作成する。なお、開始位置P(すなわち開始側音源位置P)とユーザ位置Pとが一致するので、ユーザの向きと開始側仮想音源位置Pの方向とのなす角θは存在しない。しかし、図6に示されるように、音声作成部160は、例えば、6−1の誘導開始時のユーザの向きを開始側仮想音源位置Pの方向とみなす。すなわち、音声作成部160は、現在のユーザの向きと誘導開始時のユーザの向き(開始側仮想音源位置Pの方向)とのなす角θだけずれた方向にあるいずれかの位置が音源として知覚される開始側音声データを作成する。このように、開始位置Pにおいて誘導開始時のユーザの向きが開始側仮想音源位置Pの方向とみなされることにより、ユーザ3は、開始位置Pにおいて誘導開始時のユーザの向きにいつでも向き直ることが可能となる。 Figure 6 is an explanatory view for the user 3 illustrating the creation of audio data up to point toward the target position P g. Referring to FIG. 6, 6-1, induction of the user 3 to the target position P g is started from the start position P s. Then, over a period of from 6-1 6-3, user 3, changing the direction so that the direction of the user of the orientation and the target position P g coincide. Along with this, the angle θ 2 formed by the user's direction and the direction of the target position P g (that is, the target sound source position P g ) changes, so that the sound creation unit 160 is shifted from the front direction by the angle θ 2 . position apart direction by a distance d 2 to create a target-side audio data that is perceived as a sound source at any time. Note that since the start position P s (that is, the start-side sound source position P s ) and the user position P u coincide with each other, there is no angle θ 1 formed by the user direction and the start-side virtual sound source position P s . However, as shown in FIG. 6, the sound creation unit 160 is, for example, regarded as the direction of the start-side virtual sound source position P s The user of the orientation of the induction starting 6-1. That is, the voice creation unit 160 determines that any position in a direction shifted by an angle θ 1 formed by the current user direction and the user direction at the start of guidance (the direction of the starting virtual sound source position P s ) is a sound source. Create the start side audio data perceived as Thus, the user of the orientation of at induction start is regarded as the direction of the start-side virtual sound source position P s at the start position P s, the user 3 at any time in the direction of the induction at the beginning of the user at the start position P s It becomes possible to turn around.

図7は、ユーザ3が目標位置Pに向かって直線移動する際の音声データの作成を説明するための説明図である。図7を参照すると、7−1で、ユーザ3は目標位置Pへの移動を開始する。そして、7−1から7−3にかけて、ユーザ3は、目標位置Pの方向へ移動する。これに伴い、ユーザ位置Pと目標位置P(すなわち目標側音源位置P)との距離dが変化するので、音声作成部160は、正面方向に当該距離dだけ離れた位置が音源として知覚される目標側音声データを随時作成する。また、ユーザ位置Pと開始位置P(すなわち開始側音源位置P)との距離dが変化するので、音声作成部160は、背面方向に当該距離dだけ離れた位置が音源として知覚される開始側音声データを随時作成する。このように音声データを随時作成するにあたり、音声作成部160は、例えば、距離dおよび距離dに応じて、開始側音声データおよび目標側音声データの音量を変化させる。以上のように、ユーザ3は、図6および図7のように移動すれば開始位置Pから目標位置Pに到達可能である。ただし、次に説明するように、ユーザ3は、開始位置Pに戻ろうとする場合、経路から外れた場合等に移動の途中で向きを変える可能性もある。 Figure 7 is an explanatory diagram for explaining the creation of sound data when the user 3 linearly moves toward the target position P g. Referring to FIG. 7, at 7-1, the user 3 starts moving to the target position P g. Then, over a period of from 7-1 7-3, the user 3 is moved toward the target position P g. Accordingly, since the distance d 2 between the user position P u and the target position P g (that is, the target-side sound source position P g ) changes, the sound creation unit 160 has a position separated by the distance d 2 in the front direction. Create target-side audio data perceived as a sound source. In addition, since the distance d 1 between the user position P u and the start position P s (that is, the start-side sound source position P s ) changes, the sound creation unit 160 uses a position separated by the distance d 1 in the back direction as a sound source. Create perceived starter audio data as needed. As described above, when creating the voice data as needed, the voice creation unit 160 changes the volume of the start side voice data and the target side voice data according to the distance d 1 and the distance d 2 , for example. As described above, the user 3 can reach the target position P g from the start position P s be moved as shown in FIGS. However, as described below, the user 3, when attempts to return to the start position P s, there is a possibility to change the orientation in the middle of the movement, such as when out of the path.

図8は、ユーザ3が移動の途中で向きを変える際の音声データの作成を説明するための説明図である。図8を参照すると、8−1で、ユーザ3は目標位置Pへの移動を停止する。そして、8−1から8−3にかけて、ユーザ3は、右側に向きを変化させる。これに伴い、ユーザの向きと目標位置P(すなわち目標側音源位置P)の方向とのなす角θが変化するので、音声作成部160は、正面方向から当該角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される目標側音声データを随時作成する。同様に、ユーザの向きと開始位置P(すなわち開始側音源位置P)の方向とのなす角θが変化するので、音声作成部160は、正面方向から当該角度θだけずれた方向に距離dだけ離れた位置が音源として知覚される開始側音声データを随時作成する。 FIG. 8 is an explanatory diagram for explaining creation of audio data when the user 3 changes direction during movement. Referring to FIG. 8, 8-1, user 3 stops moving to the target position P g. And from 8-1 to 8-3, the user 3 changes direction to the right side. Along with this, the angle θ 2 formed by the user's direction and the direction of the target position P g (that is, the target sound source position P g ) changes, so that the sound creation unit 160 is shifted from the front direction by the angle θ 2 . position apart direction by a distance d 2 to create a target-side audio data that is perceived as a sound source at any time. Similarly, since the angle θ 1 formed by the direction of the user and the direction of the start position P s (that is, the start-side sound source position P s ) changes, the sound creation unit 160 is shifted from the front direction by the angle θ 1. Starting side audio data in which a position separated by a distance d 1 is perceived as a sound source is generated as needed.

このような開始側音声データおよび目標側音声データの作成により、特定の位置にスピーカのような音声を発する装置が設置されなくても、開始位置Pおよび目標位置Pがどのあたりに存在するかをユーザ3に直感的に把握させることが可能となる。また、ユーザ3が聞くこれらの音声データの音声は、ユーザの移動に応じて変化するので、ユーザは、当該音声の変化から、自身が正しい進行方向に進んでいるか、経路から離れていないかを、随時直感的に把握することができる。また、目標側音声データのみならず開始側音声データも作成されるので、ユーザは、正しい経路や開始位置Pに戻ることもできる。すなわち、音声を発する装置が設置されていない場所であっても、異種鳴き交わし方式のように、正しい進行方向および経路から離れた場合の戻り方を直感的に把握させることが可能になる。 The creation of such initiator audio data and the target-side audio data, even if it is not installed device that emits a sound such as a speaker in a specific position, the start position P s and the target position P g is present per any It is possible to make the user 3 intuitively grasp this. In addition, since the voice of these voice data that the user 3 hears changes according to the movement of the user, the user can check whether the voice is changing in the correct traveling direction or not away from the route. Intuitive grasp at any time. Moreover, since the initiating audio data not target side audio data only are also created, the user can return to the correct path and the start position P s. That is, even in a place where a device that emits voice is not installed, it is possible to intuitively grasp the correct direction of travel and how to return when the route is away from the route, as in the case of different squealing methods.

以上のように作成される開始側音声データおよび目標側音声データは、例えば、異なる音声パターンを有する。ここでの音声パターンは、例えば、音声の種類である。開始側音声データは、例えば「カッコー」という音声の種類を有し、目標側音声データは、例えば「カカッコー」という音声の種類を有する。なお、より具体的な情報を提供するために、開始側音声データが「開始位置」または「後ろ」という音声の種類を有し、目標側音声データが「目標位置」または「前」という音声の種類を有してもよい。また、音声パターンは、音声の種類に限られず、例えば音声の音高、テンポ等であってもよい。このように、開始側音声データと目標側音声データの音声パターンが互いに異なれば、ユーザ3は両者の音声を聞き分けることができる。その結果、ユーザ3は、どちらが開始位置Pであり、どちらが目標位置Pであるかを識別することが可能となる。 The start side audio data and the target side audio data created as described above have different audio patterns, for example. The sound pattern here is, for example, the type of sound. The start side audio data has, for example, a type of audio “Cuckoo”, and the target side audio data has, for example, a type of audio “Cuckoo”. In order to provide more specific information, the start side audio data has a sound type of “start position” or “back”, and the target side audio data has an audio type of “target position” or “front”. You may have a kind. The sound pattern is not limited to the type of sound, and may be, for example, the pitch of the sound, the tempo, or the like. Thus, if the voice patterns of the start side voice data and the target side voice data are different from each other, the user 3 can distinguish between the voices of the two. As a result, the user 3, which is the start position P s, which is possible to identify whether the target position P g.

以上のように、音声作成部160は、開始側音声データおよび目標側音声データをそれぞれ作成する。そして、音声作成部160は、作成した開始側音声データおよび目標側音声データを時間軸上の異なる位置に配置する。図9は、音声作成部160による音声データの時間軸上への配置を説明するための説明図である。図9を参照すると、時間帯t1に示されるように、音声作成部160は、例えば、時間軸上において開始側音声データAと目標側音声データBとを交互に配置する。または、時間帯t2に示されるように、音声作成部160は、例えば、開始側音声データAと目標側音声データBとを異なる頻度で配置してもよい。このように開始側音声データと目標側音声データとが時間軸上の異なる位置に配置されれば、開始側音声データの音声と目標側音声データの音声とが混じらない。その結果、ユーザ3は、開始側音声データの音声と目標側音声データの音声を容易に聞き分けることができる。なお、音声作成部160は、例えば、音声の出力頻度または出力タイミングを示すパラメータを設定することにより、開始側音声データおよび目標側音声データを時間軸上の異なる位置に配置する。   As described above, the voice creation unit 160 creates the start side voice data and the target side voice data, respectively. Then, the voice creation unit 160 arranges the created start-side voice data and target-side voice data at different positions on the time axis. FIG. 9 is an explanatory diagram for explaining the arrangement of audio data on the time axis by the audio creation unit 160. Referring to FIG. 9, as shown in the time zone t1, the voice creation unit 160 alternately arranges the start side voice data A and the target side voice data B on the time axis, for example. Alternatively, as shown in the time zone t2, the voice creation unit 160 may arrange the start side voice data A and the target side voice data B at different frequencies, for example. Thus, if the start side audio data and the target side audio data are arranged at different positions on the time axis, the start side audio data and the target side audio data are not mixed. As a result, the user 3 can easily distinguish the voice of the start side voice data and the voice of the target side voice data. Note that the voice creation unit 160 arranges the start-side voice data and the target-side voice data at different positions on the time axis by setting a parameter indicating the voice output frequency or output timing, for example.

(音声出力部170)
音声出力部170は、音声作成部160により作成された開始側音声データおよび目標側音声データをD/A変換することによりアナログ音声信号を生成し、当該アナログ音声信号を音声出力装置20へ出力する。音声出力部170は、音声作成部160による時間軸上への音声データの配置に従ってアナログ音声信号の出力を行う。なお、音声出力装置20が音声データをD/A変換する場合には、音声出力部170は音声データそのものを音声出力装置20に出力してもよい。
(Audio output unit 170)
The audio output unit 170 generates an analog audio signal by performing D / A conversion on the start side audio data and the target side audio data generated by the audio generation unit 160, and outputs the analog audio signal to the audio output device 20. . The audio output unit 170 outputs an analog audio signal according to the arrangement of audio data on the time axis by the audio generation unit 160. When the audio output device 20 performs D / A conversion on the audio data, the audio output unit 170 may output the audio data itself to the audio output device 20.

以上、図2〜図10を参照して、本実施形態に係る音声処理装置100の構成の一例について説明したが、本実施形態に係る音声処理装置100の構成はこの一例に限定されない。   As mentioned above, with reference to FIGS. 2-10, although the example of the structure of the speech processing apparatus 100 which concerns on this embodiment was demonstrated, the structure of the speech processing apparatus 100 which concerns on this embodiment is not limited to this example.

(変形例)
−音声データの作成
例えば、音声作成部160は、開始側音声データおよび目標側音声データの各々を、ユーザ位置Pまたはユーザの向きと、開始側仮想音源位置Pまたは目標側仮想音源位置Pの各々との相対的関係に応じた音量または音声パターンで作成してもよい。既に説明したように、上記相対的関係は、例えば、ユーザ位置Pと開始側仮想音源位置Pとの距離d、ユーザ位置Pと目標側仮想音源位置Pとの距離d、ユーザの向きと開始側仮想音源位置Pの方向とのなす角度θ、またはユーザの向きと目標側仮想音源位置Pの方向とのなす角度θを含む。また、音声パターンは、例えば、音声の種類、音声の音高、テンポ等である。
(Modification)
- creation of audio data, for example, voice creation unit 160, each of the start-side audio data and the target-side audio data, and user position P u or user orientation, starting virtual sound source position P s or target virtual sound source position P You may produce by the sound volume or audio | voice pattern according to the relative relationship with each of g . As already explained, the relative relationship, for example, the user position P the distance d 1 between u and start virtual sound source position P s, the user position P u and the distance d 2 between the target virtual sound source position P g, It includes an angle θ 1 formed by the user direction and the direction of the start-side virtual sound source position P s , or an angle θ 2 formed by the user direction and the direction of the target-side virtual sound source position P g . The sound pattern is, for example, a sound type, a sound pitch, a tempo, and the like.

具体的な例として、図7を再び参照すると、音声作成部160は、例えば、距離dまたは距離dが小さくなるにつれて、開始側音声データまたは目標側音声データにおける音声のテンポを速くしてもよい。または、音声作成部160は、距離dと距離dとの比率に応じて、開始側音声データにおける音声のテンポおよび目標側音声データにおける音声のテンポを変化させてもよい。また、図6または図8を再び参照すると、音声作成部160は、例えば、角度θまたは角度θが小さくなるにつれて、開始側音声データまたは目標側音声データにおける音量を大きくしてもよい。または、音声作成部160は、角度θと角度θとの比率に応じて、開始側音声データにおける音量および目標側音声データにおける音量を変化させてもよい。または、音声作成部160は、角度θまたは角度θが0°または所定の閾値よりも小さい値である場合、すなわちユーザ3が開始位置Pまたは目標位置Pの方向を向いている場合に、開始側音声データまたは目標側音声データにおける音声の種類を、その他の場合とは異なる音声の種類としてもよい。 As a specific example, referring to FIG. 7 again, for example, the voice creation unit 160 increases the voice tempo in the start-side voice data or the target-side voice data as the distance d 1 or the distance d 2 decreases. Also good. Alternatively, the voice creation unit 160 may change the voice tempo in the start-side voice data and the voice tempo in the target-side voice data according to the ratio between the distance d 1 and the distance d 2 . Further, referring to FIG. 6 or FIG. 8 again, the sound creation unit 160 may increase the volume in the start side sound data or the target side sound data as the angle θ 1 or the angle θ 2 decreases, for example. Alternatively, the voice creation unit 160 may change the volume in the start side voice data and the volume in the target side voice data in accordance with the ratio between the angle θ 1 and the angle θ 2 . Alternatively, the voice creation unit 160 determines that the angle θ 1 or the angle θ 2 is 0 ° or a value smaller than a predetermined threshold, that is, the user 3 is facing the start position P s or the target position P g . In addition, the voice type in the start side voice data or the target side voice data may be a voice type different from other cases.

別の具体的な例として、音声作成部160は、開始側音声データおよび目標側音声データの各々を、上記相対的関係に応じた案内情報(すなわち音声の種類)で作成してもよい。例えば、案内情報作成部140が、開始位置Pまたは目標位置Pに関する案内情報と、当該案内情報が音声化されたサンプル音声データとを作成する。そして、音声作成部160は、案内情報作成部140により作成された当該サンプル音声データを用いて、開始側音声データまたは目標側音声データを作成する。当該案内情報は、例えば、「目標までdメートル、角度θ度」という情報である。または、当該案内情報は、開始位置Pまたは目標位置Pに何があるかを示す情報であってもよい。 As another specific example, the voice creation unit 160 may create each of the start-side voice data and the target-side voice data with guidance information (that is, the type of voice) according to the relative relationship. For example, the guidance information creation unit 140 creates guidance information regarding the start position P s or the target position P g and sample voice data in which the guidance information is voiced. Then, the voice creation unit 160 creates start-side voice data or target-side voice data using the sample voice data created by the guidance information creation unit 140. The guidance information is, for example, information "d 2 meters target, the angle theta 2 degrees". Or, the guidance information may be information indicating what is in the start position P s or the target position P g.

以上のように、上記相対的関係に応じた音量または音声パターンで開始側音声データおよび目標側音声データを作成することにより、開始位置Pまたは目標位置Pの位置をより容易に認識することをユーザ3に可能にする。例えば、ユーザ3は、開始位置P若しくは目標位置Pの方向を容易に認識することができ、または、開始位置P若しくは目標位置Pに近づいているか否かを容易に認識することができる。 As described above, by creating a starting side audio data and the target-side audio data in sound or voice patterns corresponding to the relative relationship, to recognize the position of the start position P s or the target position P g more easily To the user 3. For example, user 3, that the direction of the start position P s or the target position P g can be easily recognized, or easily recognize whether the approaching start position P s or the target position P g it can.

−音声データの時間軸上での配置
また、音声作成部160は、開始側音声データおよび目標側音声データの各々を、上記相対的関係に応じた頻度で時間軸上の異なる位置に配置してもよい。
-Arrangement of audio data on time axis In addition, the audio creation unit 160 arranges each of the start side audio data and the target side audio data at different positions on the time axis at a frequency according to the relative relationship. Also good.

具体的には、音声作成部160は、例えば、距離dまたは距離dがより小さくなるにつれて、開始側音声データまたは目標側音声データをより高い頻度で配置してもよい。または、音声作成部160は、例えば、角度θまたは角度θが小さくなるにつれて、開始側音声データまたは目標側音声データをより高い頻度で配置してもよい。または、音声作成部160は、距離dと距離dとの比率、または角度θと角度θとの比率に応じて、開始側音声データおよび目標側音声データの頻度を変化させてもよい。図9を再び参照すると、例えば、ユーザ3が開始位置Pから目標位置Pに近づいた結果、比率d/dが時間帯tから時間帯tになって大きくなる場合に、音声作成部160は、目標側音声データBの頻度をより高くしてもよい。 Specifically, the sound creation unit 160, for example, as the distance d 1 or the distance d 2 is smaller, may be arranged initiator audio data or the target side voice data more frequently. Alternatively, the voice creation unit 160 may arrange the start side voice data or the target side voice data at a higher frequency, for example, as the angle θ 1 or the angle θ 2 decreases. Alternatively, the voice creation unit 160 may change the frequency of the start-side voice data and the target-side voice data according to the ratio between the distance d 1 and the distance d 2 or the ratio between the angle θ 1 and the angle θ 2. Good. Referring again to FIG. 9, for example, when the ratio d 1 / d 2 increases from the time zone t 1 to the time zone t 2 as a result of the user 3 approaching the target position P g from the start position P s , The voice creation unit 160 may increase the frequency of the target side voice data B.

以上のように、相対的関係に応じた時間軸上に配置される頻度を変えることによっても、開始位置Pまたは目標位置Pの位置をより容易に認識することをユーザ3に可能にする。 As described above, by changing the frequency to be arranged on the time axis corresponding to the relative relationship allows the user 3 to recognize the position of the start position P s or the target position P g more easily .

−仮想音源位置の設定
また、音源設定部150は、開始位置P以外の位置を開始側仮想音源位置として設定してもよく、また目標位置P以外の位置を目標側仮想音源位置として設定してもよい。以下、図10を参照して、具体的な仮想音源位置の設定の変形例を説明する。
- Setting of the virtual sound source position also sound source setting unit 150, the setting may be setting the position other than the start position P s as a starting virtual sound source position and the position other than the target position P g as the target virtual sound source positions May be. Hereinafter, a specific modification of the setting of the virtual sound source position will be described with reference to FIG.

図10は、仮想音源位置の設定の変形例を説明するための説明図である。一例として、図10の10−1および10−2に示されるように、音源設定部150は、開始位置Pとユーザ位置Pとの間のいずれかの位置51を開始側仮想音源位置として設定してもよい。同様に、音源設定部150は、目標位置Pとユーザ位置Pとの間のいずれかの位置53を目標側仮想音源位置として設定してもよい。 FIG. 10 is an explanatory diagram for describing a modified example of the setting of the virtual sound source position. As an example, as illustrated in 10-1 and 10-2 of FIG. 10, the sound source setting unit 150 uses any position 51 between the start position P s and the user position Pu as a start-side virtual sound source position. It may be set. Similarly, the sound source setting portion 150 may set one of the positions 53 between the target position P g and the user position P u as the target virtual sound source positions.

別の例として、図10の10−3および10−4に示されるように、音源設定部150は、開始位置Pから目標位置Pまでの経路上の位置であって、ユーザ位置Pから開始位置Pに戻るために通過すべき位置55を開始側仮想音源位置として設定してもよい。同様に、音源設定部150は、開始位置Pから目標位置Pまでの経路上の位置であって、ユーザ位置Pから目標位置Pに到達するために通過すべき位置57を目標側仮想音源位置として設定してもよい。 As another example, as shown in 10-3 and 10-4 in FIG. 10, the sound source setting unit 150, a position on the path from the start position P s to the target position P g, the user position P u may set the position 55 it should pass to return to the start position P s as a starting virtual sound source position from. Similarly, the sound source setting unit 150 is a position on the path from the start position P s to the target position P g that should pass through to reach the target position P g from the user position Pu. You may set as a virtual sound source position.

さらに別の例として、音源設定部150は、開始位置Pの近傍のいずれかの位置および目標位置Pの近傍のいずれかの位置を、それぞれ開始側仮想音源位置および目標側仮想音源位置として設定してもよい。 As yet another example, the sound source setting unit 150 uses any position in the vicinity of the start position P s and any position in the vicinity of the target position P g as the start side virtual sound source position and the target side virtual sound source position, respectively. It may be set.

なお、別の観点として、音源設定部150は、開始側仮想音源位置および目標側仮想音源位置を2次元平面上ではなく3次元空間内に設定してもよい。この場合に、音声作成部160は、HRTFを用いてユーザ3よりも高い位置または低い位置が音源として知覚される開始側音声データまたは目標側音声データを作成してもよい。このような音声データによれば、ユーザ3は、例えば階下または階上に目標位置を直感的に把握することができる。   As another viewpoint, the sound source setting unit 150 may set the start-side virtual sound source position and the target-side virtual sound source position in a three-dimensional space instead of on a two-dimensional plane. In this case, the voice creation unit 160 may create start-side voice data or target-side voice data in which a position higher or lower than the user 3 is perceived as a sound source using HRTF. According to such audio data, the user 3 can intuitively grasp the target position, for example, downstairs or upstairs.

<4.処理の流れ>
以下では、図11を用いて、本実施形態に係る位置推定処理の一例について説明する。図11は、本実施形態に係る位置推定処理の概略的な流れの一例を示すフローチャートである。
<4. Process flow>
Hereinafter, an example of the position estimation process according to the present embodiment will be described with reference to FIG. FIG. 11 is a flowchart illustrating an example of a schematic flow of the position estimation process according to the present embodiment.

まず、ステップS201では、目標入力部120は、最終目標位置を取得する。またステップS203では、検出部110は、ユーザ位置Pおよびユーザの向きを検出する。そして、ステップS205では、案内情報作成部140は、記憶部130に記憶される地図情報に基づき、ユーザ位置Pから最終目標位置までの経路を作成する。 First, in step S201, the target input unit 120 acquires a final target position. In step S203, the detection unit 110 detects the user position Pu and the user orientation. In step S205, the guidance information creation unit 140 creates a route from the user position Pu to the final target position based on the map information stored in the storage unit 130.

次に、ステップS207では、案内情報作成部140は、作成された経路に基づいて、ユーザ3を誘導すべき目標位置Pと、当該目標位置への誘導の開始位置Pとを設定する。そして、ステップS209では、音源設定部150は、開始位置Pに応じた開始側仮想音源位置、および目標位置Pに応じた目標側仮想音源位置を設定する。 Next, in step S207, the guide information creating unit 140, based on the route that was created, sets the target position P g should guide the user 3, the start position P s of guidance to the target position. In step S209, the sound source setting unit 150, the initiator virtual sound source position corresponding to the start position P s, and sets the target virtual sound source position corresponding to the target position P g.

次に、ステップS211では、音声作成部160は、検出部110により検出されたユーザ位置Pを用いて、開始側仮想音源位置Pが音源位置としてユーザ3に知覚される開始側音声データ、および目標側仮想音源位置Pが音源としてユーザ3に知覚される目標側音声データを作成する。そして、ステップS213では、音声作成部160は、開始側音声データおよび目標側音声データを時間軸上の異なる位置に配置する。そして、ステップS215では、音声出力部170は、音声作成部160により作成された開始側音声データおよび目標側音声データをD/A変換することによりアナログ音声信号を生成し、当該アナログ音声信号を音声出力装置20へ出力する。 Next, in step S211, the voice creation unit 160 uses the user position P u detected by the detection unit 110 to start side voice data in which the user 3 perceives the start side virtual sound source position P s as a sound source position, Then, target side audio data in which the target side virtual sound source position Pg is perceived by the user 3 as a sound source is created. In step S213, the voice creation unit 160 arranges the start side voice data and the target side voice data at different positions on the time axis. In step S215, the audio output unit 170 generates an analog audio signal by performing D / A conversion on the start side audio data and the target side audio data generated by the audio generation unit 160, and converts the analog audio signal into audio. Output to the output device 20.

次に、ステップS217では、検出部110は、ユーザ位置Pおよびユーザの向きを検出する。次に、ステップS219では、音声作成部160は、ユーザ位置Pまたはユーザの向きが変わったか否かを判定する。ユーザ位置Pまたはユーザの向きが変わっていれば、処理はステップS221へ進む。そうでなければ、処理はステップS213へ戻る。 Next, in step S217, the detection unit 110 detects the user position Pu and the user orientation. Next, in step S219, the voice creation unit 160 determines whether the user position Pu or the user orientation has changed. If the user position Pu or the user orientation has changed, the process proceeds to step S221. Otherwise, the process returns to step S213.

ステップS221では、案内情報作成部140は、ユーザ3が目標位置Pに到達したか否かを判定する。ユーザ3が目標位置Pに到達していれば、処理はステップS223へ進む。そうでなければ、処理はステップS211へ戻る。 In step S221, the guide information creating unit 140 determines whether the user 3 reaches the target position P g. If the user 3 long reached the target position P g, the process proceeds to step S223. Otherwise, the process returns to step S211.

ステップS221では、案内情報作成部140は、目標位置Pが最終目標位置であるか否かを判定する。目標位置Pが最終目標位置であれば、処理は終了する。そうでなければ、処理はステップS207へ戻る。 In step S221, the guidance information creation unit 140 determines whether or not the target position Pg is the final target position. If the target position Pg is the final target position, the process ends. Otherwise, the process returns to step S207.

以上、本発明の一実施形態について説明したように、本実施形態によれば、特定の位置に音声を発する装置が設置されなくても、異種鳴き交わし方式のように、正しい進行方向および経路から離れた場合の戻り方を直感的に把握させることが可能になる。   As described above, according to the embodiment of the present invention, according to the present embodiment, even if a device that emits a sound is not installed at a specific position, it is possible to start from a correct traveling direction and route as in the case of different types of squealing. It is possible to intuitively understand how to return when leaving.

なお、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。   In addition, although preferred embodiment of this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to the example which concerns. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.

また、本明細書の音声処理における各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理する必要はない。例えば、音声処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。   Further, each step in the voice processing of this specification does not necessarily have to be processed in time series in the order described in the flowchart. For example, each step in the audio processing may be processed in an order different from the order described as the flowchart, or may be processed in parallel.

また、音声処理装置100に内蔵されるCPU、ROMおよびRAM等のハードウェアを、上記音声処理装置100の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させた記憶媒体も提供される。   Further, it is possible to create a computer program for causing hardware such as a CPU, a ROM, and a RAM built in the voice processing apparatus 100 to perform the same functions as the components of the voice processing apparatus 100. A storage medium storing the computer program is also provided.

1 誘導案内システム
3 ユーザ
10 センサ
20 音声出力装置
100 音声処理装置
110 検出部
120 目標入力部
130 記憶部
140 案内情報作成部
150 音源設定部
160 音声作成部
170 音声出力部
DESCRIPTION OF SYMBOLS 1 Guide guidance system 3 User 10 Sensor 20 Audio | voice output apparatus 100 Audio | voice processing apparatus 110 Detection part 120 Target input part 130 Memory | storage part 140 Guidance information creation part 150 Sound source setting part 160 Audio | voice creation part 170 Audio | voice output part

Claims (10)

ユーザ位置を検出する検出部と、
ユーザに対する誘導が開始される時点で前記検出部により検出された前記ユーザ位置である開始位置に応じた第1の仮想音源位置、および前記誘導の目標位置または前記ユーザ位置と前記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、
前記検出部により検出された前記ユーザ位置を用いて、前記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および前記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成する音声作成部と、
を備え
前記第1の音声データおよび前記第2の音声データは、異なる音声パターンを有し、
前記音声作成部は、前記第1の音声データおよび前記第2の音声データを時間軸上の異なる位置に配置する、音声処理装置。
A detection unit for detecting a user position;
A first virtual sound source position corresponding to a start position which is the user position detected by the detection unit at the time when guidance to the user is started, and a target position of the guidance or between the user position and the target position a sound source setting unit that sets a second virtual sound source position corresponding to the position existing on the path,
Using the user position detected by the detection unit, first audio data in which the first virtual sound source position is perceived by the user as a sound source position, and the second virtual sound source position is perceived by the user as a sound source. A voice creation unit for creating second voice data to be played,
Equipped with a,
The first audio data and the second audio data have different audio patterns,
The sound creation unit place the first audio data and the second audio data at different positions on the time axis, the sound processing apparatus.
前記検出部は、前記ユーザの向きをさらに検出し、
前記音声作成部は、前記第1の音声データまたは前記第2の音声データの各々を、前記ユーザ位置または前記ユーザの向きと、前記第1の仮想音源位置または前記第2の仮想音源位置の各々との相対的関係に基づいて作成する、請求項に記載の音声処理装置。
The detection unit further detects the orientation of the user;
The voice creation unit converts each of the first voice data or the second voice data into the user position or the user orientation, the first virtual sound source position, or the second virtual sound source position. created based on the relative relationship between the sound processing device according to claim 1.
前記音声作成部は、前記第1の音声データおよび前記第2の音声データの各々を、前記相対的関係に応じた音量または音声パターンで作成する、請求項に記載の音声処理装置。 The voice processing device according to claim 2 , wherein the voice creation unit creates each of the first voice data and the second voice data with a volume or a voice pattern corresponding to the relative relationship. 前記音声作成部は、前記第1の音声データおよび前記第2の音声データの各々を、前記相対的関係に応じた頻度で時間軸上の異なる位置に配置する、請求項またはのいずれか一項に記載の音声処理装置。 The sound creation unit, each of the first audio data and the second audio data is placed in different positions on the time axis at a frequency corresponding to the relative relationship, claim 2 or 3 The speech processing apparatus according to one item. 前記相対的関係は、前記ユーザ位置と、前記第1の仮想音源位置若しくは前記第2の仮想音源位置との距離、または、前記ユーザの向きと、前記第1の仮想音源位置の方向若しくは前記第2の仮想音源位置の方向とのなす角度を含む、請求項にいずれか一項に記載の音声処理装置。 The relative relationship is the distance between the user position and the first virtual sound source position or the second virtual sound source position, or the direction of the user and the direction of the first virtual sound source position or the first virtual sound source position. including an angle between the direction of the second virtual sound source position, the sound processing apparatus as claimed in any one in claim 2-4. 前記音声作成部は、前記第1の音声データおよび前記第2の音声データをステレオ形式で作成する、請求項1〜のいずれか一項に記載の音声処理装置。 The sound creation unit, the first audio data and the second sound data to create a stereo format, audio processing apparatus according to any one of claims 1-5. 前記音声作成部は、前記第1の音声データおよび前記第2の音声データを頭部伝達関数の畳み込みにより作成する、請求項6に記載の音声処理装置。 The speech processing apparatus according to claim 6, wherein the speech creation unit creates the first speech data and the second speech data by convolution of a head related transfer function. 検出部がユーザ位置を検出するステップと、
音源設定部がユーザに対する誘導が開始される時点で前記検出部により検出された前記ユーザ位置である開始位置に応じた第1の仮想音源位置、および前記誘導の目標位置または前記ユーザ位置と前記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定するステップと、
音源作成部が前記検出部により検出された前記ユーザ位置を用いて、前記音源設定部により設定された前記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および前記第1の音声データとは異なる音声パターンを有し、前記音源設定部により設定された前記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成するステップと、
前記音源作成部が前記第1の音声データおよび前記第2の音声データを時間軸上の異なる位置に配置するステップと、
を含む、音声処理方法。
A step of detecting a user position by the detection unit ;
The first virtual sound source position corresponding to the start position, which is the user position detected by the detection unit when the sound source setting unit starts guidance to the user , and the target position of the guide or the user position and the target and setting a second virtual sound source position corresponding to the position existing on the path between the position,
The sound source preparation section is detected by the detection unit with a user position, the first audio data have been the first virtual sound source position set by the setting in the sound source unit is perceived by the user as a sound source position, and the Creating second voice data having a voice pattern different from the first voice data, and the second virtual sound source position set by the sound source setting unit being perceived by a user as a sound source;
The sound source creation unit placing the first audio data and the second audio data at different positions on a time axis;
Including a voice processing method.
コンピュータを、
ユーザ位置を検出する検出部と、
ユーザに対する誘導が開始される時点で前記検出部により検出された前記ユーザ位置である開始位置に応じた第1の仮想音源位置、および前記誘導の目標位置または前記ユーザ位置と前記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、
前記検出部により検出された前記ユーザ位置を用いて、前記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および前記第1の音声データとは異なる音声パターンを有し前記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成し、前記第1の音声データおよび前記第2の音声データを時間軸上の異なる位置に配置する音声作成部と、
として機能させるためのプログラム。
Computer
A detection unit for detecting a user position;
A first virtual sound source position corresponding to a start position which is the user position detected by the detection unit at the time when guidance to the user is started, and a target position of the guidance or between the user position and the target position a sound source setting unit that sets a second virtual sound source position corresponding to the position existing on the path,
Using the user position detected by the detection unit, the first virtual sound source position is perceived by the user as a sound source position, and has a sound pattern different from the first sound data. sound creation aforementioned second virtual sound source position is to create a second audio data that is perceived to the user as a sound source, arranging the first audio data and the second audio data at different positions on the time axis And
Program to function as.
センサ、音声出力装置および音声処理装置を含む誘導案内システムであって、
前記音声処理装置は、
前記センサからの入力に基づいてユーザ位置を検出する検出部と、
ユーザに対する誘導が開始される時点で前記検出部により検出された前記ユーザ位置である開始位置に応じた第1の仮想音源位置、および前記誘導の目標位置または前記ユーザ位置と前記目標位置の間の経路上に存在する位置に応じた第2の仮想音源位置を設定する音源設定部と、
前記検出部により検出された前記ユーザ位置を用いて、前記第1の仮想音源位置が音源位置としてユーザに知覚される第1の音声データ、および前記第2の仮想音源位置が音源としてユーザに知覚される第2の音声データを作成する音声作成部と、
を備え、
前記第1の音声データおよび前記第2の音声データは、異なる音声パターンを有し、
前記音声作成部は、前記第1の音声データおよび前記第2の音声データを時間軸上の異なる位置に配置し、
前記音声出力装置は、前記第1の音声データの音声および前記第2の音声データの音声
を出力する、
誘導案内システム。
A guidance guidance system including a sensor, a voice output device and a voice processing device,
The voice processing device
A detection unit for detecting a user position based on an input from the sensor;
A first virtual sound source position corresponding to a start position which is the user position detected by the detection unit at the time when guidance to the user is started, and a target position of the guidance or between the user position and the target position a sound source setting unit that sets a second virtual sound source position corresponding to the position existing on the path,
Using the user position detected by the detection unit, first audio data in which the first virtual sound source position is perceived by the user as a sound source position, and the second virtual sound source position is perceived by the user as a sound source. A voice creation unit for creating second voice data to be played,
With
The first audio data and the second audio data have different audio patterns,
The voice creation unit arranges the first voice data and the second voice data at different positions on the time axis,
The sound output device outputs the sound of the first sound data and the sound of the second sound data;
Guide guidance system.
JP2011186489A 2011-08-29 2011-08-29 Voice processing device, voice processing method, program, and guidance system Active JP5807451B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011186489A JP5807451B2 (en) 2011-08-29 2011-08-29 Voice processing device, voice processing method, program, and guidance system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011186489A JP5807451B2 (en) 2011-08-29 2011-08-29 Voice processing device, voice processing method, program, and guidance system

Publications (2)

Publication Number Publication Date
JP2013047653A JP2013047653A (en) 2013-03-07
JP5807451B2 true JP5807451B2 (en) 2015-11-10

Family

ID=48010718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011186489A Active JP5807451B2 (en) 2011-08-29 2011-08-29 Voice processing device, voice processing method, program, and guidance system

Country Status (1)

Country Link
JP (1) JP5807451B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6609911B2 (en) * 2014-11-27 2019-11-27 凸版印刷株式会社 Guidance system and guidance method
JP2016194612A (en) * 2015-03-31 2016-11-17 株式会社ニデック Visual recognition support device and visual recognition support program
JP6629111B2 (en) * 2016-03-24 2020-01-15 株式会社ゼンリンデータコム Route guidance device, route guidance method, and route guidance program
CN111035544A (en) * 2019-12-26 2020-04-21 吕日鹏 Navigation system for blind people

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3403774B2 (en) * 1993-09-17 2003-05-06 株式会社エクォス・リサーチ Guidance device
JPH07103781A (en) * 1993-10-04 1995-04-18 Aqueous Res:Kk Voice navigation device
JP2000123281A (en) * 1998-10-13 2000-04-28 Koito Ind Ltd Device adding acoustic traffic signal for visually handicapped person
JP4282139B2 (en) * 1999-03-31 2009-06-17 株式会社スタジオ・イオン Guidance system by moving sound image

Also Published As

Publication number Publication date
JP2013047653A (en) 2013-03-07

Similar Documents

Publication Publication Date Title
CN111148969B (en) spatial audio navigation
EP3213177B1 (en) User interface functionality for facilitating interaction between users and their environments
KR101384528B1 (en) Method for direction-guiding using 3D-sound and navigation system using the same
KR102465970B1 (en) Method and apparatus of playing music based on surrounding conditions
KR20170137636A (en) Information-attainment system based on monitoring an occupant
TW201102618A (en) Outdoor to indoor navigation system
US20110144901A1 (en) Method for Playing Voice Guidance and Navigation Device Using the Same
JP5807451B2 (en) Voice processing device, voice processing method, program, and guidance system
JPWO2006075606A1 (en) Sound guide device, sound guide method, and sound guide program
WO2005103622A1 (en) Audio information output device and audio information output method
JP2015057686A (en) Attention alert device
JP6479289B1 (en) Navigation device and navigation method
Strumillo et al. Different approaches to aiding blind persons in mobility and navigation in the “Naviton” and “Sound of Vision” projects
JP2002005675A (en) Acoustic navigation apparatus
TW200949202A (en) Navigation system and method for providing travel information in a navigation system
US10667073B1 (en) Audio navigation to a point of interest
JP2002257581A (en) Portable guidance device
Zwinderman et al. Oh music, where art thou?
JP2013008308A (en) Vehicle approach notification device
CN111982140A (en) Tour guide method, device and equipment for unmanned tour guide vehicle
JP2008023237A (en) Navigation system for visually handicapped person
KR100697442B1 (en) Method for simulating a movement by means of an acoustic reproduction device and sound reproduction arrangement therefor
US8606505B2 (en) Travel guidance system, travel guidance device, travel guidance method, and computer program
JP7426471B2 (en) Self-driving car interaction system
JPH08252279A (en) Route guiding method for presenting object with sound

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150824

R150 Certificate of patent or registration of utility model

Ref document number: 5807451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150