JP2016139972A - Information processing unit, voice output method, and computer program - Google Patents
Information processing unit, voice output method, and computer program Download PDFInfo
- Publication number
- JP2016139972A JP2016139972A JP2015014460A JP2015014460A JP2016139972A JP 2016139972 A JP2016139972 A JP 2016139972A JP 2015014460 A JP2015014460 A JP 2015014460A JP 2015014460 A JP2015014460 A JP 2015014460A JP 2016139972 A JP2016139972 A JP 2016139972A
- Authority
- JP
- Japan
- Prior art keywords
- output
- voice
- sound
- control unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Stereophonic System (AREA)
Abstract
Description
本発明は、音声を出力する技術に関する。 The present invention relates to a technique for outputting sound.
従来、様々な分野において、音声を出力する技術が用いられている。例えば、画像の出力に応じて音声を出力する技術が提案されている(例えば特許文献1参照)。より具体的には、遠隔地に位置する他のユーザと画像を伴った会話を可能にするボイスチャット技術がある。 Conventionally, techniques for outputting sound have been used in various fields. For example, a technique for outputting sound in accordance with image output has been proposed (see, for example, Patent Document 1). More specifically, there is a voice chat technique that enables a conversation with an image with another user located in a remote place.
しかしながら、ボイスチャットでは、複数の他のユーザと同時に会話しようとすると、複数人の声が混ざってしまい聞き取りにくくなってしまうという問題があった。このように、単純に出力された音声のみによっては、その音声に伴って行われるべきユーザの判断(例えば、画面上に表示された複数の人のうちどの人が発話しているのかについての判断)が遅れてしまうことや、判断が困難になる場合があった。 However, in the voice chat, there is a problem that when talking simultaneously with a plurality of other users, the voices of a plurality of people are mixed and difficult to hear. In this way, depending on only the voice that is simply output, the user's judgment to be performed along with the voice (for example, judgment as to who is speaking among a plurality of people displayed on the screen) ) May be delayed or difficult to judge.
上記事情に鑑み、本発明は、音声の出力によってユーザの判断をより容易にする技術の提供を目的としている。 In view of the circumstances described above, an object of the present invention is to provide a technique that makes it easier for a user to make a judgment by outputting sound.
本発明の一態様は、出力対象の音声に関連する画像の表示位置に応じた音声の出力パラメータを取得する主制御部と、前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる音声制御部と、を備え、前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、情報処理装置である。 According to one aspect of the present invention, a main control unit that acquires a sound output parameter according to a display position of an image related to a sound to be output, and outputs the sound to be output to a sound output device according to the output parameter And an audio control unit that controls the output parameter to change a position of an output source of the audio recognized by a user who listens to the audio.
本発明の一態様は、上記情報処理装置であって、前記音声は、前記ユーザとは異なる発話者の発話内容を表す音声であり、前記画像は、前記発話者を示す画像である。 One embodiment of the present invention is the above information processing device, in which the voice is a voice representing a utterance content of a speaker different from the user, and the image is an image showing the speaker.
本発明の一態様は、上記情報処理装置であって、前記音声は、前記ユーザとネットワークを介して対話する発話者が発話した音声である。 One aspect of the present invention is the information processing apparatus, wherein the voice is a voice uttered by a speaker who interacts with the user via a network.
本発明の一態様は、上記情報処理装置であって、前記主制御部は、複数の音声について、それぞれ異なる出力パラメータを取得し、前記音声制御部は、前記複数の音声を同時に出力させる。 One aspect of the present invention is the information processing apparatus, wherein the main control unit acquires different output parameters for a plurality of sounds, and the sound control unit outputs the plurality of sounds simultaneously.
本発明の一態様は、上記情報処理装置であって、前記主制御部は、異常が生じた監視対象の画像の表示位置に応じた音声の出力パラメータを取得する。 One aspect of the present invention is the information processing apparatus, wherein the main control unit obtains an audio output parameter according to a display position of an image to be monitored in which an abnormality has occurred.
本発明の一態様は、上記情報処理装置であって、前記主制御部は、ユーザに注意を向けさせるべき画像の表示位置に応じた音声の出力パラメータを取得する。 One aspect of the present invention is the information processing apparatus, wherein the main control unit obtains an audio output parameter in accordance with a display position of an image to which a user should pay attention.
本発明の一態様は、出力対象の音声に関連する画像の表示位置に応じた音声の出力パラメータを取得する取得ステップと、前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる出力音声制御ステップと、を有し、前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、音声出力方法である。 According to one aspect of the present invention, an acquisition step of acquiring an audio output parameter corresponding to a display position of an image related to an output target audio, and causing the audio output device to output the output target audio according to the output parameter An output audio control step, wherein the output parameter is a parameter for changing a position of an output source of the audio recognized by a user who listens to the audio.
本発明の一態様は、出力対象の音声に関連する画像の表示位置に応じた音声の出力パラメータを取得する主制御部と、前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる音声制御部と、を備え、前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、情報処理装置、としてコンピュータを機能させるためのコンピュータプログラムである。 According to one aspect of the present invention, a main control unit that acquires a sound output parameter according to a display position of an image related to a sound to be output, and outputs the sound to be output to a sound output device according to the output parameter A computer for causing the computer to function as an information processing apparatus, wherein the output parameter is a parameter for changing a position of an output source of the audio recognized by a user who listens to the audio It is a program.
本発明により、音声の出力によってユーザの判断をより容易にすることが可能となる。 According to the present invention, it is possible to make a user's judgment easier by outputting sound.
図1は、音声出力システム1のシステム構成を表すシステム構成図である。音声出力システム1は、音声出力装置10、画像出力装置20及び制御装置30を備える。
音声出力装置10は、スピーカー等の音声を出力する装置である。
画像出力装置20は、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像を出力する装置である。
FIG. 1 is a system configuration diagram showing a system configuration of the
The
The
制御装置30は、出力すべき音声を示す音声データと、出力すべき画像を示す画像データと、を取得する。制御装置30は、取得された音声データを音声出力装置10に出力させる。制御装置30は、取得された画像データを画像出力装置20に出力させる。
制御装置30は、音声データを音声出力装置10に対して出力させる際に、所定の条件に応じて、指向性を生じさせる。音声の指向性とは、音声を聴くユーザが認識する音声の出力源(以下、「仮想出力源」という。)の位置を、所定の条件に応じて変化させることが可能であることを示す。音声の指向性は、例えば離れて位置する複数の音声出力装置において、同じ音声を異なるタイミングで(遅延を生じさせて)出力することによって生じさせることが可能である。例えば、1台のパーソナルコンピュータに接続された(又は設けられた)複数のスピーカーにおいて、同じ音声を異なるタイミングで出力することによって、音声に指向性を生じさせることが可能である。制御装置30は、所定の条件に応じて、音声の指向性を変化させる。言い換えると、制御装置30は、所定の条件に応じて、仮想出力源の位置を変化させる。
The
When outputting the audio data to the
制御装置30について詳細に説明する。
制御装置30は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、制御プログラムを実行する。制御装置30は、制御プログラムの実行によって、主制御部301、音声制御部302及び表示制御部303を備える装置として機能する。なお、制御装置30の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。
The
The
制御プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。制御プログラムは、電気通信回線を介して送信されても良い。 The control program may be recorded on a computer-readable recording medium. The computer-readable recording medium is a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a semiconductor storage device (for example, SSD: Solid State Drive), a hard disk built in a computer system, or a semiconductor storage. A storage device such as a device. The control program may be transmitted via a telecommunication line.
主制御部301は、音声データ及び画像データを取得する。主制御部301は、取得された音声データの属性情報をさらに取得する。属性情報とは、音声の属性を示す情報である。属性情報は、例えば音声の発声主を示すユーザID、音声が関連づけられている装置を示す装置ID、音声が関連づけられているWEBページ内のアイテムを示すアイテムID、音声が関連づけられているウィンドウ内の相対的位置、である。
The
主制御部301は、属性情報に基づいて、出力位置情報を取得する。出力位置情報は、仮想出力源に関連する情報である。出力位置情報は、例えば画像出力装置20の画面内の二次元座標を示す情報、画像出力装置20に表示される三次元画像内の三次元座標を示す情報、である。
The
主制御部301は、出力位置情報に基づいて、出力パラメータを取得する。出力パラメータは、出力位置情報に応じた仮想出力源から音声がユーザに聞こえるように音声出力装置10を制御するための情報である。出力パラメータと出力位置情報とは1対1で対応付けて予め主制御部301によって記憶されていてもよい。
The
音声制御部302は、主制御部301によって取得された出力パラメータで、主制御部301によって取得された音声データを音声出力装置10に出力させる。
表示制御部303は、主制御部301によって取得された画像データを画像出力装置20に出力させる。
The
The
図2は、主制御部301が音声データの出力処理の流れの第一の具体例を示すフローチャートである。主制御部301は、出力の対象となっている音声データの属性情報を取得する(ステップS101)。次に、主制御部301は、ステップS101において取得された属性情報に基づいて出力パラメータを取得する(ステップS102)。そして、主制御部301は、出力の対象となっている音声データを、ステップS102において取得された出力パラメータで出力することを音声制御部302に指示する(ステップS103)。
FIG. 2 is a flowchart showing a first specific example of the flow of output processing of audio data by the
図3は、主制御部301が音声データの出力処理の流れの第二の具体例を示すフローチャートである。主制御部301は、出力の対象となっている音声データの属性情報を取得する(ステップS111)。次に、主制御部301は、ステップS111において取得された属性情報に基づいて、出力位置情報を取得する(ステップS112)。次に、主制御部301は、ステップS112において取得された出力位置情報に基づいて出力パラメータを取得する(ステップS113)。そして、主制御部301は、出力の対象となっている音声データを、ステップS113において取得された出力パラメータで出力することを音声制御部302に指示する(ステップS114)。
FIG. 3 is a flowchart showing a second specific example of the flow of audio data output processing by the
第一の具体例では、属性情報と出力パラメータとが予め対応付けて主制御部301に記憶されている。第一の具体例は、各属性の音声の指向性(出力源)が固定的に決められている場合に用いられる処理である。
In the first specific example, attribute information and output parameters are stored in the
第二の具体例では、属性情報と出力位置情報とが対応付けて主制御部301に記憶されている。また、出力位置情報と出力パラメータとが対応付けて主制御部301に記憶されている。第二の具体例では、属性情報と出力位置情報との対応付けを変更することによって、属性情報と出力パラメータとの関係を容易に変更することが可能となる。第二の具体例は、各属性の音声の指向性(出力源)が変化する場合に用いられる処理である。
次に、音声出力システム1の具体的な適用例について説明する。
In the second specific example, attribute information and output position information are stored in the
Next, a specific application example of the
[第一適用例:テレビ会話システム]
テレビ会話システムに適用された音声出力システム1について説明する。出力される音声データは、テレビ会話システムによって出力される音声を聴くユーザとネットワークを介して対話する対話者が発話した音声である。出力される画像データは、対話者を示す画像である。
[First application example: TV conversation system]
An
図4は、テレビ会話システムの画像出力装置20の画面の具体例を示す図である。図4の例では、ユーザは4人の対話者と対話している。画面には、複数の対話者を示す画像401〜404が表示される。図4の例では、画像401〜404として、各対話者の顔をカメラで写すことによって得られる動画像が表示される。画像401〜404に表示される画像は、各対話者の顔の動画像に限定されない。例えば、各対話者の顔の静止画像であってもよいし、各対話者を示す文字であってもよい。
FIG. 4 is a diagram showing a specific example of the screen of the
図5は、出力位置情報テーブルの具体例を示す図である。図5に示される出力位置情報テーブルは、主制御部301によって記憶される。出力位置情報テーブルは、ユーザIDと出力位置情報とを対応付けた複数のレコードを有する。ユーザIDは、対話者の識別情報である。テレビ会話システムでは、各対話者の発話内容を表す音声データの属性情報として、各対話者のユーザIDをもつ。出力位置情報は、画像出力装置20の画面において、ユーザIDが示す対話者の画像が表示される位置を示す。
FIG. 5 is a diagram showing a specific example of the output position information table. The output position information table shown in FIG. 5 is stored by the
例えば、図5の1番上のレコードは、ユーザIDが“A1”である対話者の顔の動画像が画面の左上の位置(図4の画像401の位置)に表示されることを示す。図5の上から2番目のレコードは、ユーザIDが“A2”である対話者の顔の動画像が画面の右上の位置(図4の画像402の位置)に表示されることを示す。図5の上から3番目のレコードは、ユーザIDが“A3”である対話者の顔の動画像が画面の左下の位置(図4の画像403の位置)に表示されることを示す。図5の上から4番目のレコードは、ユーザIDが“A4”である対話者の顔の動画像が画面の右下の位置(図4の画像404の位置)に表示されることを示す。
For example, the top record in FIG. 5 indicates that the moving image of the face of the conversation person whose user ID is “A1” is displayed at the upper left position of the screen (the position of the
主制御部301は、各対話者の発話内容を表す音声データを、ネットワークを介して受信することによって取得する。音声データは、対話者を示す識別情報とともに受信される。音声データとともに受信される識別情報は、例えば対話者が操作している装置に割り当てられているIPアドレスであってもよいし、上記装置のMACアドレスであってもよい。主制御部301は、取得された識別情報に基づいて、対話者のユーザID(属性情報)を取得する。主制御部301は、出力位置情報テーブルを参照することによって、対話者のユーザIDに応じた出力位置情報を取得する。
The
図6は、出力パラメータテーブルの具体例を示す図である。図6に示される出力パラメータテーブルは、主制御部301によって記憶される。出力パラメータテーブルは、出力位置情報と出力パラメータとを対応付けた複数のレコードを有する。出力パラメータは、音声を聴くユーザが認識する音声の出力源の位置を制御するためのパラメータである。すなわち、出力パラメータは、出力位置情報によって示される位置が音声の出力源となるような指向性を音声に持たせるためのパラメータである。出力パラメータは、例えば左右に配置された音声出力装置10の出力タイミングとして定義されてもよい。
FIG. 6 is a diagram illustrating a specific example of the output parameter table. The output parameter table shown in FIG. 6 is stored by the
例えば、図6の1番上のレコードは、出力対象の音声データの出力位置情報が左上である場合には、出力パラメータがPa1であることを示す。図6の上から2番目のレコードは、出力対象の音声データの出力位置情報が右上である場合には、出力パラメータがPa2であることを示す。図6の上から3番目のレコードは、出力対象の音声データの出力位置情報が左下である場合には、出力パラメータがPa3であることを示す。図6の上から4番目のレコードは、出力対象の音声データの出力位置情報が右下である場合には、出力パラメータがPa4であることを示す。 For example, the top record in FIG. 6 indicates that the output parameter is Pa1 when the output position information of the audio data to be output is at the upper left. The second record from the top in FIG. 6 indicates that the output parameter is Pa2 when the output position information of the audio data to be output is on the upper right. The third record from the top in FIG. 6 indicates that the output parameter is Pa3 when the output position information of the audio data to be output is in the lower left. The fourth record from the top in FIG. 6 indicates that the output parameter is Pa4 when the output position information of the audio data to be output is in the lower right.
主制御部301は、出力パラメータテーブルを参照することによって、出力対象の音声データの出力位置情報に応じた出力パラメータを取得する。
このように構成されたテレビ会話システムでは、対話者の画像が表示された位置に応じた指向性をもって音声データが出力される。例えば、図4の画面において、画像401の対話者の発話内容を表す音声は、左上方向(例えば、画面の画像401の位置)に出力源があるかのように出力される。図4の画面において、画像402の対話者の発話内容を表す音声は、右上方向(例えば、画面の画像402の位置)に出力源があるかのように出力される。このように音声が出力されることにより以下のような効果が得られる。
The
In the television conversation system configured as described above, sound data is output with directivity corresponding to the position where the image of the conversation person is displayed. For example, on the screen of FIG. 4, sound representing the utterance content of the conversation person in the
一般的に、複数人が同時に話した音声が一つの出力源から出力されると(すなわち、モノラル音声で出力されると)、人が聞き分けることは難しい。そのため、特にモノラル音声で音声データが生成される場合、テレビ会話システムでは1対1で会話が行われることが多い。一方、カクテルパーティー効果として説明されているように、複数人が同時に話した音声であっても、各音声の出力源が異なる場合には、人はその中から自身が望む音声を聞き分けることが可能である。上述したテレビ会話システムでは、複数の対話者の音声が、それぞれ異なる出力源から聞こえるように出力される。そのため、たとえモノラル音声が用いられたとしても、ユーザは複数人が同時に話した音声を聞き分けることが可能となる。 Generally, when voices spoken by a plurality of people at the same time are output from a single output source (that is, output as monaural speech), it is difficult for people to hear them. Therefore, particularly when audio data is generated with monaural audio, a television conversation system often has a one-to-one conversation. On the other hand, as explained in the cocktail party effect, even if the voice is spoken by multiple people at the same time, if the output source of each voice is different, the person can hear the voice he / she wants among them. It is. In the above-described television conversation system, the voices of a plurality of interlocutors are output so that they can be heard from different output sources. Therefore, even if monaural sound is used, the user can hear the sound spoken by a plurality of people at the same time.
また、ユーザが対話者の声が誰の声であるのかを聞き分けることができなくても、画面に表示された画像の位置に応じた出力源から音声が出力されるため、出力源に基づいてどの対話者の声であるのかを判断することが可能となる。 Also, even if the user cannot tell who the voice of the interlocutor is, the voice is output from the output source corresponding to the position of the image displayed on the screen. It is possible to determine which voice of the conversation person.
<変形例>
音声データとともに受信される識別情報は、対話者を示すユーザIDであってもよい。
対話者の人数は4人に限定されない。例えば3人であってもよいし、5人以上であってもよい。
画像出力装置20を用いることなく、画像の出力を伴わない会話システムとして適用されてもよい。このように構成された場合であっても、ユーザは複数人が同時に話した音声を聞き分けることが可能となるという効果は得られる。
<Modification>
The identification information received together with the audio data may be a user ID indicating a conversation person.
The number of interlocutors is not limited to four. For example, there may be three people or five or more people.
The present invention may be applied as a conversation system that does not involve image output without using the
[第二適用例:監視システム]
監視システムに適用された音声出力システム1について説明する。出力される音声データは、異常が生じたことを示すアラーム音である。音声データの種類は1種類であってもよいし、複数種類であってもよい。出力される画像データは、監視対象を示す画像である。監視対象は、装置であってもよいし施設であってもよい。監視システムは、監視対象に設けられたセンサから状態値を取得し、状態値に基づいて異常が生じたか否かを判定する。異常が生じた場合、異常が生じた監視対象に応じた音声が出力される。
[Second application example: Monitoring system]
The
図7は、監視システムの画像出力装置20の画面の具体例を示す図である。図7の例では、監視対象となっている装置は8つであり、各装置は1以上の他装置と通信線で接続されている。画面には、複数の監視対象を示す画像501〜508が表示される。図7の例では、画像501〜508として、各監視対象を表す画像が表示される。画像501〜508として表示される画像は、正常であると判断された場合に表示される画像と、異常が生じていると判断された場合に表示される画像とが異なっても良い。
FIG. 7 is a diagram illustrating a specific example of the screen of the
図8は、出力パラメータテーブルの具体例を示す図である。図8に示される出力パラメータテーブルは、主制御部301によって記憶される。出力パラメータテーブルは、監視対象IDと出力パラメータとを対応付けた複数のレコードを有する。監視対象IDは、監視対象の識別情報である。監視システムでは、異常が生じた際に出力される音声データの属性情報として、各監視対象の監視対象IDをもつ。なお、複数の監視対象において、異常が生じた際に出力される音声が共通している場合、一つの音声データに対して複数の属性情報が付与されても良い。
FIG. 8 is a diagram showing a specific example of the output parameter table. The output parameter table shown in FIG. 8 is stored by the
本実施形態における監視システムでは、各監視対象の画像が表示される画面内の位置は固定的に定義されている。そのため、各監視対象において異常が生じた際に出力される音声の出力源の位置は変化しない。したがって、本実施形態における監視システムは、出力位置情報を用いることなく第一の具体例の処理で実装することが可能である。 In the monitoring system according to the present embodiment, the position in the screen on which each monitoring target image is displayed is fixedly defined. Therefore, the position of the sound output source that is output when an abnormality occurs in each monitoring target does not change. Therefore, the monitoring system in this embodiment can be implemented by the process of the first specific example without using the output position information.
例えば、監視対象が非常に多数であり変化した画像を探すことが困難である場合や、画像出力装置20の画面が非常に大きく一度に全体を視認することが困難である場合には、ユーザは、異常の発生を示す音声が出力されたとしてもどの監視対象において異常が発生したのか容易には判断できない。このような問題に対し、本実施形態の監視システムでは、画面に表示された監視対象の画像の位置に応じた出力源から異常を示す音声が出力される。そのため、ユーザは、どの監視対象において異常が生じたのかを、より容易により早く判断することが可能となる。
For example, when there are a large number of monitoring targets and it is difficult to search for a changed image, or when the screen of the
<変形例>
各監視対象の画像が表示される画面内の位置が変化するように構成されてもよい。この場合、各監視対象の識別情報と出力位置情報とを対応付けたテーブルが必要となる。このようなテーブルは、他の情報処理装置から取得されてもよいし、ユーザによって設定されてもよいし、他の方法によって取得されてもよい。
<Modification>
You may comprise so that the position within the screen where the image of each monitoring object is displayed changes. In this case, a table in which the identification information of each monitoring target is associated with the output position information is required. Such a table may be acquired from another information processing apparatus, may be set by a user, or may be acquired by another method.
[第三適用例:音声モニタリングシステム]
音声モニタリングシステムに適用された音声出力システム1について説明する。出力される音声データは、モニタリングの対象となっている発話者が発話した音声である。出力される画像データは、発話者を示す画像である。
図9は、音声モニタリングシステムの画像出力装置20の画面の具体例を示す図である。図9の例では、16人の発話者がモニタリングの対象となっている。画面には、複数の発話者を示す画像601〜616が表示される。図9の例では、画像601〜616として、各発話者の顔をカメラで写すことによって得られる動画像が表示される。画像601〜601に表示される画像は、各発話者の顔の動画像に限定されない。例えば、各発話者の顔の静止画像であってもよいし、各発話者を示す文字であってもよい。
[Third application example: Voice monitoring system]
The
FIG. 9 is a diagram illustrating a specific example of the screen of the
図10は、出力パラメータテーブルの具体例を示す図である。図10に示される出力パラメータテーブルは、主制御部301によって記憶される。出力パラメータテーブルは、オペレータIDと出力パラメータとを対応付けた複数のレコードを有する。オペレータIDは、オペレータの識別情報である。音声モニタリングシステムでは、出力される音声データの属性情報として、各オペレータのオペレータIDをもつ。
FIG. 10 is a diagram illustrating a specific example of the output parameter table. The output parameter table shown in FIG. 10 is stored by the
本実施形態における音声モニタリングシステムでは、各オペレータの画像が表示される画面内の位置は固定的に定義されている。そのため、各オペレータの音声の出力源の位置は変化しない。したがって、本実施形態における音声モニタリングシステムは、出力位置情報を用いることなく第一の具体例の処理で実装することが可能である。 In the voice monitoring system according to the present embodiment, the position in the screen where the image of each operator is displayed is fixedly defined. Therefore, the position of the voice output source of each operator does not change. Therefore, the voice monitoring system in the present embodiment can be implemented by the process of the first specific example without using the output position information.
主制御部301は、所定数の複数の発話者の音声を、それぞれ異なる指向性を持たせて同時に出力する。主制御部301は、音声が出力される発話者を、所定のタイミング(例えば、音声が出力されてから10秒後)で変更する。例えば、最初のタイミングでは、主制御部301は、最初の発話者の組み合わせ(例えば画像601〜604の発話者)の発話内容の音声データを同時に出力する。音声データの出力開始から所定時間(例えば10秒)が経過すると、主制御部301は、次の発話者の組み合わせ(例えば画像605〜608の発話者)の発話内容の音声データを同時に出力する。音声データの出力開始から所定時間が経過すると、主制御部301は、次の発話者の組み合わせ(例えば画像609〜612の発話者)の発話内容の音声データを同時に出力する。このような処理を主制御部301が繰り返し実行することによって、発話者全員の発話内容をモニタリングすることが可能となる。
The
なお、主制御部301は、発話内容の音声データが出力されている発話者の画像を、発話内容の音声データが出力されていない発話者の画像と異なる態様で表示しても良い。例えば、主制御部301は、発話内容の音声データが出力されている発話者の画像に対して太い枠を設けて表示させても良い。
Note that the
例えば、オペレータが非常に多数である場合には、一人ずつ音声をモニタリングすると、全員の音声のモニタリングを完了させるまでに多くの時間を要してしまう。このような問題に対し、本実施形態の音声モニタリングシステムでは、複数の発話者の音声が同時に出力される。その際に、各音声は画像の位置に応じて異なる出力源から聞こえるように出力される。そのため、ユーザは、上述したカクテルパーティー効果により複数の声を同時に聞き分けながらモニタリングすることが可能となる。したがって、全員のモニタリングを完了させるまでの時間を短縮することが可能となる。 For example, when there are a large number of operators, if the voice is monitored one by one, it takes a lot of time to complete the monitoring of the voices of all the members. In response to such a problem, in the voice monitoring system of the present embodiment, voices of a plurality of speakers are output simultaneously. At that time, each sound is output so that it can be heard from different output sources depending on the position of the image. Therefore, the user can monitor while listening to a plurality of voices simultaneously by the cocktail party effect described above. Therefore, it is possible to shorten the time until the monitoring of all members is completed.
<変形例>
各オペレータの画像が表示される画面内の位置が変化するように構成されてもよい。この場合、各オペレータの識別情報と出力位置情報とを対応付けたテーブルが必要となる。このようなテーブルは、他の情報処理装置から取得されてもよいし、ユーザによって設定されてもよいし、他の方法によって取得されてもよい。
<Modification>
The position on the screen where the image of each operator is displayed may be changed. In this case, a table in which the identification information of each operator is associated with the output position information is required. Such a table may be acquired from another information processing apparatus, may be set by a user, or may be acquired by another method.
[第四適用例:WEBシステム]
WEBシステムに適用された音声出力システム1について説明する。出力される音声データは、WEBサイトにおいて予め定義された音声データである。出力される画像データは、WEBサイトにおいて予め定義された画像である。
[Fourth application example: WEB system]
The
主制御部301は、属性情報として、出力される音声が対応付けられた画像の画面内の位置を取得する。主制御部301は、取得された画面内の位置に応じて、出力パラメータを取得する。画面内の位置と出力パラメータの値との関係は、予め数式によって定義されてもよい。この場合、画面内の位置と出力パラメータの値との関係を表す数式を、主制御部301は予め記憶している。
The
図11は、WEBシステムにおいて表示されるWEBサイトの具体例を示す図である。このWEBサイトでは、氏名を入力する入力枠701、住所を入力する入力枠702、職業を入力する入力枠703が表示される。入力内容に誤りがあった場合、主制御部301は、入力内容に誤りがあった入力枠の画面内での位置を示す位置情報を取得する。主制御部301は、例えば以下のように入力枠の位置情報を取得する。まず、主制御部301は、WEBサイトの情報を示すウィンドウ70内における入力枠の位置情報(例えば、ウィンドウ70の左上端を原点とした入力枠の左上端の位置情報)を取得する。次に、主制御部301は、画像出力装置20の画面内におけるウィンドウ70の位置情報(例えば、ウィンドウ70の左上端の位置の画面内での座標)を取得する。主制御部301は、取得された2つの情報に基づいて、画面内での入力枠の位置情報を取得する。
FIG. 11 is a diagram showing a specific example of a WEB site displayed in the WEB system. In this WEB site, an
主制御部301は、取得された位置情報(属性情報)に基づいて、出力パラメータの値を取得する。氏名を入力する入力枠701において誤りがあった場合、その時点で入力枠701が表示されている場所が出力源となるようにエラー音が出力される。住所を入力する入力枠702において誤りがあった場合、その時点で入力枠702が表示されている場所が出力源となるようにエラー音が出力される。職業を入力する入力枠703において誤りがあった場合、その時点で入力枠703が表示されている場所が出力源となるようにエラー音が出力される。
The
出力される音声の例として、入力枠に対応付けられたエラー音が挙げられたが、出力される音声はこの例に限定されない。例えば、広告の静止画像(例えば広告バナー)や広告の動画像に対応付けられた音声が出力されても良い。この場合、広告の画像が表示されている位置を出力源して音声が聞こえるように、広告の音声が出力される。例えば、チュートリアルに含まれるボタン等の画像に対応付けられた音声が出力されても良い。この場合、例えば次に操作されるべきボタンの画像が表示されている位置を出力源として音声が聞こえるように、ボタンに対応付けられた音声が出力される。 An example of the output sound is an error sound associated with the input frame, but the output sound is not limited to this example. For example, audio associated with a still image of an advertisement (for example, an advertisement banner) or a moving image of an advertisement may be output. In this case, the sound of the advertisement is output so that the sound can be heard from the output source of the position where the image of the advertisement is displayed. For example, sounds associated with images such as buttons included in the tutorial may be output. In this case, for example, the sound associated with the button is output so that the sound can be heard using the position where the image of the button to be operated next is displayed as the output source.
このように構成されたWEBシステムでは、WEBサイトに多数の情報や画像が表示されている場合であっても、ユーザに注意を向けさせるべき位置を出力源として音声が出力される。そのため、ユーザに注意を向けさせるべき位置への自然な視線誘導が可能となる。 In the WEB system configured as described above, even when a large amount of information and images are displayed on the WEB site, the sound is output using the position where the user should pay attention as an output source. Therefore, natural line-of-sight guidance to a position where attention should be directed to the user is possible.
<変形例>
出力される音声及び画像は、WEBの音声及び画面に限定されない。例えば、デジタルサイネージシステムに適用されることによって、広告に関する音声及び画像が出力されてもよい。例えば、WEBではなくアプリケーションとして作成されたチュートリアルで、上述したような音声及び画像の出力がなされてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
<Modification>
The output sound and image are not limited to WEB sound and screen. For example, by applying to a digital signage system, audio and images related to advertisements may be output. For example, the above-described audio and image output may be performed by a tutorial created as an application instead of WEB.
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1…音声出力システム, 10…音声出力装置, 20…画像出力装置, 30…制御装置, 301…主制御部, 302…音声制御部, 303…表示制御部
DESCRIPTION OF
Claims (8)
前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる音声制御部と、を備え、
前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、情報処理装置。 A main control unit that acquires an output parameter of sound according to a display position of an image related to the sound to be output;
A voice control unit that causes the voice output device to output the voice to be output according to the output parameter, and
The information processing apparatus, wherein the output parameter is a parameter for changing a position of an output source of the sound recognized by a user who listens to the sound.
前記画像は、前記発話者を示す画像である、請求項1に記載の情報処理装置。 The voice is a voice representing the utterance content of a speaker different from the user,
The information processing apparatus according to claim 1, wherein the image is an image showing the speaker.
前記音声制御部は、前記複数の音声を同時に出力させる、請求項1に記載の情報処理装置。 The main control unit acquires different output parameters for a plurality of sounds,
The information processing apparatus according to claim 1, wherein the voice control unit outputs the plurality of voices simultaneously.
前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる出力音声制御ステップと、を有し、
前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、
音声出力方法。 An acquisition step of acquiring an audio output parameter according to a display position of an image related to the output target audio;
An output audio control step for causing the audio output device to output the audio to be output according to the output parameter, and
The output parameter is a parameter for changing a position of an output source of the sound recognized by a user who listens to the sound.
Audio output method.
前記出力パラメータに応じて前記出力対象の音声を音声出力装置に出力させる音声制御部と、を備え、
前記出力パラメータは、前記音声を聴くユーザが認識する前記音声の出力源の位置を変化させるためのパラメータである、情報処理装置、としてコンピュータを機能させるためのコンピュータプログラム。 A main control unit that acquires an output parameter of sound according to a display position of an image related to the sound to be output;
A voice control unit that causes the voice output device to output the voice to be output according to the output parameter, and
The computer program for causing a computer to function as an information processing apparatus, wherein the output parameter is a parameter for changing a position of an output source of the sound recognized by a user who listens to the sound.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014460A JP6456163B2 (en) | 2015-01-28 | 2015-01-28 | Information processing apparatus, audio output method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014460A JP6456163B2 (en) | 2015-01-28 | 2015-01-28 | Information processing apparatus, audio output method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016139972A true JP2016139972A (en) | 2016-08-04 |
JP6456163B2 JP6456163B2 (en) | 2019-01-23 |
Family
ID=56559419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015014460A Active JP6456163B2 (en) | 2015-01-28 | 2015-01-28 | Information processing apparatus, audio output method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6456163B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176231A (en) * | 2018-02-19 | 2019-08-27 | 株式会社东芝 | Sound equipment output system, sound output method and storage medium |
KR20210022579A (en) * | 2018-06-25 | 2021-03-03 | 소니 주식회사 | Information processing device and information processing method, and information processing system |
GB2610605A (en) * | 2021-09-10 | 2023-03-15 | Nokia Technologies Oy | Apparatus, methods and computer programs for repositioning spatial audio streams |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07131770A (en) * | 1993-11-05 | 1995-05-19 | Hitachi Ltd | Integral controller for video image and audio signal |
JPH08125760A (en) * | 1994-10-28 | 1996-05-17 | Hitachi Ltd | Information processor |
JP2004208051A (en) * | 2002-12-25 | 2004-07-22 | Sony Corp | Communication system between multiple points, terminal equipment, and communication method between multiple points |
JP2007110582A (en) * | 2005-10-17 | 2007-04-26 | Sony Corp | Image display device and method, and program |
JP2013187841A (en) * | 2012-03-09 | 2013-09-19 | Casio Comput Co Ltd | Electronic apparatus, output control method, and program |
-
2015
- 2015-01-28 JP JP2015014460A patent/JP6456163B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07131770A (en) * | 1993-11-05 | 1995-05-19 | Hitachi Ltd | Integral controller for video image and audio signal |
JPH08125760A (en) * | 1994-10-28 | 1996-05-17 | Hitachi Ltd | Information processor |
JP2004208051A (en) * | 2002-12-25 | 2004-07-22 | Sony Corp | Communication system between multiple points, terminal equipment, and communication method between multiple points |
JP2007110582A (en) * | 2005-10-17 | 2007-04-26 | Sony Corp | Image display device and method, and program |
JP2013187841A (en) * | 2012-03-09 | 2013-09-19 | Casio Comput Co Ltd | Electronic apparatus, output control method, and program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176231A (en) * | 2018-02-19 | 2019-08-27 | 株式会社东芝 | Sound equipment output system, sound output method and storage medium |
KR20210022579A (en) * | 2018-06-25 | 2021-03-03 | 소니 주식회사 | Information processing device and information processing method, and information processing system |
KR102638946B1 (en) * | 2018-06-25 | 2024-02-22 | 소니그룹주식회사 | Information processing device and information processing method, and information processing system |
GB2610605A (en) * | 2021-09-10 | 2023-03-15 | Nokia Technologies Oy | Apparatus, methods and computer programs for repositioning spatial audio streams |
Also Published As
Publication number | Publication date |
---|---|
JP6456163B2 (en) | 2019-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107168518B (en) | Synchronization method and device for head-mounted display and head-mounted display | |
JP2013197838A (en) | Remote conference system and remote conference terminal | |
KR20150040322A (en) | Using an avatar in a videoconferencing system | |
JP6548045B2 (en) | Conference system, conference system control method, and program | |
US20160142451A1 (en) | Online meeting computer with improved noise management logic | |
JP2010074494A (en) | Conference support device | |
JP2017112545A (en) | Conference support system | |
JP6456163B2 (en) | Information processing apparatus, audio output method, and computer program | |
TW201543902A (en) | Muting a videoconference | |
JP2017123505A (en) | Content playback device, content playback method, and program | |
ES2692828T3 (en) | Assistance procedure in following up a conversation for a person with hearing problems | |
JP2018165871A (en) | Lesson system, lesson server, lesson support method, and lesson support program | |
JP7472091B2 (en) | Online call management device and online call management program | |
US20240064485A1 (en) | Systems and methods for sound-enhanced meeting platforms | |
WO2021090702A1 (en) | Information processing device, information processing method, and program | |
CN107113361B (en) | Central unit for a conference system | |
JP2018165978A (en) | Lesson system, lesson server, lesson support method, and lesson support program | |
JP6859807B2 (en) | Information processing equipment, information processing methods and information processing programs | |
JP6064209B2 (en) | Call system and call relay method | |
JP5282613B2 (en) | Video conference device, video conference system, video conference control method, and program for video conference device | |
JP2003339034A (en) | Network conference system, network conference method, and network conference program | |
JP7233901B2 (en) | Information presentation system, information presentation device, information presentation method, and computer program | |
JP7358919B2 (en) | Information processing device, information processing method, and program | |
CN111757159B (en) | Multimedia data synchronization method, device and equipment | |
US20210067630A1 (en) | Method and system for communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6456163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |