JP7293863B2 - Speech processing device, speech processing method and program - Google Patents

Speech processing device, speech processing method and program Download PDF

Info

Publication number
JP7293863B2
JP7293863B2 JP2019098186A JP2019098186A JP7293863B2 JP 7293863 B2 JP7293863 B2 JP 7293863B2 JP 2019098186 A JP2019098186 A JP 2019098186A JP 2019098186 A JP2019098186 A JP 2019098186A JP 7293863 B2 JP7293863 B2 JP 7293863B2
Authority
JP
Japan
Prior art keywords
voice
data
voice conversation
conversation device
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019098186A
Other languages
Japanese (ja)
Other versions
JP2020194021A (en
Inventor
孔司 ▲桜▼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019098186A priority Critical patent/JP7293863B2/en
Publication of JP2020194021A publication Critical patent/JP2020194021A/en
Application granted granted Critical
Publication of JP7293863B2 publication Critical patent/JP7293863B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、適切な音の特徴(例えば、音量)を有する音声により、複数拠点間のコミュニケーションを行う技術に関する。 TECHNICAL FIELD The present invention relates to a technique for communicating between multiple locations using voice having appropriate sound characteristics (eg, volume).

従来、複数地点間の音声コミュニケーションにおいて適切な音の特徴(例えば、音量)によるコミュニケーションを実現するための方法の例として、テレビ会議システムによるコミュニケーション方法が開示されている(例えば、特許文献1参照)。かかる文献には、主発言者が用いる端末を簡易に特定して、主発言者の発話音声を、他の会議参加者からの音声の音量レベルより相対的に大きく音声出力させる方法について記載されている。これにより、主発言者の発言内容を聞き取りやすくして、テレビ会議を円滑に進行させることができる。 Conventionally, a communication method using a video conference system has been disclosed as an example of a method for realizing communication using appropriate sound characteristics (for example, volume) in voice communication between multiple points (see, for example, Patent Document 1). . This document describes a method of simply identifying the terminal used by the main speaker and outputting the main speaker's voice at a volume level that is relatively higher than that of other conference participants. there is As a result, it is possible to make it easier to hear what the main speaker is saying, and to smoothly proceed with the teleconference.

特開2014-220649号公報JP 2014-220649 A

しかしながら、上記した構成のテレビ会議システムを、複数の人が集まる共有空間に配置し、共有空間内にいる参加者が遠隔地と即時で短時間の会議を開催することに用いる場合、遠隔地からの音声が共有空間に広く聞こえる場合がある。かかる場合には、共有空間内で会議に参加していない人にとっては遠隔地からの音声が耳障りに感じされ、当該共有空間内で会議に参加していない人は、自分自身の活動に集中することができなくなってしまう。 However, when the video conference system configured as described above is placed in a shared space where a plurality of people gather and the participants in the shared space hold a short-time conference immediately with a remote location, may be heard widely in the shared space. In such a case, people who are not participating in the meeting in the shared space will feel that the voice from the remote location is annoying, and the people who are not participating in the meeting in the shared space will concentrate on their own activities. I can't do it anymore.

そこで、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御することが可能な技術が提供されることが望まれる。 Therefore, it is possible to appropriately control both the ease with which participants in the conference can hear voices from a remote location and the ease with which others around the participants can concentrate on their own activities. Technology should be provided.

上記問題を解決するために、本発明のある観点によれば、第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御する制御部を備え、前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、音声処理装置が提供される。
In order to solve the above problem, according to one aspect of the present invention, information about the space in which the first voice conversation device is placed and the voice signal of the second user input to the second voice conversation device are provided. a control unit for controlling the sound features of the voice signal of the second user output from the first voice conversation device to the first user , based on the sound features of Spatial information is provided to the audio processing device, including concentration data around the first audio conversation device .

前記空間に関する情報は、前記集中度データに対応する目標の音の特徴に適合するように、前記第2の利用者の前記音声信号の音の特徴を制御してもよい。 The spatial information may control sound characteristics of the audio signal of the second user to match target sound characteristics corresponding to the concentration data.

前記集中度データに対応する目標の音の特徴および前記第2の利用者の音声信号の音の特徴それぞれは、音量、音のトーン、音のピッチまたは音の抑揚であってもよい。 Each of the target sound feature corresponding to the concentration data and the sound feature of the second user's voice signal may be volume, tone of sound, pitch of sound or inflection of sound.

前記音声処理装置は、前記第1の音声会話装置または前記第2の音声会話装置の内部に存在してもよい。 The voice processing device may exist within the first voice conversation device or the second voice conversation device.

前記音声処理装置は、前記第1の音声会話装置および前記第2の音声会話装置とは異なる装置の内部に存在してもよい。 The voice processing device may reside within a device different from the first voice conversation device and the second voice conversation device.

また、本発明の別の観点によれば、第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御することを含前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、音声処理方法が提供される。
According to another aspect of the present invention, information about the space in which the first voice conversation device is placed, and sound characteristics of the second user's voice signal input to the second voice conversation device. and controlling the sound characteristics of the audio signal of the second user output from the first audio conversation device to the first user based on the information about the space, the A voice processing method is provided that includes concentration data around a first voice conversation device .

また、本発明の別の観点によれば、コンピュータを、第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御する制御部を備え、前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、音声処理装置として機能させるためのプログラムが提供される。

According to another aspect of the present invention, the computer is configured to store information about the space in which the first voice conversation device is placed and the sound of the second user's voice signal input to the second voice conversation device. and a control unit for controlling the sound characteristics of the voice signal of the second user output from the first voice conversation device to the first user , based on the characteristics of the space A program is provided for functioning as a voice processing device , wherein the information includes concentration data around the first voice conversation device .

以上説明したように本発明によれば、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御することが可能な技術が提供される。 As described above, according to the present invention, it is possible to improve both the ease of hearing voices from remote locations by participants in the conference and the ease of concentration on their own activities by others around the participants. is provided.

本発明の第1の実施形態に係る音声会話システムの構成例を示す図である。1 is a diagram showing a configuration example of a voice conversation system according to a first embodiment of the present invention; FIG. 同実施形態に係る音量制御部の詳細構成を示す図である。It is a figure which shows the detailed structure of the volume control part which concerns on the same embodiment. 同実施形態に係る音声会話システムの動作を説明するための図である。It is a figure for demonstrating the operation|movement of the voice conversation system which concerns on the same embodiment. 本発明の第2の実施形態に係る音声会話システムの構成例を示す図である。FIG. 2 is a diagram showing a configuration example of a voice conversation system according to a second embodiment of the present invention; FIG. 同実施形態に係る集中度検出システムの構成例を示す図である。It is a figure which shows the structural example of the degree-of-concentration detection system which concerns on the same embodiment. 同実施形態に係る音量制御部の詳細構成を示す図である。It is a figure which shows the detailed structure of the volume control part which concerns on the same embodiment. 同実施形態に係る音声会話システムの動作を説明するための図である。It is a figure for demonstrating the operation|movement of the voice conversation system which concerns on the same embodiment. 本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成を示す図である。1 is a diagram showing a hardware configuration of a data processing device as an example of a voice conversation device according to this embodiment; FIG.

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present invention will be described in detail below with reference to the accompanying drawings. In the present specification and drawings, constituent elements having substantially the same functional configuration are denoted by the same reference numerals, thereby omitting redundant description.

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。 In addition, in this specification and drawings, a plurality of components having substantially the same functional configuration may be distinguished by attaching different numerals after the same reference numerals. However, when there is no particular need to distinguish between a plurality of constituent elements having substantially the same functional configuration, only the same reference numerals are used. Also, similar components in different embodiments may be distinguished by attaching different alphabets after the same reference numerals. However, when there is no particular need to distinguish between similar components of different embodiments, only the same reference numerals are used.

(1.第1の実施形態)
まず、本発明の第1の実施形態について説明する。
(1. First embodiment)
First, a first embodiment of the present invention will be described.

[1-1.構成の説明]
本発明の第1の実施形態に係る音声会話システムの構成例について説明する。
[1-1. Description of configuration]
A configuration example of the voice conversation system according to the first embodiment of the present invention will be described.

図1は、本発明の第1の実施形態に係る音声会話システムの構成例を示す図である。図1に示すように、本発明の第1の実施形態に係る音声会話システム1は、第1の音声会話装置10、第2の音声会話装置20および通話制御サーバー30を有する。第1の音声会話装置10、第2の音声会話装置20および通話制御サーバー30は、ネットワークに接続されており、ネットワークを介して相互に通信可能に構成されている。 FIG. 1 is a diagram showing a configuration example of a voice conversation system according to the first embodiment of the present invention. As shown in FIG. 1, a voice conversation system 1 according to the first embodiment of the present invention has a first voice conversation device 10, a second voice conversation device 20 and a call control server 30. FIG. The first voice conversation device 10, the second voice conversation device 20 and the call control server 30 are connected to a network and configured to communicate with each other via the network.

ここで、第1の音声会話装置10と第2の音声会話装置20とは、同一の機能を有している。そこで、第1の音声会話装置10および第2の音声会話装置20を代表して、第1の音声会話装置10の機能を主に説明する。第1の音声会話装置10は、音声入力部110、音声送信部120、音量検出部130、通話制御部140、音声受信部150、音量制御部160および音声出力部170を有する。 Here, the first voice conversation device 10 and the second voice conversation device 20 have the same function. Therefore, as a representative of first voice conversation device 10 and second voice conversation device 20, functions of first voice conversation device 10 will be mainly described. First voice conversation device 10 has voice input section 110 , voice transmission section 120 , volume detection section 130 , call control section 140 , voice reception section 150 , volume control section 160 and voice output section 170 .

音声入力部110は、マイクロフォンによって構成され、利用者によって発せられた音声信号(音響振動)を入力する。また、音声入力部110は、利用者によって発せられた音声信号に基づいて、音声送信部120に音声入力データを出力する。また、音声入力部110は、利用者によって発せられた音声信号に基づいて、音量検出部130に音声入力データを出力する。 The voice input unit 110 is configured by a microphone and inputs voice signals (acoustic vibrations) emitted by the user. Also, the voice input unit 110 outputs voice input data to the voice transmission unit 120 based on voice signals uttered by the user. Also, the voice input unit 110 outputs voice input data to the volume detection unit 130 based on the voice signal uttered by the user.

音声送信部120は、通信インタフェースによって構成され、音声入力部110から音声入力データを入力する。また、音声送信部120は、通話制御部140から送信制御データを入力する。また、音声送信部120は、音声入力データと送信制御データとに基づいて、他の音声会話装置(第2の音声会話装置20)の音声受信部150に音声ストリームデータを出力する。 The voice transmission unit 120 is configured by a communication interface and receives voice input data from the voice input unit 110 . Also, the voice transmission unit 120 receives transmission control data from the call control unit 140 . Also, the voice transmission unit 120 outputs voice stream data to the voice reception unit 150 of another voice conversation device (second voice conversation device 20) based on the voice input data and the transmission control data.

音量検出部130は、プロセッサによって構成され、音量検出部130は、音声入力部110から音声入力データを入力する。また、音量検出部130は、音声入力データに基づいて、音量制御部160に音量データを出力する。 Volume detection unit 130 is configured by a processor, and volume detection unit 130 inputs voice input data from voice input unit 110 . Also, the volume detection unit 130 outputs volume data to the volume control unit 160 based on the voice input data.

通話制御部140は、プロセッサおよび通信インタフェースによって構成され、通信インタフェースによって通話制御サーバー30との間で第1の通話制御データを送受信する。また、通話制御部140は、音声送信部120に送信制御データを出力し、音声受信部150に受信制御データを出力する。また、後にも説明するように、通話制御部140は、操作部および表示部を含んでいる。 The call control unit 140 includes a processor and a communication interface, and transmits and receives first call control data to and from the call control server 30 through the communication interface. Also, the call control unit 140 outputs transmission control data to the voice transmission unit 120 and outputs reception control data to the voice reception unit 150 . Also, as will be described later, the call control section 140 includes an operation section and a display section.

音声受信部150は、通信インタフェースによって構成され、他の音声会話装置(第2の音声会話装置20)の音声送信部120から第2の音声ストリームデータを入力する。また、音声受信部150は、通話制御部140から受信制御データを入力する。また、音声受信部150は、第2の音声ストリームデータと受信制御データとに基づいて、音声復号データを生成し、音声復号データを音量制御部160に出力する。 Voice receiving unit 150 is configured by a communication interface, and receives second voice stream data from voice transmitting unit 120 of another voice conversation device (second voice conversation device 20). Also, the voice receiving unit 150 receives reception control data from the call control unit 140 . Also, audio receiving section 150 generates decoded audio data based on the second audio stream data and reception control data, and outputs the decoded audio data to volume control section 160 .

音量制御部160は、プロセッサによって構成され、音量制御部160は、音量検出部130から音量データを入力する。また、音量制御部160は、音声受信部150から音声復号データを入力する。また、音量制御部160は、音量データと音声復号データとに基づいて、音声出力部170に音声出力データを出力する。 Volume control unit 160 is configured by a processor, and volume control unit 160 receives volume data from volume detection unit 130 . Volume control section 160 also receives decoded audio data from audio receiving section 150 . Volume control section 160 also outputs audio output data to audio output section 170 based on the volume data and the decoded audio data.

音声出力部170は、スピーカーによって構成され、音量制御部160から音声出力データを入力する。また、音声出力部170は、音声出力データに基づいて、利用者に音声信号(音響振動)を出力する。 Audio output unit 170 is configured by a speaker and receives audio output data from volume control unit 160 . Also, the audio output unit 170 outputs an audio signal (acoustic vibration) to the user based on the audio output data.

なお、ここでは、音量検出部130、通話制御部140および音量制御部160が、同一のプロセッサによって構成される場合を想定するが、異なるプロセッサによって構成されてもよい。これらのブロックの機能は、プロセッサによってプログラムが実行されることによって実現される。かかるプログラムは、記録媒体に記録され、記録媒体からプロセッサによって読み取られて実行され得る。あるいは、これらのブロックは、専用のハードウェアによって構成されてもよい。 Here, it is assumed that the volume detection unit 130, the call control unit 140, and the volume control unit 160 are configured by the same processor, but they may be configured by different processors. The functions of these blocks are realized by executing programs by a processor. Such a program can be recorded on a recording medium, read from the recording medium by a processor, and executed. Alternatively, these blocks may be configured by dedicated hardware.

通話制御サーバー30は、コンピュータによって構成され、音声会話装置との間で個別の通話制御データを入出力する。例えば、通話制御サーバー30は、第1の音声会話装置10との間で第1の送受信制御データを入出力する。一方、通話制御サーバー30は、第2の音声会話装置20との間で第2の送受信制御データを入出力する。 The call control server 30 is composed of a computer and inputs and outputs individual call control data to and from the voice conversation device. For example, the call control server 30 inputs/outputs first transmission/reception control data to/from the first voice conversation device 10 . On the other hand, the call control server 30 inputs/outputs second transmission/reception control data to/from the second voice conversation device 20 .

図2は、音量制御部160の詳細構成を示す図である。図2に示すように、音量制御部160は、ゲイン計算部161および音声データ変換部162を備える。 FIG. 2 is a diagram showing the detailed configuration of the volume control section 160. As shown in FIG. As shown in FIG. 2 , volume control section 160 includes gain calculation section 161 and audio data conversion section 162 .

ゲイン計算部161は、音量検出部130から音量データを入力する。また、ゲイン計算部161は、音声受信部150から音声復号データを入力する。また、ゲイン計算部161は、音量データと音声復号データとに基づいて、ゲインデータを音声データ変換部162に出力する。 Gain calculator 161 receives volume data from volume detector 130 . Gain calculator 161 also receives decoded speech data from speech receiver 150 . Gain calculating section 161 also outputs gain data to audio data converting section 162 based on the volume data and the decoded audio data.

音声データ変換部162は、ゲイン計算部161からゲインデータを入力する。また、音声データ変換部162は、音声受信部150から音声復号データを入力する。また、音声データ変換部162は、ゲインデータと音声復号データとに基づいて、音声出力データを音声出力部170に出力する。 The audio data converter 162 receives gain data from the gain calculator 161 . Also, the audio data conversion unit 162 receives the decoded audio data from the audio reception unit 150 . Also, audio data conversion section 162 outputs audio output data to audio output section 170 based on the gain data and the decoded audio data.

[1-2.動作の説明]
本発明の第1の実施形態に係る音声会話システム1の動作例について説明する。
[1-2. Description of operation]
An operation example of the voice conversation system 1 according to the first embodiment of the present invention will be described.

図3は、本発明の第1の実施形態に係る音声会話システム1の動作を説明するための図である。以下では、図1~図3を参照しながら、第1の音声会話装置10と第2の音声会話装置20との間の音声コミュニケーションの動作を、第1の音声会話装置10側の視点で、順を追って説明する。なお、本発明の実施形態においては、音声コミュニケーションに同期したコミュニケーションメディアとして、映像コミュニケーションも音声コミュニケーションと同時に行われる場合を想定する。しかし、映像コミュニケーションの動作の詳細な説明は省略する。 FIG. 3 is a diagram for explaining the operation of the voice conversation system 1 according to the first embodiment of the present invention. 1 to 3, voice communication operations between the first voice conversation device 10 and the second voice conversation device 20 will be described below from the viewpoint of the first voice conversation device 10. I will explain step by step. In the embodiment of the present invention, it is assumed that video communication is performed simultaneously with voice communication as communication media synchronized with voice communication. However, a detailed description of the operation of video communication is omitted.

(1)音声コミュニケーションの開始
上記したように、第1の音声会話装置10の通話制御部140は、利用者が操作可能な操作部および表示部(画面)を含んでいる。利用者は、画面を見ながら、音声コミュニケーションの相手となる第2の音声会話装置20、音声コミュニケーションの開始、音声コミュニケーションの切断それぞれの指定を操作部に対して行う。
(1) Starting Voice Communication As described above, the call control unit 140 of the first voice conversation device 10 includes an operation unit and a display unit (screen) that can be operated by the user. While looking at the screen, the user designates the second voice conversation device 20 to be the other party of voice communication, the start of voice communication, and the disconnection of voice communication through the operation unit.

例えば、第1の音声会話装置10の利用者は、コミュニケーション開始の際に、第1の音声会話装置10の通話制御部140に対して、音声コミュニケーションの相手として第2の音声会話装置20の指定を行い、音声コミュニケーション開始の指定を行う。第1の音声会話装置10の通話制御部140は、これらの指定情報を第1の通話制御データとしてネットワークを介して通話制御サーバー30に出力する。通話制御データの形式としては、SIP(Session Initiation Protocol)などといった公知のコミュニケーションプロトコルが利用されてよい。 For example, when starting communication, the user of the first voice conversation device 10 specifies the second voice conversation device 20 as the other party of voice communication to the call control unit 140 of the first voice conversation device 10. to specify the start of voice communication. Call control unit 140 of first voice conversation device 10 outputs these designation information as first call control data to call control server 30 via the network. A known communication protocol such as SIP (Session Initiation Protocol) may be used as the format of the call control data.

通話制御サーバー30には、あらかじめ第1の音声会話装置10および第2の音声会話装置20を制御するための制御情報が登録されている。そこで、通話制御サーバー30は、第1の通話制御データを入力すると、制御情報に基づいて、第1の音声会話装置10の通話制御部140と第2の音声会話装置20の通話制御部140との間の各種データ(第1の通話制御データおよび第2の通話制御データ)のやり取りを仲介する。 Control information for controlling the first voice conversation device 10 and the second voice conversation device 20 is registered in the call control server 30 in advance. Therefore, when the call control server 30 receives the first call control data, the call control unit 140 of the first voice conversation device 10 and the call control unit 140 of the second voice conversation device 20 are controlled based on the control information. Mediates the exchange of various data (first call control data and second call control data) between.

そして、最後に、通話制御サーバー30は、第1の音声会話装置10の音声送信部120と第2の音声会話装置20の音声送信部120とに、処理の開始を指示する送信制御データを出力し、第1の音声会話装置10の音声受信部150と第2の音声会話装置20の音声受信部150とに、処理の開始を指示する受信制御データを出力する。これによって、第1の音声会話装置10と第2の音声会話装置20との間での音声コミュニケーションが可能な状態に至る。 Finally, the call control server 30 outputs transmission control data instructing the start of processing to the voice transmission unit 120 of the first voice conversation device 10 and the voice transmission unit 120 of the second voice conversation device 20. Then, it outputs reception control data instructing the start of processing to the voice receiving unit 150 of the first voice conversation device 10 and the voice receiving unit 150 of the second voice conversation device 20 . As a result, voice communication between the first voice conversation device 10 and the second voice conversation device 20 becomes possible.

(2)第1の音声会話装置からの音声ストリームデータの送信
続いて、第1の音声会話装置10の利用者が発言すると、第1の音声会話装置10の音声入力部110が、第1の音声会話装置10の利用者の発言に相当する音声信号(音響振動)をマイクロフォンによって入力する。第1の音声会話装置10の音声入力部110は、入力した音声信号(音響振動)をアナログデータからデジタルデータに変換し、デジタルデータを音声入力データとして音声送信部120および音量検出部130それぞれに出力する。
(2) Transmission of voice stream data from the first voice conversation device Subsequently, when the user of the first voice conversation device 10 speaks, the voice input unit 110 of the first voice conversation device 10 outputs the first A voice signal (acoustic vibration) corresponding to an utterance of the user of the voice conversation device 10 is input by a microphone. The voice input unit 110 of the first voice conversation device 10 converts the input voice signal (acoustic vibration) from analog data to digital data, and sends the digital data to the voice transmission unit 120 and the volume detection unit 130 as voice input data. Output.

続いて、第1の音声会話装置10の音声送信部120は、音声入力データを入力すると、音声入力データを通信に適した形式に変換して第1の音声ストリームデータを生成する。そして、第1の音声会話装置10の音声送信部120は、生成した第1の音声ストリームデータを第2の音声会話装置20の音声受信部150に送信する。なお、上記した通信に適した形式としては、公知の形式、例えば、IETF(Internet Engineerinig Task Force)で標準化された形式が用いられ得る。 Subsequently, when voice input data is input, voice transmission unit 120 of first voice conversation device 10 converts the voice input data into a format suitable for communication to generate first voice stream data. Then, voice transmission section 120 of first voice conversation device 10 transmits the generated first voice stream data to voice reception section 150 of second voice conversation device 20 . As a format suitable for the communication described above, a known format, for example, a format standardized by the IETF (Internet Engineering Task Force) can be used.

(3)第2の音声会話装置からの音声ストリームデータの受信
第2の音声会話装置20の利用者が発言すると、「(1)音声コミュニケーションの開始」と同様な動作を経て、第1の音声会話装置10の音声受信部150は、第2の音声ストリームデータを受信する。第1の音声会話装置10の音声受信部150は、第2の音声ストリームデータを音声信号に相当するデジタルデータに復号し、音声復号データとして音量制御部160に出力する。
(3) Receipt of voice stream data from the second voice conversation device When the user of the second voice conversation device 20 speaks, the same operation as "(1) Start of voice communication" is performed, followed by the first voice The audio receiver 150 of the conversation device 10 receives the second audio stream data. The audio receiving unit 150 of the first audio conversation device 10 decodes the second audio stream data into digital data corresponding to an audio signal, and outputs the digital data to the volume control unit 160 as decoded audio data.

(4)第2の音声会話装置から受信した音声の音量制御
一方、第1の音声会話装置10の音量検出部130は、音声入力データを入力すると、音量入力データに基づいて所定期間(例えば、10秒間)毎に音量を計算し、音量データとして音量制御部160に出力する。音量の計算方法としては、公知の方法が用いられてよいが、本発明の実施形態では、音声入力データからスペクトルエントロピー法を用いて音声区間検出を行い、検出した音声区間の音声入力データのRMS(Root Mean Square)を計算し、計算したRMSを音量データとして使用する場合を想定する。
(4) Volume control of voice received from the second voice conversation device The volume is calculated every 10 seconds) and output to the volume control unit 160 as volume data. A known method may be used as a volume calculation method. In the embodiment of the present invention, speech sections are detected from speech input data using the spectral entropy method, and the RMS of the detected speech section of the speech input data is Assume that (Root Mean Square) is calculated and the calculated RMS is used as volume data.

第1の音声会話装置10の音量制御部160は、音量検出部130から入力された音量データに基づいて、音声受信部150から入力された音声復号データの音量を調整し、音量調整後の音声復号データを音声出力データとして音声出力部170に出力する。 The volume control unit 160 of the first voice conversation device 10 adjusts the volume of the decoded voice data input from the voice receiving unit 150 based on the volume data input from the volume detection unit 130, and adjusts the volume of the voice after the volume adjustment. The decoded data is output to the audio output section 170 as audio output data.

ここで、図2を参照しながら、音声復号データの音量調整の動作について詳細に説明する。音量制御部160のゲイン計算部161は、音声復号データを入力すると、音量検出部130と同様の方法によって音声復号データの音量を計算する。そして、ゲイン計算部161は、音量検出部130から入力された音声入力データの音量と、音声復号データの音量とを比較し、音声復号データの音量を音声入力データの音量に相当する音量に変換するための、レベル変換係数(ゲインデータ)を算出する。そして、ゲイン計算部161は、算出したレベル変換係数(ゲインデータ)を音声データ変換部162に出力する。 Here, the operation of adjusting the volume of decoded audio data will be described in detail with reference to FIG. Gain calculation section 161 of volume control section 160 receives the decoded audio data and calculates the volume of the decoded audio data in the same manner as volume detection section 130 . Then, the gain calculator 161 compares the volume of the audio input data input from the volume detector 130 with the volume of the decoded audio data, and converts the volume of the decoded audio data into a volume corresponding to the volume of the audio input data. A level conversion coefficient (gain data) is calculated. Gain calculator 161 then outputs the calculated level conversion coefficient (gain data) to audio data converter 162 .

例えば、音声入力データ(例えば、16ビット)の音量が2000、音声復号データの音量が8000であったとすれば、ゲインデータは、2000/8000=0.25となる。 For example, if the volume of audio input data (for example, 16 bits) is 2000 and the volume of decoded audio data is 8000, the gain data is 2000/8000=0.25.

音声データ変換部162は、音声復号データにゲインデータを乗算して、音声出力データを計算する。これによって、音声出力データの音量は音声入力データの音量と一致することになる。 The audio data converter 162 multiplies the decoded audio data by the gain data to calculate audio output data. As a result, the volume of the audio output data matches the volume of the audio input data.

図1に戻って説明を続ける。第1の音声会話装置10の音声出力部170は、音量制御部160から入力された音声出力データをアナログデータに変換し、アナログデータをスピーカーから音声信号(音響振動)として出力する。これによって、第1の音声会話装置10の利用者は、第2の音声会話装置20に入力された音声信号を聴くことができる。なお、第2の音声会話装置20も第1の音声会話装置10の動作と同様の動作を行うため、第2の音声会話装置20の利用者も、第1の音声会話装置10に入力された音声信号を聴くことができる。 Returning to FIG. 1, the description continues. The audio output unit 170 of the first voice conversation device 10 converts the audio output data input from the volume control unit 160 into analog data, and outputs the analog data from the speaker as an audio signal (acoustic vibration). Thereby, the user of the first voice conversation device 10 can listen to the voice signal input to the second voice conversation device 20 . Since the second voice conversation device 20 also operates in the same manner as the first voice conversation device 10, the user of the second voice conversation device 20 is also input to the first voice conversation device 10. Able to hear audio signals.

図3は、音声信号の音量の変化について説明するための図である。ここでは、第1の音声会話装置10がある第1の空間P1に利用者Aが存在し、第2の音声会話装置20がある第2の空間P2に利用者Bが存在する場合を想定する。このとき、図3に示すように、利用者Aが小さい声で会話を行うと、第1の音声会話装置10から第2の音声会話装置20に小さい声の状態で音声ストリームデータが伝送される。しかし、利用者Bが大きい声で会話を行っているために、利用者Bの前では、利用者Aの声は大きい音に変換されて再生される。一方、利用者Aの前では、利用者Bの声は小さい声に変換されて再生される。 FIG. 3 is a diagram for explaining changes in volume of an audio signal. Here, it is assumed that user A exists in first space P1 where first voice conversation device 10 exists, and user B exists in second space P2 where second voice conversation device 20 exists. . At this time, as shown in FIG. 3, when the user A talks in a soft voice, the voice stream data is transmitted from the first voice conversation device 10 to the second voice conversation device 20 in a soft voice. . However, since the user B is talking in a loud voice, the voice of the user A is converted into a loud sound and reproduced in front of the user B. On the other hand, in front of user A, user B's voice is converted into a soft voice and reproduced.

(5)音声コミュニケーションの切断
本発明の実施形態においては、第1の音声会話装置10と第2の音声会話装置20との間の音声コミュニケーションが常時接続された状態で運用されることを想定する。しかし、例えば、第1の音声会話装置10の利用者は、音声コミュニケーションを切断する場合には、第1の音声会話装置10の通話制御部140の操作画面に対して、音声コミュニケーションの切断を指定すればよい。このとき、第1の音声会話装置10の通話制御部140は、音声コミュニケーションの切断に必要な情報を第1の通話制御データとして生成し、ネットワークを介して通話制御サーバー30に出力する。
(5) Disconnection of voice communication In the embodiment of the present invention, it is assumed that voice communication between the first voice conversation device 10 and the second voice conversation device 20 is always connected and operated. . However, for example, when the user of the first voice conversation device 10 disconnects the voice communication, the user specifies disconnection of the voice communication on the operation screen of the call control unit 140 of the first voice conversation device 10. do it. At this time, the call control unit 140 of the first voice conversation device 10 generates information necessary for disconnecting the voice communication as first call control data, and outputs the first call control data to the call control server 30 via the network.

通話制御サーバー30は、第1の音声会話装置10から第1の通話制御データが入力されると、第1の音声会話装置10および第2の音声会話装置20それぞれの音声送信部120および音声受信部150に、処理の切断を指示する送受信制御データを出力し、第1の音声会話装置10と第2の音声会話装置20の通話制御部140の間で、各種データ(第1の通話制御データおよび第2の通話制御データ)のやり取りを仲介し、第1の音声会話装置10および第2の音声会話装置20の間での音声コミュニケーションを切断する。 When the first call control data is input from the first voice conversation device 10, the call control server 30 controls the voice transmission unit 120 and the voice reception unit of each of the first voice conversation device 10 and the second voice conversation device 20. Transmission/reception control data instructing disconnection of processing is output to the unit 150, and various data (first call control data and second call control data), and disconnects the voice communication between the first voice conversation device 10 and the second voice conversation device 20 .

[1-3.効果の説明]
以上のように、本発明の第1の実施形態によれば、第1の音声会話装置10に入力される音声の音量に基づいて、第2の音声会話装置20に入力される音声の音量が調整され、音量調整後の音声が第1の音声会話装置10から出力される。一例として、他者が集中して活動を行っている空間においては、音声会話装置の利用者は当該他者の集中を妨げないよう小さい声で発言する場合が想定されるが、かかる場合には、遠隔地に存在する相手の発言も当該空間において小さい音量で聞こえるので、他者は会話音声を耳障りに感じにくく、自分自身の活動に集中できるという効果がある。
[1-3. Explanation of effect]
As described above, according to the first embodiment of the present invention, the volume of the voice input to the second voice conversation device 20 is adjusted based on the volume of the voice input to the first voice conversation device 10. The adjusted voice is output from the first voice conversation device 10 after the volume adjustment. As an example, in a space where other people are concentrating on activities, it is assumed that the user of the voice conversation device may speak in a low voice so as not to disturb the other person's concentration. Since the voice of the remote party can also be heard at a low volume in the space, there is an effect that the other party does not find the conversation sound offensive and can concentrate on his or her own activities.

以上、本発明の第1の実施形態について説明した。 The first embodiment of the present invention has been described above.

(2.第2の実施形態)
続いて、本発明の第2の実施形態について説明する。
(2. Second embodiment)
Next, a second embodiment of the invention will be described.

[2-1.構成の説明]
本発明の第2の実施形態に係る音声会話システムの構成例について説明する。
[2-1. Description of configuration]
A configuration example of a voice conversation system according to a second embodiment of the present invention will be described.

図4は、本発明の第2の実施形態に係る音声会話システムの構成例を示す図である。図4に示すように、本発明の第2の実施形態に係る音声会話システム2は、第1の音声会話装置12、第2の音声会話装置22、通話制御サーバー30および集中度検出システム40を有する。第1の音声会話装置12、第2の音声会話装置22、通話制御サーバー30および集中度検出システム40は、ネットワークに接続されており、ネットワークを介して相互に通信可能に構成されている。 FIG. 4 is a diagram showing a configuration example of a voice conversation system according to the second embodiment of the present invention. As shown in FIG. 4, a voice conversation system 2 according to the second embodiment of the present invention includes a first voice conversation device 12, a second voice conversation device 22, a call control server 30, and a concentration level detection system 40. have. The first voice conversation device 12, the second voice conversation device 22, the call control server 30, and the concentration level detection system 40 are connected to a network and configured to communicate with each other via the network.

ここで、第1の音声会話装置12と第2の音声会話装置22とは、同一の機能を有している。そこで、第1の音声会話装置12および第2の音声会話装置22を代表して、第1の音声会話装置12の機能を主に説明する。本発明の第2の実施形態に係る第1の音声会話装置12は、本発明の第1の実施形態に係る第1の音声会話装置10と比較して、音量制御部160の代わりに音量制御部180を有する点、が異なる。さらに、本発明の第2の実施形態に係る音声会話システム2は、本発明の第1の実施形態に係る音声会話システム1と比較して、音量検出部130の代わりに集中度検出システム40を有する点がさらに異なる。 Here, the first voice conversation device 12 and the second voice conversation device 22 have the same function. Therefore, as a representative of the first voice conversation device 12 and the second voice conversation device 22, the functions of the first voice conversation device 12 will be mainly described. Compared with the first voice conversation device 10 according to the first embodiment of the present invention, the first voice conversation device 12 according to the second embodiment of the present invention has volume control instead of the volume control unit 160. The difference is that a portion 180 is provided. Furthermore, the voice conversation system 2 according to the second embodiment of the present invention differs from the voice conversation system 1 according to the first embodiment of the present invention in that the concentration detection system 40 is used instead of the volume detection unit 130. It is further different in that it has

したがって、以下では、音量制御部180および集中度検出システム40について主に説明する。一方、本発明の第1の実施形態に係る音声会話システム1と本発明の第2の実施形態に係る音声会話システム2とにおいて、同一の構成についての詳細な説明は省略する。 Therefore, the volume control unit 180 and the concentration level detection system 40 will be mainly described below. On the other hand, in the voice conversation system 1 according to the first embodiment of the present invention and the voice conversation system 2 according to the second embodiment of the present invention, detailed description of the same configuration will be omitted.

音声入力部110は、利用者によって発せられた音声信号に基づいて、音声送信部120に音声入力データを出力する。また、本発明の第1の実施形態では、音声入力部110は、利用者によって発せられた音声信号に基づいて、音量検出部130に音声入力データを出力する。しかし、本発明の第2の実施形態では、音声入力部110は、利用者によって発せられた音声信号に基づいて、音量検出部130に音声入力データを出力しなくてよい。 The voice input unit 110 outputs voice input data to the voice transmission unit 120 based on voice signals uttered by the user. Moreover, in the first embodiment of the present invention, the voice input unit 110 outputs voice input data to the volume detection unit 130 based on voice signals uttered by the user. However, in the second embodiment of the present invention, the voice input section 110 does not have to output voice input data to the volume detection section 130 based on the voice signal uttered by the user.

音量制御部180は、集中度検出システム40から第1の集中度データを入力する。また、音量制御部180は、音声受信部150から音声復号データを入力する。また、音量制御部160は、第1の集中度データと音声復号データとにも基づいて、音声出力部170に音声出力データを出力する。 The volume control unit 180 receives the first degree of concentration data from the degree of concentration detection system 40 . Volume control section 180 also receives decoded audio data from audio receiving section 150 . Volume control section 160 also outputs audio output data to audio output section 170 based on the first degree of concentration data and the decoded audio data.

集中度検出システム40は、第1の音声会話装置10および第2の音声会話装置20それぞれの音量制御部180に対して、個別の集中度データを出力する。以下、集中度検出システム40について詳細に説明する。 Concentration level detection system 40 outputs individual concentration level data to volume control units 180 of first voice conversation device 10 and second voice conversation device 20, respectively. The concentration detection system 40 will be described in detail below.

図5は、集中度検出システム40の構成例を示す図である。図5に示すように、集中度検出システム40は、複数のタグ(タグ41A~41E)、センサ端末42、集中度計算装置43、および、会話者特定装置44を有する。タグ41Aは、利用者Aに取り付けられており(あるいは、利用者Aによって持ち運ばれており)、タグ41B~41Eは、他者B~Eにそれぞれ取り付けられている(あるいは、他者B~Eによってそれぞれ持ち運ばれている)。 FIG. 5 is a diagram showing a configuration example of the concentration detection system 40. As shown in FIG. As shown in FIG. 5, the concentration detection system 40 has a plurality of tags (tags 41A to 41E), a sensor terminal 42, a concentration calculation device 43, and a speaker identification device . The tag 41A is attached to the user A (or carried by the user A), and the tags 41B to 41E are attached to the others B to E, respectively (or E).

各タグは、センサ端末42に集中ステータスを出力し、会話者特定装置44に無線ビーコン信号を出力する。ここでは、会話者特定装置44を基準として所定の距離以内に存在するタグから送信された無線ビーコン信号しか会話者特定装置44において受信できないように構成されている場合を想定する。また、ここでは、集中ステータスと無線ビーコン信号とが、別の無線信号によって送信される場合を想定する。しかし、集中ステータスと無線ビーコン信号とは、共通の無線信号によって送信されてもよい。共通の無線信号が利用される場合、共通の無線信号の送信周期は、集中ステータスと無線ビーコン信号とのより短い送信周期に合わせられればよい。 Each tag outputs a concentration status to the sensor terminal 42 and outputs a radio beacon signal to the speaker identification device 44 . Here, it is assumed that the speaker identification device 44 is configured so that it can only receive radio beacon signals transmitted from tags existing within a predetermined distance from the speaker identification device 44 . Also, here, it is assumed that the concentration status and the radio beacon signal are transmitted by different radio signals. However, the concentration status and radio beacon signals may be transmitted by a common radio signal. When a common radio signal is used, the transmission period of the common radio signal may be matched with the shorter transmission period of the concentration status and the radio beacon signal.

センサ端末42は、複数のタグ(タグ41A~41E)それぞれから集中ステータスを入力する。そして、センサ端末42は、複数のタグ(タグ41A~41E)それぞれから入力された集中ステータスを、集中度計算装置43に出力する。 The sensor terminal 42 inputs concentration status from each of a plurality of tags (tags 41A to 41E). Then, the sensor terminal 42 outputs the concentration status input from each of the plurality of tags (tags 41A to 41E) to the degree-of-concentration calculation device 43 .

集中度計算装置43は、センサ端末42から複数のタグ(タグ41A~41E)それぞれに対応した集中ステータスを入力する。また、集中度計算装置43は、会話者特定装置44から会話者特定データを入力する。また、集中度計算装置43は、集中ステータスと会話者特定データとに基づいて、第1の音声会話装置10に集中度データを出力する。 The concentration degree calculation device 43 receives from the sensor terminal 42 the concentration status corresponding to each of the plurality of tags (tags 41A to 41E). In addition, the concentration degree calculation device 43 inputs the speaker identification data from the speaker identification device 44 . Further, the degree-of-concentration calculation device 43 outputs degree-of-concentration data to the first voice conversation device 10 based on the concentration status and the speaker identification data.

会話者特定装置44は、第1の音声会話装置10の近傍に設置されており、会話者特定装置44から所定の距離以内のタグから無線ビーコン信号を入力する。会話者特定装置44は、入力した無線ビーコン信号に基づいて、会話者を特定して集中度計算装置43に会話者特定データを出力する。 The speaker identification device 44 is installed in the vicinity of the first voice conversation device 10 and receives radio beacon signals from tags within a predetermined distance from the speaker identification device 44 . The speaker identification device 44 identifies the speaker based on the input radio beacon signal and outputs speaker identification data to the concentration degree calculation device 43 .

図6は、音量制御部180の詳細構成を示す図である。図8に示すように、音量制御部180は、ゲイン計算部181および音声データ変換部182を備える。 FIG. 6 is a diagram showing the detailed configuration of the volume control section 180. As shown in FIG. As shown in FIG. 8, volume control section 180 includes gain calculation section 181 and audio data conversion section 182 .

ゲイン計算部181は、集中度検出システム40から集中度データを入力する。また、ゲイン計算部181は、音声受信部150から音声復号データを入力する。また、ゲイン計算部181は、集中度データと音声復号データとに基づいて、ゲインデータを音声データ変換部182に出力する。 The gain calculator 181 receives concentration data from the concentration detection system 40 . Gain calculator 181 also receives decoded speech data from speech receiver 150 . Gain calculation section 181 also outputs gain data to audio data conversion section 182 based on the degree of concentration data and the decoded audio data.

音声データ変換部182は、ゲイン計算部181からゲインデータを入力する。また、音声データ変換部182は、音声受信部150から音声復号データを入力する。また、音声データ変換部182は、ゲインデータと音声復号データとに基づいて、音声出力データを音声出力部170に出力する。 The audio data converter 182 receives gain data from the gain calculator 181 . Also, the audio data conversion unit 182 receives the decoded audio data from the audio reception unit 150 . Also, audio data conversion section 182 outputs audio output data to audio output section 170 based on the gain data and the decoded audio data.

[2-2.動作の説明]
本発明の第2の実施形態に係る音声会話システム2の動作例について説明する。
[2-2. Description of operation]
An operation example of the voice conversation system 2 according to the second embodiment of the present invention will be described.

図7は、本発明の第2の実施形態に係る音声会話システム2の動作を説明するための図である。以下では、図4~図7を参照しながら、第1の音声会話装置12と第2の音声会話装置22との間の音声コミュニケーションの動作を、第1の音声会話装置12側の視点で、順を追って説明する。なお、本発明の第2の実施形態に係る音声会話システム2の動作のうち、「(1)音声コミュニケーションの開始」「(2)第1の音声会話装置からの音声ストリームデータの送信」「(3)第2の音声会話装置からの音声ストリームデータの受信」「(5)音声コミュニケーションの切断」は、本発明の第1の実施形態に係る音声会話システム2の動作と共通するため、説明を省略する。 FIG. 7 is a diagram for explaining the operation of the voice conversation system 2 according to the second embodiment of the invention. 4 to 7, voice communication operations between the first voice conversation device 12 and the second voice conversation device 22 will be described below from the viewpoint of the first voice conversation device 12. I will explain step by step. Among the operations of the voice conversation system 2 according to the second embodiment of the present invention, "(1) start of voice communication", "(2) transmission of voice stream data from the first voice conversation device", and "( 3) Receipt of voice stream data from the second voice conversation device" and "(5) Disconnection of voice communication" are common to the operation of the voice conversation system 2 according to the first embodiment of the present invention. omitted.

(4)第2の音声会話装置から受信した音声の音量制御
集中度検出システム40は、所定期間(例えば、1分)毎に第1の集中度データを計算し、第1の音声会話装置10の音量制御部180に出力する。以下、集中度検出システム40の動作について、図5を参照しながら詳細に説明する。
(4) Volume Control of Voice Received from Second Voice Conversation Device Concentration level detection system 40 calculates first concentration level data for each predetermined period (for example, one minute), output to the volume control unit 180 of the . The operation of the concentration detection system 40 will be described in detail below with reference to FIG.

図5に示した例では、第1の音声会話装置12が設置された空間と同一の空間に、利用者Aおよび他者B~Eの5人が存在しており、そのうち利用者Aが第1の音声会話装置12を利用しており、他者B~Eが空間内で他の活動を行っている場合を想定する。利用者Aおよび他者B~Eは、タグ41A~41Eをそれぞれ身に付けている。 In the example shown in FIG. 5, in the same space as the space in which the first voice conversation device 12 is installed, there are five persons, namely user A and others B to E. Among them, user A is the first person. 1 voice conversation device 12 is used, and the other persons B to E are performing other activities in the space. User A and others B to E wear tags 41A to 41E, respectively.

タグ41A~41Eそれぞれは、マイクロフォンおよび加速度センサを内蔵しており、マイクロフォンによって空間内での会話の音量が閾値よりも小さいことが検出され、加速度センサによって加速度が閾値よりも小さい状態が所定時間継続したことが検出された場合(例えば、1分継続した場合)、このことを集中ステータスとしてセンサ端末42に無線を用いて通知する。 Each of the tags 41A to 41E incorporates a microphone and an acceleration sensor. The microphone detects that the volume of the conversation in the space is lower than the threshold, and the acceleration sensor detects that the acceleration is lower than the threshold for a predetermined period of time. When it is detected that it has been done (for example, when it continues for one minute), it is notified to the sensor terminal 42 as a concentration status by radio.

センサ端末42は、タグ41A~41Eそれぞれから受信される集中ステータスを、ネットワークを介して集中度計算装置43に送信する。タグ41A~41Eそれぞれは、所定時間(例えば、10秒)毎に無線ビーコン信号を発信し、会話者特定装置44が近傍にある場合には、会話者特定装置44によって無線ビーコン信号が受信される。図5に示された例では、第1の音声会話装置12を利用している利用者Aのタグ41Aから発信された無線ビーコン信号のみが会話者特定装置44によって受信される。 The sensor terminal 42 transmits the concentration status received from each of the tags 41A to 41E to the concentration degree calculation device 43 via the network. Each of the tags 41A to 41E transmits a radio beacon signal at predetermined time intervals (eg, 10 seconds), and when the speaker identification device 44 is in the vicinity, the radio beacon signal is received by the speaker identification device 44. . In the example shown in FIG. 5, only the wireless beacon signal transmitted from the tag 41A of the user A using the first voice conversation device 12 is received by the speaker identification device 44. In the example shown in FIG.

会話者特定装置44は、受信した無線ビーコン信号を発信するタグの情報を会話者特定データとして、集中度計算装置43に送信する。 The speaker identifying device 44 transmits the information of the tag transmitting the received radio beacon signal to the concentration degree calculating device 43 as speaker identifying data.

集中度計算装置43は、収集されたタグ毎の集中ステータスと会話者特定データとに基づいて、集中ステータスに該当する人(集中している人)、かつ、会話者特定データに該当しない人の割合を計算し、計算した割合を集中度データ(0≦集中度データ≦1)として、第1の音声会話装置12の音量制御部180に送信する。例えば、会話者特定データに該当しない他者B~Eの4人のうち、集中ステータスに該当する人が3人存在した場合には、集中度データは、3/4=0.75となる。 The concentration degree calculation device 43, based on the collected concentration status and talker identification data for each tag, determines the number of people who correspond to the concentration status (concentrated person) and those who do not correspond to the talker identification data. The ratio is calculated, and the calculated ratio is transmitted to volume control section 180 of first voice conversation device 12 as concentration level data (0≦concentration level data≦1). For example, if there are three persons who are in the concentration status among the four persons B to E who do not correspond to the speaker identification data, the degree of concentration data is 3/4=0.75.

続いて、第1の音声会話装置12の音量制御部180は、集中度検出システム40から入力された第1の集中度データの最新値に基づいて、音声受信部150から入力された音声復号データの音量を調整し、音量調整後の音声復号データを音声出力データとして、音声出力部170に出力する。 Subsequently, the volume control unit 180 of the first voice conversation device 12 decodes the decoded voice data input from the voice receiving unit 150 based on the latest value of the first concentration level data input from the concentration level detection system 40. and outputs the decoded audio data after the volume adjustment to the audio output unit 170 as audio output data.

ここで、図6を参照しながら、音声復号データの音量調整の動作について詳細に説明する。音量制御部180のゲイン計算部181は、音声復号データを入力すると、本発明の第1の実施形態に係る音量検出部130と同様の方法によって音声復号データの音量を計算する。そして、ゲイン計算部181は、集中度検出システム40から入力された集中度データの値に応じて、あらかじめ目標音量を設定し、目標音量と音声復号データ(例えば、16ビット)の音量とを比較し、音声復号データの音量を目標音量に適合した音量に変換するための、レベル変換係数(ゲインデータ)を算出する。そして、ゲイン計算部181は、算出したレベル変換係数(ゲインデータ)を音声データ変換部182に出力する。 Here, the operation of adjusting the volume of decoded audio data will be described in detail with reference to FIG. The gain calculator 181 of the volume controller 180 receives the decoded audio data and calculates the volume of the decoded audio data by the same method as the volume detector 130 according to the first embodiment of the present invention. Then, the gain calculation unit 181 sets a target volume in advance according to the value of the concentration level data input from the concentration level detection system 40, and compares the target volume with the volume of decoded speech data (for example, 16 bits). Then, a level conversion coefficient (gain data) is calculated for converting the volume of the decoded speech data to a volume suitable for the target volume. Gain calculator 181 then outputs the calculated level conversion coefficient (gain data) to audio data converter 182 .

例えば、ゲイン計算部181は、集中度データの値が0~0.4のいずれかである場合には、目標音量を8000とし、集中度データの値が0.4~0.7のいずれかである場合には、目標音量を4000とし、集中度データの値が0.7~1.0のいずれかである場合には、目標音量を2000とする。このとき、集中度データの値が0.75であり、音声復号データの音量が8000である場合には、(目標音量が2000となるため)ゲインデータは、2000/8000=0.25となる。 For example, when the value of the degree of concentration data is between 0 and 0.4, the gain calculator 181 sets the target volume to 8000, and the value of the degree of concentration data is between 0.4 and 0.7. , the target volume is set to 4000, and if the value of the concentration level data is any one of 0.7 to 1.0, the target volume is set to 2000. At this time, if the value of the concentration level data is 0.75 and the volume of the decoded speech data is 8000, the gain data is 2000/8000=0.25 (because the target volume is 2000). .

音声データ変換部182は、音声復号データにゲインデータを乗算して、音声出力データを計算する。これによって、音声出力データの音量は集中度データに応じた目標音量と一致することになる。 The audio data converter 182 multiplies the decoded audio data by the gain data to calculate audio output data. As a result, the volume of the audio output data matches the target volume corresponding to the degree of concentration data.

図4に戻って説明を続ける。第1の音声会話装置12の音声出力部170は、音量制御部180から入力された音声出力データをアナログデータに変換し、アナログデータをスピーカーから音声信号(音響振動)として出力する。これによって、第1の音声会話装置12の利用者は、第2の音声会話装置22に入力された音声信号を聴くことができる。なお、第2の音声会話装置22も第1の音声会話装置12の動作と同様の動作を行うため、第2の音声会話装置22の利用者も、第1の音声会話装置12に入力された音声信号を聴くことができる。 Returning to FIG. 4, the description continues. The audio output unit 170 of the first voice conversation device 12 converts the audio output data input from the volume control unit 180 into analog data, and outputs the analog data from the speaker as an audio signal (acoustic vibration). Thereby, the user of the first voice conversation device 12 can listen to the voice signal input to the second voice conversation device 22 . Since the second voice conversation device 22 also operates in the same manner as the first voice conversation device 12, the user of the second voice conversation device 22 is also input to the first voice conversation device 12. Able to hear audio signals.

図7は、音声信号の音量の変化について説明するための図である。ここでは、第1の音声会話装置12がある第1の空間P1に利用者Aが存在し、第2の音声会話装置22がある第2の空間P2に利用者Bが存在する場合を想定する。このとき、図7に示すように、第1の空間P1に存在する人がそれぞれの活動に集中しており、第1の集中度データの値が大きい場合を想定する。このとき、利用者Aの前では、利用者Bの声は小さい音に変換されて再生される。一方、第2の空間P2に存在する人同士のコミュニケーションが活発であり、第2の集中度データの値が小さい場合を想定する。このとき、利用者Bの前では、利用者Aの声は大きい音に変換されて再生される。 FIG. 7 is a diagram for explaining changes in volume of an audio signal. Here, it is assumed that the user A exists in the first space P1 where the first voice conversation device 12 exists, and the user B exists in the second space P2 where the second voice conversation device 22 exists. . At this time, as shown in FIG. 7, it is assumed that people present in the first space P1 are concentrating on their respective activities and the value of the first degree-of-concentration data is large. At this time, in front of user A, user B's voice is converted into a soft sound and reproduced. On the other hand, it is assumed that communication between people existing in the second space P2 is active and the value of the second degree of concentration data is small. At this time, in front of user B, user A's voice is converted into a loud sound and reproduced.

[2-3.効果の説明]
以上のように、本発明の第2の実施形態によれば、集中度検出システム40によって検出される第1の音声会話装置12の周囲の第1の集中度データに基づいて、第2の音声会話装置22に入力される音声の音量が調整され、音量調整後の音声が第1の音声会話装置12から出力される。一例として、他者が集中して活動を行っている空間においては、遠隔地に存在する相手の発言も当該空間において小さい音量で聞こえるので、他者は会話音声を耳障りに感じにくく、自分自身の活動に集中できるという効果がある。
[2-3. Explanation of effect]
As described above, according to the second embodiment of the present invention, based on the first degree-of-concentration data around the first voice conversation device 12 detected by the degree-of-concentration detection system 40, the second voice The volume of the voice input to the conversation device 22 is adjusted, and the voice after volume adjustment is output from the first voice conversation device 12 . As an example, in a space where other people are concentrating on their activities, the voice of the other person in a remote location can be heard at a low volume in the space. It has the effect of allowing you to concentrate on your activities.

以上、本発明の第2の実施形態について説明した。 The second embodiment of the present invention has been described above.

<3.ハードウェア構成例>
続いて、本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成例について説明する。図8は、本実施形態に係る音声会話装置の例としてのデータ処理装置のハードウェア構成を示す図である。なお、通話制御サーバー30、センサ端末42、集中度計算装置43および会話者特定装置44それぞれのハードウェア構成も、図8に示されたデータ処理装置90のハードウェア構成と同様に実現されてよい。
<3. Hardware configuration example>
Next, a hardware configuration example of a data processing device as an example of the voice conversation device according to this embodiment will be described. FIG. 8 is a diagram showing the hardware configuration of a data processing device as an example of a voice conversation device according to this embodiment. The hardware configuration of each of the call control server 30, the sensor terminal 42, the degree-of-concentration calculation device 43, and the speaker identification device 44 may be realized in the same manner as the hardware configuration of the data processing device 90 shown in FIG. .

図8に示すように、データ処理装置90は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。 As shown in FIG. 8, the data processing device 90 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, a host bus 904, a bridge 905, an external It comprises a bus 906 , an interface 907 , an input device 908 , an output device 909 , a storage device 910 and a communication device 911 .

CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従ってデータ処理装置90内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。 The CPU 901 functions as an arithmetic processing device and a control device, and controls overall operations within the data processing device 90 according to various programs. Alternatively, the CPU 901 may be a microprocessor. The ROM 902 stores programs, calculation parameters, and the like used by the CPU 901 . The RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like. These are interconnected by a host bus 904 comprising a CPU bus or the like.

ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。 The host bus 904 is connected via a bridge 905 to an external bus 906 such as a PCI (Peripheral Component Interconnect/Interface) bus. Note that the host bus 904, the bridge 905 and the external bus 906 do not necessarily have to be configured separately, and these functions may be implemented in one bus.

入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等、利用者が情報を入力するための入力手段と、利用者による入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。データ処理装置90を操作する利用者は、この入力装置908を操作することにより、データ処理装置90に対して各種のデータを入力したり処理動作を指示したりすることができる。 The input device 908 generates an input signal based on input means for the user to input information, such as a mouse, keyboard, touch panel, button, microphone, switch, lever, etc., and outputs it to the CPU 901 . It is composed of an input control circuit and the like. A user who operates the data processing device 90 can input various data to the data processing device 90 and instruct processing operations by operating the input device 908 .

出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカー等の音声出力装置を含む。 The output device 909 includes, for example, a CRT (Cathode Ray Tube) display device, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, a display device such as a lamp, and an audio output device such as a speaker.

ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。 The storage device 910 is a device for data storage. The storage device 910 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like. The storage device 910 is configured by, for example, an HDD (Hard Disk Drive). The storage device 910 drives a hard disk and stores programs executed by the CPU 901 and various data.

通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。 The communication device 911 is, for example, a communication interface configured with a communication device or the like for connecting to a network. Also, the communication device 911 may support either wireless communication or wired communication.

以上、本実施形態に係るデータ処理装置90のハードウェア構成例について説明した。 The hardware configuration example of the data processing device 90 according to the present embodiment has been described above.

<4.変形例>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<4. Variation>
Although the preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention belongs can conceive of various modifications or modifications within the scope of the technical idea described in the claims. It is understood that these also naturally belong to the technical scope of the present invention.

本発明の第1の実施形態では、第1の音声会話装置10にて、音声入力データの音量を検出し、音声入力データの音量に基づいて第2の音声会話装置20から受信される音声の音量を調整して音声出力を行う構成について説明した。しかし、第2の音声会話装置20にて同様の処理を行う構成とされてもよい。すなわち、第2の音声会話装置20において、第1の音声会話装置10から受信される音声の音量を検出し、検出した音量に基づいて音声入力データの音量を調整して第1の音声会話装置10に送信するように構成されれば、本発明の第1の実施形態と同様の効果が得られる。 In the first embodiment of the present invention, the volume of voice input data is detected in the first voice conversation device 10, and the volume of the voice received from the second voice conversation device 20 is detected based on the volume of the voice input data. The configuration for outputting audio by adjusting the volume has been described. However, the second voice conversation device 20 may be configured to perform similar processing. That is, the second voice conversation device 20 detects the volume of the voice received from the first voice conversation device 10, adjusts the volume of the voice input data based on the detected volume, and outputs the first voice conversation device. 10, the same effects as in the first embodiment of the present invention can be obtained.

本発明の第2の実施形態では、集中度検出システム40にて、第1の音声会話装置12の周辺の集中度データを検出し、第1の音声会話装置12にて、集中度データに基づいて第2の音声会話装置22から受信される音声の音量を調整して音声出力を行う構成について説明した。しかし、第2の音声会話装置22にて同様の処理を行う構成とされてもよい。すなわち、集中度検出システム40において、第1の音声会話装置12の周辺の集中度データを検出し、第2の音声会話装置20において、集中度データに基づいて音声入力データの音量を調整して第1の音声会話装置10に送信するように構成されれば、本発明の第2の実施形態と同様の効果が得られる。 In the second embodiment of the present invention, the degree-of-concentration detection system 40 detects degree-of-concentration data around the first voice conversation device 12, and the degree-of-concentration data is detected by the first voice conversation device 12 based on the degree-of-concentration data. The configuration for adjusting the volume of the voice received from the second voice conversation device 22 and outputting the voice has been described. However, the second voice conversation device 22 may be configured to perform similar processing. That is, the degree-of-concentration detection system 40 detects degree-of-concentration data around the first voice conversation device 12, and the volume of the voice input data is adjusted based on the degree-of-concentration data in the second voice conversation device 20. If configured to transmit to the first voice conversation device 10, the same effect as the second embodiment of the present invention can be obtained.

本発明の第2の実施形態では、集中度検出システム40が第1の音声会話装置12の周囲に存在する人の音声の音量と加速度とを検出し、検出した音量と加速度とに基づいて、集中度データを計算する例について説明した。しかし、集中度データの計算方法は、かかる例に限定されない。集中度データとして、第1の音声会話装置12の近傍に存在する人の物事への集中度合いの指標となる数値が得られれば、任意の方法が用いられてよい。例えば、集中度検出システム40は、第1の音声会話装置12の近傍を撮影可能なカメラの映像から人の動きの量を検出し、屋内測位手段により第1の音声会話装置12の近傍にいる人の位置を検出し、または、人の行動情報(表情、視線、姿勢など)または生体情報(脈拍、呼吸など)を検出し、これらの計測データに基づいて集中度データを算出してもよい。 In the second embodiment of the present invention, the degree-of-concentration detection system 40 detects the volume and acceleration of the voices of people present around the first voice conversation device 12, and based on the detected volume and acceleration, An example of calculating concentration data has been described. However, the method of calculating concentration degree data is not limited to this example. Any method may be used as long as a numerical value indicating the degree of concentration of a person in the vicinity of the first voice conversation device 12 can be obtained as the degree of concentration data. For example, the degree-of-concentration detection system 40 detects the amount of movement of a person from an image captured by a camera capable of capturing the vicinity of the first voice conversation device 12, and uses indoor positioning means to determine whether the person is near the first voice conversation device 12. A person's position may be detected, or a person's behavioral information (expression, line of sight, posture, etc.) or biometric information (pulse, breathing, etc.) may be detected, and concentration level data may be calculated based on these measurement data. .

例えば、集中度検出システム40は、人の行動情報が背伸びを示していれば、その人が集中していないことを算出してもよい。あるいは、集中度検出システム40は、人の行動情報が腕組みを示していれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム40は、机の近傍にいる人がいれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム40は、人同士が近接していたり、人同士がコミュニケーションを取っていたりしていれば、その人達が集中していることを算出してもよい。あるいは、集中度検出システム40は、PC(Personal Computer)への入力回数が閾値よりも多い人、または、アプリケーションの切り替えを閾値よりも多くしている人がいれば、その人が集中していることを算出してもよい。あるいは、集中度検出システム40は、機械学習によって得たモデルを利用して集中度データを算出してもよい。 For example, the concentration detection system 40 may calculate that the person is not concentrating if the behavior information of the person indicates stretching. Alternatively, the concentration detection system 40 may calculate that the person is concentrating if the person's behavior information indicates that the person is folding his or her arms. Alternatively, if there is a person near the desk, the concentration detection system 40 may calculate that the person is concentrating. Alternatively, the concentration detection system 40 may calculate that people are concentrating if they are close to each other or if they are communicating with each other. Alternatively, if there is a person whose number of times of input to a PC (Personal Computer) is more than a threshold or a person who switches applications more than a threshold, the concentration detection system 40 detects that the person is concentrating. can be calculated. Alternatively, the degree-of-concentration detection system 40 may calculate degree-of-concentration data using a model obtained by machine learning.

本発明の第1の実施形態および本発明の第2の実施形態においては、音声会話装置が2台ある場合について説明した。しかし、音声会話装置は3台以上存在し、3台以上の音声会話装置の間で音声コミュニケーションが行われたとしても、音声会話装置が2台存在する場合と同様の効果が享受される。 In the first embodiment of the present invention and the second embodiment of the present invention, the case where there are two voice conversation devices has been described. However, even if there are three or more voice conversation devices, and voice communication is performed between three or more voice conversation devices, the same effects as when two voice conversation devices exist can be enjoyed.

また、第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音量とに基づいて、第1の音声会話装置から第1の利用者に出力される第2の利用者の音声信号の音量を制御する制御部を備える、音声処理装置が提供される。ここで、空間に関する情報は、本発明の第1の実施形態では、第1の利用者の音声信号の音量に相当し、本発明の第2の実施形態では、第1の音声会話装置の周囲に存在する他者の集中度データに相当する。 Also, based on the information about the space in which the first voice conversation device is placed and the volume of the second user's voice signal input to the second voice conversation device, the first voice conversation device An audio processing device is provided comprising a control unit for controlling the volume of a second user's audio signal output to one user. Here, the information about the space corresponds to the volume of the voice signal of the first user in the first embodiment of the invention, and corresponds to the volume of the voice signal of the first user in the second embodiment of the invention. It corresponds to the concentration degree data of others existing in

音声処理装置は、第1の音声会話装置の内部に存在してもよいし、第2の音声会話装置の内部に存在してもよい。あるいは、音声処理装置は、第1の音声会話装置および第2の音声会話装置とは異なる装置(サーバなど)の内部に存在してもよい。 The voice processing device may exist inside the first voice conversation device or inside the second voice conversation device. Alternatively, the voice processing device may reside within a device (such as a server) different from the first voice conversation device and the second voice conversation device.

また、本発明の第1の実施形態および第2の実施形態における、第2の利用者の音声信号の音量は、第2の利用者の音声信号の音の特徴に置き換えられてもよい。すなわち、制御部は、第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、第1の音声会話装置から第1の利用者に出力される第2の利用者の音声信号の特徴を制御してもよい。 Also, the volume of the second user's voice signal in the first and second embodiments of the present invention may be replaced with the sound characteristics of the second user's voice signal. That is, the control unit performs the first may control characteristics of the second user's voice signal output from the second user's voice conversation device to the first user.

さらに、空間に関する情報の例としての第1の利用者の音声信号の音量も、第1の利用者の音声信号の音の特徴に置き換えられてもよい。すなわち、制御部は、第1の音声会話装置の第1の利用者の音声信号の音の特徴と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、第1の音声会話装置から第1の利用者に出力される第2の利用者の音声信号の音の特徴を制御してもよい。これによって、会議への参加者による遠隔地からの音声の聞き取りやすさと、参加者の周囲に存在する他者による自分自身の活動への集中のしやすさとの双方を適切に制御される。 Furthermore, the volume of the first user's voice signal as an example of spatial information may also be replaced with the sound characteristics of the first user's voice signal. That is, the control unit determines the sound characteristics of the first user's voice signal of the first voice conversation device and the sound characteristics of the second user's voice signal input to the second voice conversation device. based on, the sound characteristics of the second user's voice signal output from the first voice conversation device to the first user may be controlled. As a result, it is possible to appropriately control both the ease with which participants in the conference can hear the voice from a remote location and the ease with which others around the participants can concentrate on their own activities.

また、空間に関する情報の例として集中度データが用いられる場合にも、集中度データに対応する目標音量の代わりに、集中度データに対応する音の特徴が用いられてよい。すなわち、制御部は、空間に関する情報の例として集中度データが用いられる場合、集中度データに対応する目標の音の特徴に適合するように、第2の利用者の音声信号の音の特徴を制御してもよい。 Further, even when concentration level data is used as an example of information about space, sound characteristics corresponding to the concentration level data may be used instead of the target sound volume corresponding to the concentration level data. That is, when concentration level data is used as an example of information about space, the control unit adjusts the sound characteristics of the second user's voice signal so as to match the target sound characteristics corresponding to the concentration level data. may be controlled.

このとき、第1の利用者および第2の利用者それぞれの音声信号の音の特徴、集中度データに対応する目標の音の特徴などは、音量の他、音のトーンであってもよいし、音のピッチであってもよいし、音の抑揚であってもよいし、他の特徴であってもよい。音のトーン、音のピッチ、音の抑揚なども、何らかの方法によって定量化することが可能である。したがって、制御部は、音量の制御と同様に、音のトーン、音のピッチまたは音の抑揚を制御すればよい。 At this time, the sound characteristics of the audio signals of the first user and the second user and the sound characteristics of the target corresponding to the concentration level data may be not only the volume but also the tone of the sound. , the pitch of the sound, the inflection of the sound, or other characteristics. Sound tone, sound pitch, sound inflection, etc. can also be quantified in some way. Therefore, the control section may control the tone of sound, the pitch of sound, or the intonation of sound in the same manner as the control of volume.

1、2 音声会話システム
10、12 第1の音声会話装置
20、22 第2の音声会話装置
30 通話制御サーバー
40 集中度検出システム
42 センサ端末
43 集中度計算装置
44 会話者特定装置
110 音声入力部
120 音声送信部
130 音量検出部
140 通話制御部
150 音声受信部
160、180 音量制御部
161、181 ゲイン計算部
162、182 音声データ変換部
170 音声出力部

1, 2 Voice Conversation System 10, 12 First Voice Conversation Device 20, 22 Second Voice Conversation Device 30 Call Control Server 40 Concentration Level Detection System 42 Sensor Terminal 43 Concentration Level Calculation Device 44 Speaker Identification Device 110 Voice Input Unit 120 audio transmission unit 130 volume detection unit 140 call control unit 150 audio reception unit 160, 180 volume control unit 161, 181 gain calculation unit 162, 182 audio data conversion unit 170 audio output unit

Claims (7)

第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御する制御部を備え、
前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、
音声処理装置。
From the first voice conversation device based on information about the space in which the first voice conversation device is placed and the sound characteristics of the second user's voice signal input to the second voice conversation device A control unit for controlling sound characteristics of the audio signal of the second user output to the first user ,
the information about the space includes concentration degree data around the first voice conversation device;
audio processor.
前記空間に関する情報は、前記集中度データに対応する目標の音の特徴に適合するように、前記第2の利用者の前記音声信号の音の特徴を制御する、
請求項に記載の音声処理装置。
the spatial information controls sound characteristics of the audio signal of the second user to match target sound characteristics corresponding to the concentration data;
The audio processing device according to claim 1 .
前記集中度データに対応する目標の音の特徴および前記第2の利用者の音声信号の音の特徴それぞれは、音量、音のトーン、音のピッチまたは音の抑揚である、
請求項またはに記載の音声処理装置。
each of the target sound feature corresponding to the concentration data and the sound feature of the second user's speech signal is volume, tone of sound, pitch of sound or inflection of sound;
3. The audio processing device according to claim 1 or 2 .
前記音声処理装置は、前記第1の音声会話装置または前記第2の音声会話装置の内部に存在する、
請求項1~のいずれか一項に記載の音声処理装置。
The voice processing device exists inside the first voice conversation device or the second voice conversation device,
The audio processing device according to any one of claims 1 to 3 .
前記音声処理装置は、前記第1の音声会話装置および前記第2の音声会話装置とは異なる装置の内部に存在する、
請求項1~のいずれか一項に記載の音声処理装置。
wherein the voice processing device resides within a device different from the first voice conversation device and the second voice conversation device;
The audio processing device according to any one of claims 1 to 3 .
第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御することを含
前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、
音声処理方法。
From the first voice conversation device based on the information about the space in which the first voice conversation device is placed and the sound characteristics of the second user's voice signal input to the second voice conversation device controlling the sound characteristics of the audio signal of the second user output to the first user;
the information about the space includes concentration degree data around the first voice conversation device;
Audio processing method.
コンピュータを、
第1の音声会話装置が置かれた空間に関する情報と、第2の音声会話装置に入力された第2の利用者の音声信号の音の特徴とに基づいて、前記第1の音声会話装置から第1の利用者に出力される前記第2の利用者の前記音声信号の音の特徴を制御する制御部を備え、
前記空間に関する情報は、前記第1の音声会話装置の周囲の集中度データを含む、
音声処理装置として機能させるためのプログラム。
the computer,
From the first voice conversation device based on information about the space in which the first voice conversation device is placed and the sound characteristics of the second user's voice signal input to the second voice conversation device A control unit for controlling sound characteristics of the audio signal of the second user output to the first user ,
the information about the space includes concentration degree data around the first voice conversation device;
A program for functioning as a voice processing device.
JP2019098186A 2019-05-27 2019-05-27 Speech processing device, speech processing method and program Active JP7293863B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019098186A JP7293863B2 (en) 2019-05-27 2019-05-27 Speech processing device, speech processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019098186A JP7293863B2 (en) 2019-05-27 2019-05-27 Speech processing device, speech processing method and program

Publications (2)

Publication Number Publication Date
JP2020194021A JP2020194021A (en) 2020-12-03
JP7293863B2 true JP7293863B2 (en) 2023-06-20

Family

ID=73546364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019098186A Active JP7293863B2 (en) 2019-05-27 2019-05-27 Speech processing device, speech processing method and program

Country Status (1)

Country Link
JP (1) JP7293863B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018046452A (en) 2016-09-15 2018-03-22 沖電気工業株式会社 Signal processing apparatus, program, method, and communications device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018046452A (en) 2016-09-15 2018-03-22 沖電気工業株式会社 Signal processing apparatus, program, method, and communications device

Also Published As

Publication number Publication date
JP2020194021A (en) 2020-12-03

Similar Documents

Publication Publication Date Title
US10149049B2 (en) Processing speech from distributed microphones
US11023690B2 (en) Customized output to optimize for user preference in a distributed system
JP2019518985A (en) Processing audio from distributed microphones
US9344878B2 (en) Method and system for operating communication service
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
JP7507859B2 (en) Interaction method and electronic device
US20180286389A1 (en) Conference system, conference system control method, and program
US20240221718A1 (en) Systems and methods for providing low latency user feedback associated with a user speaking silently
JP2018174439A (en) Conference support system, conference support method, program of conference support apparatus, and program of terminal
WO2022215361A1 (en) Information processing device and information processing method
WO2016157993A1 (en) Information processing device, information processing method, and program
JP7293863B2 (en) Speech processing device, speech processing method and program
JP7284570B2 (en) Sound reproduction system and program
JP7420166B2 (en) Speech recognition system, speech recognition method, and speech processing device
JP2019176386A (en) Communication terminals and conference system
JP2009060220A (en) Communication system and communication program
Panek et al. Challenges in adopting speech control for assistive robots
WO2018088210A1 (en) Information processing device and method, and program
JP2019537071A (en) Processing sound from distributed microphones
JP7384730B2 (en) Conference support system, conference support method, and program
JP2020053882A (en) Communication device, communication program, and communication method
US20240087597A1 (en) Source speech modification based on an input speech characteristic
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
US10891107B1 (en) Processing multiple audio signals on a device
JP5391175B2 (en) Remote conference method, remote conference system, and remote conference program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R150 Certificate of patent or registration of utility model

Ref document number: 7293863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150