JP2017092608A - Telephone conversation device - Google Patents
Telephone conversation device Download PDFInfo
- Publication number
- JP2017092608A JP2017092608A JP2015217777A JP2015217777A JP2017092608A JP 2017092608 A JP2017092608 A JP 2017092608A JP 2015217777 A JP2015217777 A JP 2015217777A JP 2015217777 A JP2015217777 A JP 2015217777A JP 2017092608 A JP2017092608 A JP 2017092608A
- Authority
- JP
- Japan
- Prior art keywords
- content
- voice
- call
- terminal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、通話のほかに音楽等の外部音を通話相手に提供する通話装置に関する。 The present invention relates to a call device that provides an external sound such as music to a call partner in addition to a call.
従来より、携帯電話機などを用いた音声通話に、話者の音声(通話音声)とは異なる音(外部音)を提供する技術が提案されている。たとえば下記特許文献1は、通話中に背景楽音を再生することができる電話端末装置を開示する。 Conventionally, a technique for providing a sound (external sound) different from a speaker's voice (call voice) in a voice call using a mobile phone or the like has been proposed. For example, Patent Document 1 below discloses a telephone terminal device that can reproduce background music during a call.
特許文献1の電話端末装置のように、機器に保持された音源を外部からの制御信号により再生する場合、音源を保持する機器からは伝送に伴う劣化のない高品質な音を再生することができる。しかしながら、それらの音を音声通話中の背景音として利用する場合、伝送に伴う劣化を含む音声に対し、高品質な背景音が際立ってしまい、音声が聞き取りづらくなるおそれがある。 When a sound source held in a device is reproduced by an external control signal, as in the telephone terminal device of Patent Document 1, a high-quality sound that does not deteriorate due to transmission can be reproduced from a device that holds the sound source. it can. However, when these sounds are used as background sounds during a voice call, high-quality background sounds stand out from the sounds including deterioration due to transmission, and the sounds may be difficult to hear.
本発明は、上記問題点に鑑みてなされたものであり、通話音声とは異なる外部音が当該通話音声と同時に出力される際に、通話音声が聞き取りにくくならない通話装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a call device that does not make it difficult to hear a call voice when an external sound different from the call voice is output simultaneously with the call voice. To do.
上述の課題を解決するために、本発明の通話装置は、通信網を介して通話を行う通話装置において、前記通信網を介して通話音声および当該通話音声とは異なる外部音を入力する入力手段と、前記入力手段により入力された外部音を、前記通話音声の特性に応じて調整する調整手段と、前記調整手段により調整された外部音を、通話音声とともに出力する出力手段と、を備える。 In order to solve the above-described problems, the communication device of the present invention is a communication device that performs a call via a communication network, and an input unit that inputs a call sound and an external sound different from the call sound via the communication network. And adjusting means for adjusting the external sound input by the input means according to the characteristics of the call voice, and output means for outputting the external sound adjusted by the adjusting means together with the call voice.
この発明によれば、通話相手の音声とは異なる外部音は、通話相手の音声の特性に応じて調整されて出力されるため、当該外部音を、通話音声と同時に出力する際に、通話音声が聞き取りにくくならない。 According to the present invention, since the external sound different from the voice of the other party is adjusted and output according to the characteristics of the other party's voice, the call voice is output when the external sound is output simultaneously with the call voice. Is not difficult to hear.
また、本発明の通話装置において、前記調整手段は、前記通話音声とは異なる外部音を、前記通話音声の音声周波数帯域に応じて調整するようにしてもよい。
この発明によれば、通話相手の音声の音声周波数帯域に応じて通話相手の音声とは異なる外部音を調整することで、通話相手の音声の聞き取りやすさを損なわないように調整することができる。
In the call device of the present invention, the adjustment unit may adjust an external sound different from the call voice according to a voice frequency band of the call voice.
According to this invention, by adjusting the external sound different from the voice of the other party in accordance with the voice frequency band of the other party's voice, it is possible to make an adjustment so as not to impair the voice of the other party. .
また、本発明の通話装置において、前記調整手段は、前記通話音声とは異なる外部音を、通話に利用される音声コーデックの種類、サンプリングレートまたは通話相手の通信装置の種別の少なくとも一つに応じて調整するものである。これにより、通話相手の音声の聞き取りやすさを損なわないようにすることができる。 Further, in the call device of the present invention, the adjusting unit may generate an external sound different from the call sound according to at least one of a type of a voice codec used for a call, a sampling rate, or a type of a communication device of a call partner. To adjust. As a result, it is possible to prevent the voice of the other party from being easily heard.
また、本発明の通話装置における前記調整手段は、前記通話音声の特性に基づいて前記外部音の音声周波数帯域から所定の帯域を特定し、当該所定の帯域におけるパワーを調整する。これにより、前記通話相手の音声とは異なる外部音が同時に出力される場合にも、通話相手の音声の聞き取りやすさを損なわないように調整することができる。 Further, the adjusting means in the call device of the present invention specifies a predetermined band from the audio frequency band of the external sound based on the characteristics of the call voice, and adjusts the power in the predetermined band. As a result, even when an external sound different from the voice of the other party is output at the same time, it can be adjusted so as not to impair the ease of hearing the other party's voice.
本発明によれば、通話音声とは異なる外部音を、通話音声の特性に応じて調整して出力することによって、通話音声とは異なる外部音を、通話音声と同時に出力する際に、通話音声が聞き取りにくくならないことが可能になる。 According to the present invention, the external sound different from the call voice is adjusted according to the characteristics of the call voice and output by adjusting the external sound different from the call voice. It becomes possible not to become difficult to hear.
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant descriptions are omitted.
図1は、本発明の通話装置に係る通話システムの概略構成を示す図である。図1に示すように、通話システムにおいて、ユーザ1(第1話者)とユーザ2(第2話者)との通話が行われる。通話システムでは、第1端末(後述の端末100)および第2端末(後述の端末200、端末100と同じ構成が好ましい)が、通話装置として用いられる。ユーザ1が第1端末を利用し、ユーザ2が第2端末を利用することによって、ユーザ1とユーザ2との音声通話が実現される。
FIG. 1 is a diagram showing a schematic configuration of a call system according to the call device of the present invention. As shown in FIG. 1, in a call system, a call between a user 1 (first speaker) and a user 2 (second speaker) is performed. In the call system, a first terminal (
通話システムにおいて、たとえば端末100および端末200は、通信ネットワーク3(通信網)を介して通信可能に構成されている。さらに、サーバ300が、通信ネットワーク3を介して、端末100および端末200と通信可能に構成されていてもよい。
In the call system, for example, the
通話システムの動作概要の一例について説明する。たとえば、端末200においてユーザ1の通話相手であるユーザ2の通話音声V2が入力されると、符号化された後、符号化系列として出力されて端末100へ送信される。同時に、ユーザ2の端末200の操作(ユーザ操作)によって端末100内に保持されているコンテンツV3(通話音声とは異なる外部音)を再生するための指示信号が生成され、端末100へ送信される。
An example of the operation outline of the call system will be described. For example, when the call voice V2 of the
具体的に、図1に示される通り、端末100と端末200とにおいて、コンテンツのセットであるコンテンツa〜cが、各コンテンツを再生するための指示信号a〜cと対応付けられて保持されている。ユーザ2が選択したコンテンツに対応した指示信号がユーザ1の端末100に送信され、端末100で指示信号に対応するコンテンツが再生されることでユーザ2が所望するコンテンツを端末100で再生することができる。これによって、ユーザ1は、ユーザ2の通話音声V2だけでなく、ユーザ2が所望するコンテンツV3も聞くことができる。同時に、ユーザ2もコンテンツV3を聞くことができてもよい。端末100と端末200とに保持されているコンテンツのセットは、すべて同じものであってもよい。また、少なくともユーザ2が選択したコンテンツが端末100に保持されていてもよい。
Specifically, as shown in FIG. 1, in
端末100と端末200との構成が同じであることで、逆にユーザ2は、ユーザ1の通話音声V1だけでなく、ユーザ1が所望するコンテンツV3も聞くことができる。このとき、ユーザ1もコンテンツV3を聞くことができてもよい。
Since the configurations of the
コンテンツV3の例として、たとえば効果音や、BGMのような音楽が挙げられる、ただし、コンテンツV3は音楽に限定されるものでなく、鳥のさえずりや駅の雑踏のような環境音、あるいはセリフなどの音声であってもよい。 Examples of the content V3 include sound effects and music such as BGM. However, the content V3 is not limited to music, but is an environmental sound such as a song of a bird or a bustle of a station, or a line. May be used.
ここで、通話システムでは、通話音声V1またはV2の特性に基づいてコンテンツV3を調整することができる。たとえば、ユーザ1が通話音声V2とコンテンツV3を同時に聞く場合、この通信システムは、通話音声V2の音声周波数帯域に応じて、コンテンツV3の音声周波数帯域や音量を調整することで、通話音声V2とコンテンツV3を同時に聞く場合でも、ユーザ1が通話音声V2を聞き取りづらくならないようにすることができる。 Here, in the call system, the content V3 can be adjusted based on the characteristics of the call voice V1 or V2. For example, when the user 1 listens to the call voice V2 and the content V3 at the same time, the communication system adjusts the voice frequency band and volume of the content V3 according to the voice frequency band of the call voice V2, thereby Even when listening to the content V3 at the same time, it is possible to prevent the user 1 from having difficulty in listening to the call voice V2.
なお、本発明はコンテンツが端末100に保持されてない場合にも適用できる。その場合、コンテンツV4が端末200またはサーバ300に保持され、ユーザ2の操作に応じて端末100に送信されてもよい。端末100は、通話音声V2の音声周波数帯域に応じて、受信したコンテンツV4の音声周波数帯域や音量を調整する。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。
Note that the present invention can also be applied to a case where content is not held in the
図2は、本発明の通話装置の機能ブロックを示す図である。図1に示したように、第1の通話装置である端末100(第1端末)と、第2の通話装置である端末200(第2端末)とによって、ユーザ1とユーザ2との通話が行われる。
FIG. 2 is a diagram showing functional blocks of the communication device of the present invention. As shown in FIG. 1, a call between the user 1 and the
図2に示すように、端末100は、第1音声入力部101と、第1音声符号化部102と、第1音声送信部103と、第2音声受信部104(入力手段)と、第2音声復号部105と、第2音声出力部106と、第1コンテンツ再生指示信号入力部107と、第1コンテンツ再生指示信号送信部108と、第2コンテンツ再生指示信号受信部109と、コンテンツ保持部110と、音声特性保持部111と、コンテンツ調整部112(調整手段)と、コンテンツ出力部113(出力手段)とを含む。
As shown in FIG. 2, the
第1音声入力部101は、一方の話者(図1のユーザ1)の通話音声V1を入力する部分である。第1音声入力部101は、たとえばマイクロフォンを含んで構成される。
第1音声符号化部102は、第1音声入力部101に入力された通話音声V1を符号化して、符号化系列B1を生成する部分である。
The first
The first
第1音声送信部103は、第1音声符号化部102によって符号化された通話音声V1を送信する部分である。具体的に、第1音声送信部103は、通話音声V1が符号化された符号化系列B1を、端末200に送信する。
The first
第2音声受信部104は、通話相手(図1のユーザ2)の符号化された通話音声V2を受信する部分である。具体的に、第2音声受信部104は、端末200においてユーザ2の通話音声V2が符号化された符号化系列B2を受信する。
第2音声復号部105は、第2音声受信部104が受信した符号化系列B2を復号する部分である。
The second
The second
第2音声出力部106は、第2音声復号部105によって復号された符号化系列B2に応じた音(つまりユーザ2の通話音声V2)を出力する部分である。第2音声出力部106は、たとえばスピーカを含んで構成されており、通話音声V2を出力する。これにより、ユーザ1は、ユーザ2の通話音声V2を聞くことができる。
The second
第1コンテンツ再生指示信号入力部107は、ユーザ操作に基づいて、第1コンテンツ再生指示信号C1を入力する部分である。ユーザ操作は、たとえばユーザ1(図1)が端末100に設けられた操作盤やタッチパネルなどのデバイスを操作することによって行われる。また、ユーザ操作は、たとえば先に図1を参照して説明したように、種々のコンテンツa〜cなどから、ユーザ1が所望する音をコンテンツV3として選択する操作や、コンテンツV3の再生を停止する操作を含む。さらに、上記の操作盤やタッチパネルなどのデバイスが、ユーザ操作に応じて選択されたコンテンツに対応した第1コンテンツ再生指示信号C1を発生させ、その第1コンテンツ再生指示信号C1が第1コンテンツ再生指示信号入力部107に入力される。
The first content reproduction instruction
第1コンテンツ再生指示信号送信部108は、第1コンテンツ再生指示信号入力部107に入力された第1コンテンツ再生指示信号C1を送信する部分である。具体的に、第1コンテンツ再生指示信号送信部108は、第1コンテンツ再生指示信号C1を、端末200に送信する。
The first content reproduction instruction
なお、第1コンテンツ再生指示信号送信部108が、第1コンテンツ再生指示信号を送信する代わりに、第1音声符号化部102が、第1コンテンツ再生指示信号C1が指示するコンテンツV3を通話音声V1に重畳し、重畳された第1音声を符号化し、第1音声送信部103が送信してもよい。または、第1音声入力部101と、第1音声符号化部102との間に重畳処理部を配置しておき、当該重畳処理部が、後述するコンテンツ保持部110から出力されたコンテンツV3の再生音を通話音声V1に重畳し、第1音声送信部103から符号化系列B1として送信するようにしてもよい。
Instead of the first content reproduction instruction
さらに、端末200がユーザ1の所望するコンテンツを保持していない場合、コンテンツ送信部を設け、後述するコンテンツ保持部110から出力されたコンテンツV4を端末200に送信しても良い。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。
Furthermore, when the terminal 200 does not hold the content desired by the user 1, a content transmission unit may be provided, and the content V4 output from the
第2コンテンツ再生指示信号受信部109は、端末200(図1)から送信された第2コンテンツ再生指示信号C2を受信する部分である。第2コンテンツ再生指示信号C2は第1コンテンツ再生指示信号C1と同様にユーザ2(図1)によって生成され、後述するコンテンツ保持部110に保持されている種々のコンテンツa〜cなどから、ユーザ2が所望する音の再生を指示する。
Second content reproduction instruction
コンテンツ保持部110は、通話音声とは異なる外部音であるコンテンツV3を保持する部分である。具体的には、コンテンツ保持部110は、図1に示したように種々のコンテンツa〜cなどを、コンテンツa〜cなどを再生指示信号a〜cなどと対応付けて保持している。コンテンツ保持部110は、第1コンテンツ再生指示信号C1あるいは第2コンテンツ再生指示信号C2を入力すると、再生指示信号に対応したコンテンツV3を出力する。たとえば、入力された第1コンテンツ再生指示信号C1が、コンテンツaの再生を指示する再生指示信号aであった場合、コンテンツ保持部110はコンテンツV3として、コンテンツaを出力する。なお、言うまでもなく、コンテンツ保持部110が保持するコンテンツは所定のコンテンツa〜cに限定されるものではなく、たとえば、外部のサーバから新たなコンテンツのセットをダウンロードし、コンテンツV3として利用することができる。
The
また、コンテンツ保持部110に入力されるのは、第2コンテンツ再生指示信号C2の代わりに、外部のサーバあるいは端末200から送信されてきたコンテンツV4であってもよい。その場合は、コンテンツ保持部110は受信したコンテンツV4を出力する。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。
Further, the content V4 transmitted from the external server or the terminal 200 may be input to the
音声特性保持部111は、通話相手の音声の特性を保持する部分である。具体的には、音声特性保持部111に保持される特性は、通話に利用されているコーデックや、サンプリングレートや、音声周波数帯域である。あるいは、通話相手が使用している通話装置の種類、例えば固定電話か、スマートフォンの機種などでも良い。一般的に、コーデックや、サンプリングレートに基づいて、音声周波数帯域を把握することが可能である。また、固定電話か携帯電話かによっても、使用される音声周波数帯域が異なり、さらに、携帯電話の機種によっても使用される音声周波数帯域が異なる場合があることから、それら情報を音声特性として保持しておくようにしてもよい。
The voice
この特性は、通話開始時に取得することが好ましく、コーデックの種類やサンプリングレート、通信装置の種別(固定電話であるか否か)は、通信のセッションを確立するときにそれら情報を取得することが可能であり、このとき、通話に利用されているコーデックや、サンプリングレートや、音声周波数帯域や、通話装置の種類から出力される通話音声V2の特性を知ることができる。 This characteristic is preferably acquired at the start of a call, and the type of codec, sampling rate, and type of communication device (whether it is a fixed telephone) can be acquired when establishing a communication session. At this time, it is possible to know the characteristics of the call voice V2 output from the codec used for the call, the sampling rate, the voice frequency band, and the type of the call device.
また、音声特性保持部111に保持される特性は、復号された第2音声を解析することで得られても良い。特性として、たとえば、通話音声V2に含まれる音声周波数の分布や、音量レベルなどが考えられる。通話音声V2の解析を逐次実行することで、後述するコンテンツ調整部112において動的な制御を行うこともできる。この場合、音声特性保持部111の代わりに音声解析部を設け、解析結果を逐次コンテンツ調整部112に入力しても良い。コンテンツ調整部112は、第2音声に含まれる音声周波数の分布と音量レベルとの一方に応じた調整をしても良いし、両方に応じた調整をしても良い。
Further, the characteristic held in the voice
コンテンツ調整部112は、コンテンツ保持部から出力されたコンテンツV3を通話相手の音声の特性に応じて調整する部分(調整手段)である。具体的には、通話音声V2よりも、コンテンツV3の方が際立ち、通話音声V2とコンテンツV3とが同時に出力された場合に、通話音声V2が聞き取りづらくならないようにコンテンツV3の音声周波数帯域や音量を調整する。例えば、コンテンツV3に、通話音声V2よりも高い音声周波数帯域の音が含まれないようにしたり、高い音声周波数帯域(所定範囲の音声周波数帯域)のパワーを小さくしたりする、などの調整が考えられる。
The
さらに、コンテンツ調整部112は、コンテンツV3の音声周波数帯域ごとのパワーが、基準となる通話音声V2の音声周波数帯域ごとのパワーを、その帯域ごとにあらかじめ定めた割合(x%)、上回る場合には、その音声周波数帯域ごとにおけるパワーを所定量(f(x)[dB])下げるようにするようにしてもよい。これにより、通話音声V2に応じたコンテンツV3のきめ細かな調整制御を可能にすることができる。
Furthermore, the
コンテンツ調整部112が行う調整方法は、ダイナミクス処理、フィルタリング処理、イコライジング処理など、一般的なオーディオ処理でも良いし、符号化および復号処理でも良い。符号化および復号処理の場合は、音声通話に使用されている符号化および復号方法と同じ方法を使用することが好ましい。
The adjustment method performed by the
コンテンツ調整部112は、特定の条件が満たされた場合、調整の有無を含めた調整方法を変えても良い。例えば、通話に利用されているコーデックによっては調整しない(あるいは調整を軽度にする)、通話音声V2に含まれる音声周波数の帯域によっては調整しない(あるいは調整を軽度にする)、などの制御が考えられる。その場合、前記の特性は音声特性保持部111から入力されることが好ましい。他の例としては、通話相手が発話せず、通話音声V2が出力されない間はコンテンツV3の調整は行わない(あるいは調整を軽度にする)、などの制御が考えられる。その場合、通話音声V2の符号化データまたは復号された通話音声V2がコンテンツ調整部112に入力されることが好ましい。ここで、調整を軽度にするということは、調整対象となる周波数帯域を狭くしたり、その調整量となるパワーの増減幅を小さくしたりすることなどである。
The
また、コンテンツ調整部112は、入力されるコンテンツV3が、第1コンテンツ再生指示信号C1に由来するか、あるいは第2コンテンツ再生指示信号C2に由来するかに応じて、調整の有無を含めた調整方法を変えても良い。たとえば、第1コンテンツ再生指示信号C1に由来する場合はコンテンツV3の調整は行わない(あるいは調整を軽度にする)などの制御が考えられる。その場合、入力されるコンテンツV3が、第1コンテンツ再生指示信号C1に由来するか、あるいは第2コンテンツ再生指示信号C2に由来するかを示す情報がコンテンツ調整部112に入力されることが好ましい。また、その情報は、第1コンテンツ再生指示信号C1ならびに第2コンテンツ再生指示信号C2が、コンテンツ調整部112に直接入力されても良い。
Further, the
さらに、コンテンツ調整部112は、別途入力されるユーザからの指示に応じて調整の有無を含めた調整方法を変えても良い、たとえば、ユーザ操作によって調整の有無を切り替える(あるいは調整の程度を変更する)、などの制御が考えられる。その場合、ユーザインターフェースを介したユーザからの指示情報がコンテンツ調整部112に入力されることが好ましい。
Furthermore, the
コンテンツ調整部112が調整を行う代わりに、あらかじめ調整されたコンテンツを選択することでコンテンツの調整を実現しても良い。その場合、コンテンツ保持部110にあらかじめ調整されたコンテンツが保持され、音声特性保持部111から入力される特性に応じて、コンテンツを選択することが望ましい。ここで、あらかじめ施される調整とは、コンテンツ調整部112が行う調整と同じであることが好ましい。
Instead of the
なお、コンテンツ調整部112は、コンテンツ保持部110が保持するコンテンツV3を入力する代わりに、外部から受信したコンテンツV4を、コンテンツ保持部110を介して、あるいは介さずに直接、入力しても良い。たとえば、通話相手が第2コンテンツ再生指示信号の代わりにコンテンツV4を送信し、コンテンツ調整部112は、そのコンテンツV4を入力する、あるいは通話相手が送信した再生指示信号をネットワーク上のサーバが受け、サーバがコンテンツV4を送信し、コンテンツ調整部112は、そのコンテンツV4を入力するなどの形態が考えられる。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。
Note that the
コンテンツ出力部113は、コンテンツ調整部から112から入力されたコンテンツV3を出力する部分である。コンテンツ出力部113は、たとえばスピーカを含んで構成される。具体的に、コンテンツ出力部113は、コンテンツV3を出力する。これにより、ユーザ1は、ユーザ2が所望したコンテンツV3の再生音を聞くことができる。
The
コンテンツ出力部113が、コンテンツV3の再生音を出力する代わりに、復号された通話音声V2にコンテンツV3の再生音を重畳し、前記重畳された通話音声を第2音声出力部106から出力してもよい。その場合、第2音声復号部105と、第2音声出力部106との間で、コンテンツ調整部112から出力されたコンテンツV3の再生音が重畳されることが好ましい。
Instead of outputting the reproduction sound of the content V3, the
ここで、図3を参照して、端末100のハードウェア構成について説明する。図3は、端末100のハードウェア構成図である。図3に示されるように、端末100は、物理的には、1または複数のCPU(Central Processing unit)21、主記憶装置であるRAM(Random Access Memory)22およびROM(Read Only Memory)23、データ送受信デバイスである通信モジュール26、半導体メモリなどの補助記憶装置27、操作盤(操作ボタンを含む)やタッチパネルなどのユーザの入力を受け付ける入力装置28、ディスプレイなどの出力装置29、などのハードウェアを備えるコンピュータとして構成することができる。図2における端末100の各機能は、たとえば、CPU21、RAM22などのハードウェア上に1または複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御のもとで通信モジュール26、入力装置28、出力装置29を動作させるとともに、RAM22および補助記憶装置27におけるデータの読み出しおよび書き込みを行うことで実現することができる。なお、端末200についても、端末100と同様のハードウェア構成とすることができる。
Here, the hardware configuration of the terminal 100 will be described with reference to FIG. FIG. 3 is a hardware configuration diagram of the terminal 100. As shown in FIG. 3, the terminal 100 physically includes one or a plurality of CPUs (Central Processing Units) 21, a RAM (Random Access Memory) 22 and a ROM (Read Only Memory) 23, which are main storage devices, Hardware such as a
次に、図4を参照して、本発明に係る通話装置の動作(端末100によって実行される通話方法)について説明する。図4は、端末100において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末100を利用するユーザ1(図1)と、端末200を利用するユーザ2との通話中に実行される。
Next, with reference to FIG. 4, the operation of the call device according to the present invention (call method executed by the terminal 100) will be described. FIG. 4 is a flowchart illustrating an example of processing executed in the
図4に示すように、端末100においては、4系統の処理フロー(S101〜S103、S104〜S109、S110〜S112、S113〜S117)の複数を並列に実行可能である。 As shown in FIG. 4, in the terminal 100, a plurality of four processing flows (S101 to S103, S104 to S109, S110 to S112, S113 to S117) can be executed in parallel.
まずは、S101〜S103の処理フローについて説明する。はじめに、端末100において、第1音声を入力する(ステップS101)。具体的には、第1音声入力部101が、ユーザ1の通話音声V1を入力する。
First, the processing flow of S101 to S103 will be described. First, in the terminal 100, the first voice is input (step S101). Specifically, the first
さらに、端末100は、第1音声を符号化する(ステップS102)。具体的には、第1音声符号化部102が、ユーザ1の通話音声V1を符号化する。
Furthermore, the terminal 100 encodes the first voice (step S102). Specifically, the first
さらに、端末100は、符号化系列を送信する(ステップS103)。具体的には、第1音声送信部103が、符号化系列B1を、端末200に送信する。
Furthermore, terminal 100 transmits the encoded sequence (step S103). Specifically, the first
次に、S104〜S109の処理フローについて説明する。はじめに、端末100において、第1コンテンツ再生指示信号を入力する(ステップS104)。具体的には、第1コンテンツ再生指示信号入力部107がユーザ操作に基づいて、第1コンテンツ再生指示信号C1を入力する。
Next, the processing flow of S104 to S109 will be described. First, in the terminal 100, a first content reproduction instruction signal is input (step S104). Specifically, the first content reproduction instruction
さらに、端末100は、第1コンテンツ再生指示信号を送信する(ステップS105)。具体的には、第1コンテンツ再生指示信号送信部108が、第1コンテンツ再生指示信号C1を端末200に送信する。
Furthermore, terminal 100 transmits a first content reproduction instruction signal (step S105). Specifically, first content reproduction instruction
なお、端末200がユーザ1の所望するコンテンツを保持していない場合、第1コンテンツ再生指示信号C1の代わりに、コンテンツV4を端末200に送信しても良い。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。
When terminal 200 does not hold the content desired by user 1, content V4 may be transmitted to
また、端末100は、コンテンツを読み込む(ステップS106)。具体的には、コンテンツ保持部110が、保持しているコンテンツのうち、第1コンテンツ再生指示信号C1よって指示されたコンテンツV3を出力し、コンテンツ調整部112が読み込む。
Further, the terminal 100 reads content (step S106). Specifically, the
また、端末100は、音声特性を読み込む(ステップS107)。具体的には、音声特性保持部111が、保持している通話相手の音声の特性を出力し、コンテンツ調整部112が読み込む。音声特性保持部111に保持される特性が、復号された通話音声V2を解析することで得られる場合には、ステップS107の処理は後述するステップS111の処理が実行された後に実行される。
Further, the terminal 100 reads the voice characteristics (step S107). Specifically, the voice
なお、上記ステップS106、S107の処理については、ステップS106の処理が実行された後にステップS107の処理が実行されてもよいし、ステップS107の処理が実行された後にステップS106の処理が実行されてもよい。
さらに、端末100はコンテンツを調整する(ステップS108)。具体的には、コンテンツ調整部112が、コンテンツ保持部から出力されたコンテンツV3を通話相手の音声の特性に応じて調整する。
In addition, about the process of said step S106, S107, the process of step S107 may be performed after the process of step S106 is performed, or the process of step S106 is performed after the process of step S107 is performed. Also good.
Further, the terminal 100 adjusts the content (step S108). Specifically, the
さらに、端末100は調整されたコンテンツを出力する(ステップS109)。具体的には、コンテンツ出力部113が、調整されたコンテンツV3を出力する。
Furthermore, the terminal 100 outputs the adjusted content (step S109). Specifically, the
なお、上記ステップS105、S106〜S109の処理については、ステップS105の処理が実行された後にステップS106〜S109の処理が実行されてもよいし、ステップS106〜S109の処理が実行された後にステップS105の処理が実行されてもよい。 In addition, about the process of said step S105, S106-S109, after the process of step S105 is performed, the process of step S106-S109 may be performed, and after the process of step S106-S109 is performed, step S105 is performed. These processes may be executed.
次に、S110〜S112の処理フローについて説明する。はじめに、端末100において、通話音声V2を受信する(ステップS110)。具体的には、第2音声受信部104が、符号化系列B2を受信する。
Next, the processing flow of S110 to S112 will be described. First, the terminal 100 receives the call voice V2 (step S110). Specifically, the second
さらに、端末100は、通話音声V2を復号する(ステップS111)。具体的には、第2音声復号部105が、符号化系列B2を復号する。
Furthermore, the terminal 100 decodes the call voice V2 (step S111). Specifically, the second
さらに、端末100は、通話音声V2を出力する(ステップS112)。具体的には、復号された符号化系列B2に応じた音(つまりユーザ2の通話音声V2)を出力する。 Furthermore, the terminal 100 outputs the call voice V2 (step S112). Specifically, a sound corresponding to the decoded coded sequence B2 (that is, the call voice V2 of the user 2) is output.
次に、S113〜S117の処理フローについて説明する。はじめに、端末100において、第2コンテンツ再生指示信号を受信する(ステップS113)。具体的には、第2コンテンツ再生指示信号受信部109が、第2コンテンツ再生指示信号C2を受信する。
Next, the processing flow of S113 to S117 will be described. First, the terminal 100 receives a second content reproduction instruction signal (step S113). Specifically, the second content reproduction instruction
さらに、端末100は、コンテンツを読み込む(ステップS114)。具体的には、コンテンツ保持部110が、保持しているコンテンツのうち、第2コンテンツ再生指示信号C2よって指示されたコンテンツV3を出力し、コンテンツ調整部112が読み込む。
Furthermore, the terminal 100 reads content (step S114). Specifically, the
なお、ステップS113とステップS114では第2コンテンツ再生指示信号C2の代わりに、端末200あるいは外部のサーバから送信されたコンテンツV4を受信し、出力しても良い。この場合、以降の説明におけるコンテンツV3はコンテンツV4に置き換えられる。 In step S113 and step S114, the content V4 transmitted from the terminal 200 or an external server may be received and output instead of the second content reproduction instruction signal C2. In this case, the content V3 in the following description is replaced with the content V4.
また、端末100は、音声特性を読み込む(ステップS115)。具体的には、音声特性保持部111が、保持している通話相手の音声の特性を出力し、コンテンツ調整部112が読み込む。音声特性保持部111に保持される特性が、復号された通話音声V2を解析することで得られる場合には、ステップS115の処理はステップS111の処理が実行された後に実行される。
Further, the terminal 100 reads the voice characteristics (step S115). Specifically, the voice
なお、上記ステップS114、S115の処理については、ステップS114の処理が実行された後にステップS115の処理が実行されてもよいし、ステップS115の処理が実行された後にステップS114の処理が実行されてもよい。
さらに、端末100はコンテンツを調整する(ステップS116)。具体的には、コンテンツ調整部112が、コンテンツ保持部から出力されたコンテンツV3を通話相手の音声の特性に応じて調整する。
In addition, about the process of said step S114, S115, the process of step S115 may be performed after the process of step S114 is performed, or the process of step S114 is performed after the process of step S115 is performed. Also good.
Further, the terminal 100 adjusts the content (step S116). Specifically, the
さらに、端末100は調整されたコンテンツを出力する(ステップS117)。具体的には、コンテンツ出力部113が、調整されたコンテンツV3を出力する。
Furthermore, the terminal 100 outputs the adjusted content (step S117). Specifically, the
上述した4系統の処理フロー(S101〜S103、S104〜S109、S110〜S112、S113〜S117)を実行した後、端末100は再び4系統の処理フローを実行する(並列に実行可能)である。このようにして図4のフローチャートの処理が繰り返し実行されることによって、ユーザ1とユーザ2との通話が進められる。
After executing the above-described four systems of processing flows (S101 to S103, S104 to S109, S110 to S112, S113 to S117), the terminal 100 executes the four systems of processing flows again (can be performed in parallel). In this way, the call between the user 1 and the
次に、端末100の作用効果について説明する。端末100では、第1音声入力部101がユーザ1の通話音声V1を入力し(ステップS101)、第1音声符号化部102が通話音声V1を符号化し(ステップS102)、第1音声送信部103が符号化された通話音声V1である符号化系列B1を送信する(ステップS103)。
Next, the effect of the terminal 100 will be described. In the terminal 100, the first
また、第2音声受信部104が、符号化されたユーザ2の通話音声V2である符号化系列B2を受信し(ステップS110)、第2音声復号部105が符号化系列B2を復号し(ステップS111)、第2音声出力部106が、復号された符号化系列B2に応じた音(つまりユーザ2の通話音声V2)を出力する(ステップS112)。
The second
また、第1コンテンツ再生指示信号入力部107が、ユーザ操作に基づいて、第1コンテンツ再生指示信号C1を入力し(ステップS104)、第1コンテンツ再生指示信号送信部108が、第1コンテンツ再生指示信号C1を送信し(ステップS105)、また、第2コンテンツ再生指示信号受信部109が、第2コンテンツ再生指示信号C2を受信し(ステップS113)、コンテンツ保持部110が保持し、第1コンテンツ再生指示信号C1あるいは第2コンテンツ再生指示信号C2に対応した通話音声とは異なる外部音であるコンテンツV3を出力し(ステップS106またはS114)、音声特性保持部111が、通話相手の音声の特性を出力し(ステップS107またはS115)、コンテンツ調整部112が、コンテンツV3を通話相手の音声の特性に応じて調整し(ステップS108またはS116)、コンテンツ出力部113は、調整されたコンテンツV3を出力する(ステップS109またはS117)。
The first content reproduction instruction
コンテンツ調整部112によって実行される処理(ステップS108またはS116)は、通話相手の通話音声V2とは異なる外部音であるコンテンツV3を、通話相手の音声の特性に応じて調整する処理である。端末100によれば、たとえば、コンテンツ調整部112は、通話に利用される音声コーデックや、通話相手の音声の音声周波数帯域に基づいて、通話相手の音声とは異なる外部音の音声周波数帯域から所定の帯域を特定し、その帯域におけるパワーを調整することで、通話相手の音声とは異なる外部音が同時に出力される場合にも、通話相手の音声の聞き取りやすさを損なわないようにすることができる。
The process (step S108 or S116) executed by the
本発明は、上述した実施形態に限定されるものではない。実施形態に含まれる各手段や処理ステップの特徴部分を適宜組み合わせた構成についても、本発明の実施形態とすることができる。 The present invention is not limited to the embodiment described above. A configuration in which the features included in the respective embodiments and processing steps included in the embodiment are appropriately combined can also be used as the embodiment of the present invention.
100…端末、101…第1音声入力部、102…第1音声符号化部、103…第1音声送信部、104…第2音声受信部、105…第2音声復号部、106…第2音声出力部、107…第1コンテンツ再生指示信号入力部、108…第1コンテンツ再生指示信号送信部、109…第2コンテンツ再生指示信号受信部、110…コンテンツ保持部、111…音声特性保持部、112…コンテンツ調整部、113…コンテンツ出力部、200…端末、300…サーバ。
DESCRIPTION OF
Claims (4)
前記通信網を介して通話音声および当該通話音声とは異なる外部音を入力する入力手段と、
前記入力手段により入力された外部音を、前記通話音声の特性に応じて調整する調整手段と、
前記調整手段により調整された外部音を、通話音声とともに出力する出力手段と、
を備える通話装置。 In a call device that makes a call via a communication network,
Input means for inputting call voice and external sound different from the call voice via the communication network;
Adjusting means for adjusting the external sound input by the input means according to the characteristics of the call voice;
Output means for outputting the external sound adjusted by the adjusting means together with the call voice;
A communication device comprising:
請求項1に記載の通話装置。 The adjusting means adjusts an external sound different from the call voice according to a voice frequency band of the call voice;
The call device according to claim 1.
請求項1に記載の通話装置。 The adjusting means adjusts an external sound different from the call voice according to at least one of a type of a voice codec used for a call, a sampling rate, or a type of a communication device of a call partner;
The call device according to claim 1.
請求項1〜3のいずれか1項に記載の通話装置。 The adjusting means specifies a predetermined band from the audio frequency band of the external sound based on the characteristics of the call voice, and adjusts power in the predetermined band.
The communication device according to any one of claims 1 to 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015217777A JP2017092608A (en) | 2015-11-05 | 2015-11-05 | Telephone conversation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015217777A JP2017092608A (en) | 2015-11-05 | 2015-11-05 | Telephone conversation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017092608A true JP2017092608A (en) | 2017-05-25 |
Family
ID=58771133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015217777A Pending JP2017092608A (en) | 2015-11-05 | 2015-11-05 | Telephone conversation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017092608A (en) |
-
2015
- 2015-11-05 JP JP2015217777A patent/JP2017092608A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3629561B1 (en) | Data transmission method and system, and bluetooth headphone | |
KR101296039B1 (en) | Simultaneous mutli-source audio output at a wireless headset | |
CN108886647B (en) | Earphone noise reduction method and device, master earphone, slave earphone and earphone noise reduction system | |
CN109445740A (en) | Audio frequency playing method, device, electronic equipment and storage medium | |
US8488820B2 (en) | Spatial audio processing method, program product, electronic device and system | |
US20140226842A1 (en) | Spatial audio processing apparatus | |
JP2001136240A (en) | Portable telephone set for hearing correction type | |
CN107749299B (en) | Multi-audio output method and device | |
EP1802082A1 (en) | Information terminal | |
CN111863011B (en) | Audio processing method and electronic equipment | |
US20220286538A1 (en) | Earphone device and communication method | |
EP2084937A2 (en) | Method and apparatus for recording, transmitting, and playing back sound events for communication applications | |
US20150011192A1 (en) | Method of processing telephone signals and electronic device thereof | |
CN110662206A (en) | Bluetooth-based high-definition music and voice transmission operation method | |
KR20140061285A (en) | Background sound removal for privacy and personalization use | |
CN109511040B (en) | Whisper amplifying method and device and earphone | |
KR20060031551A (en) | Stereo mobile terminal and method for talking over the stereo mobile terminal | |
CN110662207B (en) | High-quality music and voice transmission operation method based on Bluetooth | |
CN111107226A (en) | Volume control method applied to mobile terminal | |
US20120134499A1 (en) | Audio Processing Devices, Multi-Channel Audio Application System, and Method Thereof | |
US8526589B2 (en) | Multi-channel telephony | |
CN105744424A (en) | Earphone mode switching method, terminal and earphone | |
CN110856068B (en) | Communication method of earphone device | |
JP2017092608A (en) | Telephone conversation device | |
EP3886455A1 (en) | Controlling audio output |