JP2022108957A - Data processing device, data processing system, and voice processing method - Google Patents
Data processing device, data processing system, and voice processing method Download PDFInfo
- Publication number
- JP2022108957A JP2022108957A JP2021004208A JP2021004208A JP2022108957A JP 2022108957 A JP2022108957 A JP 2022108957A JP 2021004208 A JP2021004208 A JP 2021004208A JP 2021004208 A JP2021004208 A JP 2021004208A JP 2022108957 A JP2022108957 A JP 2022108957A
- Authority
- JP
- Japan
- Prior art keywords
- data
- processing device
- encoded data
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 304
- 238000003672 processing method Methods 0.000 title claims description 47
- 238000004891 communication Methods 0.000 claims abstract description 85
- 230000005540 biological transmission Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 25
- 230000006866 deterioration Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、データ処理装置、データ処理システム、音声処理方法に関する。 The present invention relates to a data processing device, a data processing system, and an audio processing method.
近年、パンデミック対策として各企業においてテレワークの導入が加速している。テレワークにおいては、オフィスと在宅のテレワーカー、または在宅のテレワーカー同士がインターネット経由で結ばれ、ネットワーク対応のTV会議システムまたはPC上のビデオ通話ソフトを用いて、リモート会議、研修および遠隔コミュニケーションなどが行われる。 In recent years, companies are accelerating the introduction of telework as a countermeasure against pandemics. In telework, the office and teleworkers at home, or teleworkers at home are connected via the Internet, and remote meetings, training, remote communication, etc. done.
上記のTV会議システムおよびビデオ通話ソフトでは、使用される装置の種別や構成によっては会議参加時に映像や音声に不具合が生じる場合がある。このため、利用者が会議に参加する前にTV会議システムの動作確認を行える仕組みが知られている。例えば、特許文献1には、会議で使用する通常モードと、事前確認用のセルフチェックモードを備え、遠隔会議時に相手側に伝えられる音声品質を確認できる技術が開示されている。当該技術では、セルフチェックモードにおいて、利用者の発話音声が圧縮された後、当該利用者の端末内で圧縮された発話音声がループバックされ、さらに伸張された後に発話音声が再生される。これにより、利用者は、音声の圧縮と伸張による劣化具合を確認し得る。
In the above TV conference system and video call software, depending on the type and configuration of the device used, problems may occur in video and audio when participating in a conference. For this reason, a mechanism is known in which a user can check the operation of the TV conference system before participating in the conference. For example,
しかし、利用者の音声データが会議に参加する他の利用者の端末に向けて送信されても、ネットワークまたは他の利用者の端末の問題などにより、利用者の音声が他の利用者の端末から出力されないことがある。このため、会議開催の都度、参加する利用者間で「音声届いていますか?」といった会話による確認が行われることが多い。これは利用者が増える度に繰り返され、会議の途中参加の場合は逆に会議を中断するわけにもいかず、確認ができないままの場合がある。なお、特許文献1に記載の技術は、利用者の発話音声を利用者の端末内でループバックする技術であるので、特許文献1に記載の技術では利用者の音声データが会議に参加する他の利用者の端末に届くか否かを確認することは困難である。
However, even if the user's voice data is sent to the terminals of other users participating in the conference, the user's voice may be may not be output from For this reason, each time a conference is held, it is often the case that confirmation is made by conversation between participating users, such as "Are you receiving audio?" This is repeated every time the number of users increases, and in the case of midway participation in the conference, it is not possible to interrupt the conference, and confirmation may not be possible. In addition, since the technology described in
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、利用者間での会話による確認無しにデータの到達状況を確認することが可能な、新規かつ改良されたデータ処理装置、データ処理システム、音声処理方法を提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to provide a new and novel method that enables confirmation of data arrival status without confirmation by conversation between users. An object of the present invention is to provide an improved data processing device, data processing system, and voice processing method.
上記課題を解決するために、本発明のある観点によれば、他のデータ処理装置から第1の符号化データを受信する受信部と、前記受信部により受信された第1の符号化データを復号する復号部と、前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、前記第1の符号化データが前記他の通信装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他の通信装置への送信を制御する制御部と、を備える、データ処理装置が提供される。 In order to solve the above problems, according to one aspect of the present invention, a receiving unit for receiving first encoded data from another data processing device, and receiving the first encoded data received by the receiving unit, a decoding unit that decodes; an encoding unit that encodes data obtained by the decoding unit to generate second encoded data; and a control unit that controls transmission of the second encoded data to the other communication device if the data is determined to be data transmitted in the above.
前記データ処理装置は、前記復号部により得られた前記データに基づいて音声または映像を出力する出力部をさらに備え、前記出力部は、前記制御部により第1の符号化データが前記他のデータ処理装置から前記特定の動作モードで送信されたデータであると判断された場合、前記復号部により得られた前記データに基づいて音声および映像を出力しなくてもよい。 The data processing device further includes an output unit that outputs audio or video based on the data obtained by the decoding unit, and the output unit causes the first encoded data to be converted to the other data by the control unit. When it is determined from the processing device that the data is transmitted in the specific operation mode, the audio and video may not be output based on the data obtained by the decoding section.
前記符号化部は、前記第1の符号化データの生成に用いられた第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて前記第2の符号化データを生成してもよい。 The encoding unit generates the second encoded data using a second processing method that causes less quality deterioration than the first processing method used to generate the first encoded data. good too.
前記制御部は、前記第1の符号化データの通信に用いられた第1の通信方式よりも信頼性が高い第2の通信方式で前記第2の符号化データの送信を制御してもよい。 The control unit may control transmission of the second encoded data using a second communication scheme having higher reliability than the first communication scheme used for communication of the first encoded data. .
前記制御部は、前記第1の符号化データに所定のフラグが付加されていることに基づき、前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断してもよい。 Based on the fact that a predetermined flag is added to the first encoded data, the control section controls that the first encoded data is data transmitted in a specific operation mode from the other data processing device. You can judge that there is.
また、上記課題を解決するために、本発明の別の観点によれば、第1のデータ処理装置および第2のデータ処理装置を有するデータ処理システムであって、前記第1のデータ処理装置は、データを符号化して得られた第1の符号化データを前記第2のデータ処理装置に送信し、前記第2のデータ処理装置は、前記第1のデータ処理装置から第1の符号化データを受信する受信部と、前記受信部により受信された第1の符号化データを復号する復号部と、前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、前記第1の符号化データが前記第1のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記第1のデータ処理装置への送信を制御する制御部と、を備える、データ処理システムが提供される。 In order to solve the above problems, according to another aspect of the present invention, there is provided a data processing system having a first data processing device and a second data processing device, wherein the first data processing device comprises transmitting first encoded data obtained by encoding data to the second data processing device, the second data processing device receiving the first encoded data from the first data processing device; a decoding unit that decodes the first encoded data received by the receiving unit; and an encoding that encodes the data obtained by the decoding unit to generate second encoded data and the first data of the second encoded data when it is determined that the first encoded data is data transmitted from the first data processing device in a specific operation mode. and a controller for controlling transmission to the processing device.
また、上記課題を解決するために、本発明の別の観点によれば、他のデータ処理装置から第1の符号化データを受信することと、前記第1の符号化データを復号することと、前記第1の符号化データの復号により得られたデータを符号化して第2の符号化データを生成することと、前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他のデータ処理装置への送信を制御することと、を含む、音声処理方法が提供される。 Further, in order to solve the above problems, according to another aspect of the present invention, receiving first encoded data from another data processing device, and decoding the first encoded data. encoding data obtained by decoding the first encoded data to generate second encoded data; and receiving the first encoded data from the other data processing device in a specific operation mode and controlling the transmission of said second encoded data to said other data processing device if it is determined that said data was transmitted by said method.
また、上記課題を解決するために、本発明の別の観点によれば、入力されたデータを符号化して符号化データを生成する符号化部と、前記符号化データを他のデータ処理装置に送信する送信部と、前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信する受信部と、第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御する制御部と、を備える、データ処理装置が提供される。 In order to solve the above problems, according to another aspect of the present invention, there is provided an encoding unit that encodes input data to generate encoded data; a transmitting unit for transmitting; a receiving unit for receiving first encoded data or second encoded data from said other data processing device; and in a first operation mode, voice based on said first encoded data Alternatively, there is provided a data processing device comprising: a control unit that controls video output, and controls audio or video output based on the second encoded data in a second operation mode.
前記第1の符号化データは第1の通信方式を用いて送信されたデータであり、前記第2の符号化データは、前記第1の通信方式よりも信頼性が高い第2の通信方式で送信されたデータであり、前記受信部は、前記第1の通信方式に対応し、前記第1の符号化データを受信する第1受信部、および前記第2の通信方式に対応し、前記第2の符号化データを受信する第2受信部、を有してもよい。 The first encoded data is data transmitted using a first communication scheme, and the second encoded data is transmitted using a second communication scheme having higher reliability than the first communication scheme. the transmitted data, wherein the receiving unit corresponds to the first communication system and receives the first encoded data; and a second receiver for receiving two encoded data.
前記第1の符号化データは第1の処理方式を用いて生成されたデータであり、前記第2の符号化データは前記第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて生成されたデータであり、前記データ処理装置は、前記第1の処理方式に対応し、前記第1の符号化データを復号する第1復号部、および、前記第2の処理方式に対応し、前記第2の符号化データを復号する第2復号部、を有してもよい。 The first encoded data is data generated using a first processing method, and the second encoded data is generated using a second processing method with less quality deterioration than the first processing method. and the data processing device corresponds to the first processing method, the first decoding unit for decoding the first encoded data, and the second processing method. and a second decoding unit that decodes the second encoded data.
前記データ処理装置は、入力されたデータを保持する第1バッファをさらに備え、前記制御部は、前記第1バッファに保持されたデータを前記符号化部に供給してもよい。 The data processing device may further include a first buffer that holds input data, and the control section may supply the data held in the first buffer to the encoding section.
前記データ処理装置は、複数の他のデータ処理装置から受信された複数の前記第2の符号化データを復号して得られた複数のデータを保持する第2バッファをさらに備え、前記制御部は、前記第2バッファに保持された複数のデータの出力を順次に制御してもよい。 The data processing device further comprises a second buffer holding a plurality of data obtained by decoding the plurality of second encoded data received from the plurality of other data processing devices, wherein the control unit , the output of the plurality of data held in the second buffer may be sequentially controlled.
前記送信部は、前記第2の動作モードにおいては、所定のフラグと共に前記符号化データを送信してもよい。 The transmitting section may transmit the encoded data together with a predetermined flag in the second operation mode.
また、上記課題を解決するために、本発明の別の観点によれば、入力されたデータを符号化して符号化データを生成することと、前記符号化データを他のデータ処理装置に送信することと、前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信することと、第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御することと、を含む、音声処理方法が提供される。 In order to solve the above problems, according to another aspect of the present invention, input data is encoded to generate encoded data, and the encoded data is transmitted to another data processing device. receiving the first encoded data or the second encoded data from the other data processing device; and outputting audio or video based on the first encoded data in a first operation mode. and, in a second mode of operation, controlling output of audio or video based on said second encoded data.
以上説明した本発明によれば、利用者間での会話による確認無しにデータの到達状況を確認することが可能である。 According to the present invention described above, it is possible to confirm the arrival status of data without confirmation by conversation between users.
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Embodiments of the present invention will be described in detail below with reference to the accompanying drawings. In the present specification and drawings, constituent elements having substantially the same functional configuration are denoted by the same reference numerals, thereby omitting redundant description.
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じて音声処理装置20A、20Bおよび20Cのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、音声処理装置20A、20Bおよび20Cを特に区別する必要が無い場合には、各音声処理装置を単に音声処理装置20と称する。
In addition, in this specification and drawings, a plurality of components having substantially the same functional configuration may be distinguished by attaching different alphabets after the same reference numerals. For example, a plurality of configurations having substantially the same functional configuration or logical significance are differentiated like
<1.データ処理システムの概要>
本発明の一実施形態は、遠隔する拠点から複数の利用者が参加する音声会議を実現するデータ処理システムに関する。まず、図1を参照し、本発明の一実施形態によるデータ処理システムの概要を説明する。
<1. Outline of Data Processing System>
One embodiment of the present invention relates to a data processing system that realizes a voice conference in which a plurality of users participate from remote sites. First, with reference to FIG. 1, an outline of a data processing system according to one embodiment of the present invention will be described.
図1は、本発明の一実施形態によるデータ処理システムの構成を示す説明図である。図1に示したように、本発明の一実施形態によるデータ処理システムは、音声処理装置20A~20Fおよび会議サーバ30を有する。
FIG. 1 is an explanatory diagram showing the configuration of a data processing system according to one embodiment of the present invention. As shown in FIG. 1, a data processing system according to one embodiment of the present invention includes
これら音声処理装置20A~20Fおよび会議サーバ30はネットワーク12を介して接続されている。ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
These
図1に示した例では、音声処理装置20A、音声処理装置20Bおよび音声処理装置20Cが同じ音声会議に参加するグループG1に属し、音声処理装置20Dおよび音声処理装置20Eが他の音声会議に参加するグループG2に属し、音声処理装置20Fはいずれの音声会議にも参加していない。
In the example shown in FIG. 1, the
また、図1に示した例では、利用者UAが音声処理装置20Aを利用し、利用者UBが音声処理装置20Bを利用し、利用者UCが音声処理装置20Cを利用し、利用者UDが音声処理装置20Dを利用し、利用者UEが音声処理装置20Eを利用し、利用者UFが音声処理装置20Fを利用している。ただし、データ処理システムを構成する音声処理装置20の数、およびデータ処理システムを利用する利用者Uの数は、より少なくてもよいし、より多くてもよい。
In the example shown in FIG. 1, the user UA uses the
(会議サーバ)
会議サーバ30は、各音声処理装置20の会議への参加と退出を管理する。例えば、会議サーバ30は、WebRTC(Web Real-Time Communication)のような会議用のプロトコルを用いて各音声処理装置20の会議への参加と退出を管理する。映像データおよび音声データの通信は、会議サーバ30を介さずに、上記グループG1内およびグループG2内などのグループ内で行われる。なお、音声処理装置20同士がPeer2Peerで接続する場合には、会議サーバ30は設けられなくてもよい。
(conference server)
The
(音声処理装置)
音声処理装置20は、データ処理装置の一例であり、音声処理装置20の利用者が発した音声を示す音声データを他の音声処理装置20に送信する。また、音声処理装置20は、他の音声処理装置20の利用者が発した音声を示す音声データを他の音声処理装置20から受信し、当該音声データに基づいて他の音声処理装置20の利用者が発した音声を出力する。
(sound processing device)
The
例えば、図1に示した例では、利用者UAが発した音声を示す音声データを音声処理装置20Aが音声処理装置20Bおよび音声処理装置20Cに送信し、音声処理装置20Bおよび音声処理装置20Cが当該音声データに基づいて利用者UAが発した音声を出力する。また、利用者UBが発した音声を示す音声データを音声処理装置20Bが音声処理装置20Aに送信し、音声処理装置20Aが当該音声データに基づいて利用者UBが発した音声を出力する。また、利用者UCが発した音声を示す音声データを音声処理装置20Cが音声処理装置20Aに送信し、音声処理装置20Aが当該音声データに基づいて利用者UCが発した音声を出力する。かかる構成により、利用者UA、利用者UBおよび利用者UCが音声会議を行うことが可能である。
For example, in the example shown in FIG. 1, the
なお、音声処理装置20は、音声データに加えて、映像データを他の音声処理装置20と送受信してもよい。また、図1においては音声処理装置20の一例としてノート型のPC(Personal Computer)を示しているが、音声処理装置20は、デスクトップ型のPC、スマートフォン、携帯電話またはPHS(Personal Handyphone System)などの他の情報処理装置であってもよい。
Note that the
(背景)
このようなデータ処理システムにおいては、利用者の音声データが会議に参加する他の利用者の音声処理装置に向けて送信されても、ネットワークまたは他の利用者の音声処理装置の問題などにより、利用者の音声が他の利用者の音声処理装置から出力されないことがある。このため、会議開催の都度、参加する利用者間で「音声届いていますか?」といった会話による確認が行われることが多い。これは利用者が増える度に繰り返され、会議の途中参加の場合は逆に会議を中断するわけにもいかず、確認ができないままの場合がある。
(background)
In such a data processing system, even if a user's voice data is sent to the voice processing devices of other users participating in the conference, problems with the network or other users' voice processing devices may result in A user's voice may not be output from other users' voice processing devices. For this reason, each time a conference is held, it is often the case that confirmation is made by conversation between participating users, such as "Are you receiving audio?" This is repeated every time the number of users increases, and in the case of midway participation in the conference, it is not possible to interrupt the conference, and confirmation may not be possible.
また、場合によっては受信側の音声処理装置の出力の問題でありながら送信側の音声処理装置の問題であるかのように指摘され、トラブル解決に時間を割かれることがある。逆に、送信側の音声処理装置の障害でありながら、利用者が受信側の音声処理装置の障害であるかのように勘違いすることもある。さらに、遠隔会議はネットワーク環境に大きく左右されるので、パケットの遅延やロスの影響で音声データの品質が低下することがあるが、会議途中で動作確認を行うことが困難であった。 In some cases, the output problem of the receiving-side audio processing device may be pointed out as if it were a problem of the transmitting-side audio processing device, and time may be spent on solving the problem. Conversely, the user may mistakenly think that the problem is the speech processing device on the receiving side even though the problem is the speech processing device on the transmitting side. Furthermore, teleconferencing is greatly affected by the network environment, and packet delays and losses can degrade the quality of voice data, making it difficult to check operations during a conference.
なお、会議サーバ側で映像データと音声データをループバックして音声処理装置の動作確認を行えるように会議サーバを構成することも考えられる。しかし、図1に示したように会議中は各音声処理装置の映像データと音声データが会議サーバを介さずに送受信されるシステムにおいては、音声処理装置から他の音声処理装置への音声データの到達状況を会議途中に確認することは困難である。 It is also conceivable to configure the conference server so that the video data and the audio data can be looped back on the conference server side to check the operation of the audio processing device. However, as shown in FIG. 1, in a system in which video data and audio data of each audio processing device are transmitted and received without going through the conference server during a conference, it is difficult to transfer audio data from one audio processing device to another audio processing device. It is difficult to check the arrival status during the meeting.
本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態によれば、利用者間での会話による確認無しに音声データの到達状況を確認することが可能となる。結果、音声会議を円滑に進めることが可能となる。以下、このような本発明の一実施形態の構成および動作を順次詳細に説明する。 The inventor of the present invention has created an embodiment of the present invention by focusing on the above circumstances. According to one embodiment of the present invention, it is possible to check the delivery status of voice data without confirmation by conversation between users. As a result, it becomes possible to proceed with the audio conference smoothly. Hereinafter, the configuration and operation of such an embodiment of the present invention will be sequentially described in detail.
<2.音声処理装置の概要>
図2は、本発明の一実施形態による音声処理装置20の構成を示す説明図である。図2に示したように、本発明の一実施形態による音声処理装置20は、音声入力部220、第1符号化部224、第1通信部228、第1復号部232、音声出力部236、操作部238、制御部240、第1バッファ244、回送部248、第2符号化部252、第2通信部256、第2復号部260および第2バッファ264を備える。
<2. Overview of audio processing device>
FIG. 2 is an explanatory diagram showing the configuration of the
(音声入力部220)
音声入力部220は、音声処理装置20の利用者が発した音声が入力される構成である。音声入力部220は、音声処理装置20の利用者が発した音声を電気的な音声データに変換し、音声データを第1符号化部224および第1バッファ244に供給する。音声入力部220は、マイクデバイスで構成されてもよいし、会議に使用されるカメラデバイスに搭載されるマイクであってもよい。
(Voice input unit 220)
The
(第1符号化部224)
第1符号化部224は、音声入力部220から供給された音声データを第1の処理方式を用いて符号化して符号化音声データを生成する。第1の処理方式は、非可逆の圧縮方式であってもよい。本明細書においては、第1符号化部224により生成された符号化音声データを第1の符号化音声データと称する場合もある。
(First encoding unit 224)
The
(第1通信部228)
第1通信部228は、第1符号化部224により生成された符号化音声データを他の音声処理装置20に送信する送信部(第1送信部)、および他の音声処理装置20から第1の処理方式で生成された符号化音声データを受信する受信部(第1受信部)として機能する。第1通信部228は、第1の通信方式として、例えばUDPのような会議用のプロトコルを用いて通信する。第1通信部228は、他のプロトコルとしてTCPを用いてもよいが、パケット遅延が大きくなった場合には遅延解消のためにパケットを破棄することが想定される。
(First communication unit 228)
The
(第1復号部232)
第1復号部232は、第1通信部228により他の音声処理装置20から受信された符号化音声データを第1の処理方式を用いて復号する。
(First decoding unit 232)
The
(音声出力部236)
音声出力部236は、第1復号部232により得られた音声データに基づき、他の音声処理装置20の利用者が発した音声を出力する。音声出力部236は、スピーカデバイス、マイクデバイスと一体のヘッドセット、またはマイクスピーカなどであってもよい。また、音声出力部236は、後述の第2バッファ264から供給される音声も出力する。
(Audio output unit 236)
The
音声処理装置20の動作モードには、第1の動作モードの一例である通常モード、および第2の動作モード(特定の動作モード)の一例である試験モードがある。通常モードでは、上述した音声入力部220、第1符号化部224、第1通信部228、第1復号部232および音声出力部236が動作することにより、音声処理装置20の利用者間で音声会議を行うことが可能である。試験モードでは、後述する第2通信部256、第2復号部260および第2バッファ264などの動作により、音声処理装置20の利用者の音声データが他の音声処理装置20に到達したか否か、到達した場合にはどのような品質で到達したかを確認することが可能である。
The operation modes of the
(操作部238)
操作部238は、音声処理装置20の利用者が音声処理装置20に情報または指示などを入力するために操作する構成である。例えば、音声処理装置20の利用者は、音声処理装置20の動作モードを通常モードと試験モードとの間で切り替えるための指示を操作部238に入力する。
(Operation unit 238)
The
(制御部240)
制御部240は、音声処理装置20の動作全般を制御する。例えば、制御部240は、操作部238に対する利用者の指示に従い、音声処理装置20の動作モードを通常モードと試験モードとの間で切り替える。試験モードにおいては、制御部240は、例えば以下に示す制御を行う。
(control unit 240)
The
制御部240は、音声入力部220から第1符号化部224への音声データの供給を停止させる。代わりに、制御部240は、第1バッファ244に保持されている音声データを第1符号化部224に供給する。第1符号化部224は、第1バッファ244から供給された音声データを符号化して符号化音声データを生成する。利用者の指示に従い、第1バッファ244を使用せず音声入力部220から第1符号化部224から供給された音声データを符号化して符号化音声データを生成してもよい。
The
制御部240は、符号化音声データの送信と共に試験モードに関する情報を第1通信部228に送信させる。試験モードに関する情報は、所定のフラグ、および他の音声処理装置20からのデータ待ち受け用のアドレスおよびポートを示す情報を含む。第1通信部228がWebRTCを用いて通信を行う場合、第1通信部228は、例えばデータチャンネルを用いて当該試験モードに関する情報を送信してもよい。
The
制御部240は、第1通信部228による符号化音声データの受信、第1通信部228から第1復号部232への符号化音声データの供給、第1復号部232による符号化音声データの復号、または第1復号部232から音声出力部236への音声データの供給、のうちの少なくともいずれかを停止させる。
The
第2復号部260および第2バッファ264を動作状態として、第2通信部256により他の音声処理装置20から受信された符号化音声データ(第2の処理方式により生成された第2の符号化音声データ)を第2復号部260に復号させ、復号により得られた音声データを第2バッファ264に保持させ、第2バッファ264に保持された1または2以上の音声データを音声出力部236に順次出力させる。
With the
また、通常モードにおいては、制御部240は、例えば以下に示す制御を行う。
Also, in the normal mode, the
制御部240は、第2復号部260および第2バッファ264を非動作状態とする。
制御部240は、第1通信部228により他の音声処理装置20から符号化音声データと共に試験モードを示す情報が受信された場合、符号化音声データが他の音声処理装置20から試験モードで送信されたデータであると判断する。
When the information indicating the test mode is received together with the encoded audio data from the other
符号化音声データが他の音声処理装置20から試験モードで送信されたデータである場合、制御部240は、第1復号部232により当該符号化音声データから得られた音声データを音声出力部236に供給しない。代わりに、制御部240は、回送部248に第2符号化部252に回送させる。結果、第2符号化部252が当該音声データを第2の処理方式で符号化して符号化音声データを生成し、第2通信部256が当該符号化音声データを他の音声処理装置20に第2の通信方式を用いて送信する。
If the encoded audio data is data transmitted in the test mode from another
(第1バッファ244)
第1バッファ244は、音声入力部220から供給される音声データの一部を試験用の音声データとして一時的に保持する。試験モードにおいて、利用者からの操作部238への操作に基づいて第1バッファ244から第1符号化部224に音声データが供給される。
(first buffer 244)
The
(回送部248)
回送部248は、第1通信部228により他の音声処理装置20から符号化音声データと共に試験モードを示す情報が受信された場合、当該符号化音声データを復号して得られた音声データを第1復号部232から第2符号化部252に受け渡す。
(forwarding unit 248)
When the information indicating the test mode is received together with the encoded audio data from another
(第2符号化部252)
第2符号化部252は、回送部248から受け取った音声データを第2の処理方式を用いて符号化して符号化音声データを生成する。第2の処理方式は、第1の処理方式よりも音声品質の劣化が小さい処理方式である。第2の処理方式は、音声データが劣化しない可逆性の符号化方式であってもよい。本明細書においては、第2符号化部252により生成された符号化音声データを第2の符号化音声データと称する場合もある。
(Second encoding unit 252)
The
(第2通信部256)
第2通信部256は、第2符号化部252により生成された符号化音声データを、試験モードを示す情報と共に符号化音声データを送信した他の音声処理装置20に送信する送信部(第2送信部)、および他の音声処理装置20から第2の処理方式で生成された符号化音声データを受信する受信部(第2受信部)として機能する。第2通信部256は、第1の通信方式よりも信頼性が高い第2の通信方式を用いて通信を行ってもよい。そのような第2の通信方式としては、例えば、パケット遅延が起きても音声データの保全を最優先とするTCPが挙げられる。なお、第2通信部256と第1通信部228とは同一のネットワークデバイスにおいて実現される機能であってもよい。
(Second communication unit 256)
The
(第2復号部260)
第2復号部260は、第2通信部256により他の音声処理装置20から受信された符号化音声データを第2の処理方式を用いて復号する。
(Second decoding unit 260)
The
(第2バッファ264)
第2バッファ264は、第2復号部260により得られた音声データを一時的に保持する。第2バッファ264は、音声処理装置20と通信する他の音声処理装置20が複数台あり、複数の音声処理装置20から第2通信部256により符号化音声データが受信された場合に、複数の符号化音声データを復号して得られた複数の音声データを保持する。第2バッファ264により保持された複数の音声データは、制御部240による制御に従って音声出力部236から順次に音声として出力される。なお、音声処理装置20と通信する他の音声処理装置20が1台である場合には第2バッファ264は音声データを保持せず、音声出力部236が当該音声データに基づいて音声を出力してもよい。
(Second buffer 264)
A
<3.動作>
以上、本発明の一実施形態による音声処理装置20の構成を説明した。続いて、本発明の一実施形態によるデータ処理システムの動作を説明する。
<3. Operation>
The configuration of the
(接続シーケンス)
まず、図3を参照して、本発明の一実施形態によるデータ処理システムにおける接続シーケンスを説明する。
(connection sequence)
First, referring to FIG. 3, the connection sequence in the data processing system according to one embodiment of the present invention will be described.
図3は、本発明の一実施形態によるデータ処理システムにおける接続シーケンスを示す説明図である。図3に示したように、まず、利用者UAが音声処理装置20Aの操作部238に対して会議への接続操作を行う(S1)。会議への接続は、会議サーバ30が事前に用意した会議室を指定する方法でもよいし、新たに会議室を作成する方法でもよい。音声処理装置20Aは、利用者UAからの操作に従い、会議サーバ30へ接続要求を送信する(S2)。
FIG. 3 is an explanatory diagram showing the connection sequence in the data processing system according to one embodiment of the present invention. As shown in FIG. 3, first, the user UA performs a conference connection operation on the
同様に、まず、利用者UBが音声処理装置20Bの操作部238に対して会議への接続操作を行うと(S3)、音声処理装置20Bが会議サーバ30へ接続要求を送信する(S4)。音声処理装置20Aおよび音声処理装置20Bが同一の会議室を指定した場合、会議サーバ30が音声処理装置20Aおよび音声処理装置20Bに互いにPeer2Peerで通信を行うように接続指示を出し(S5,S6)、音声処理装置20Aおよび音声処理装置20Bが接続を確立する(S7,S8)。
Similarly, first, when the user UB operates the
接続の確立後、利用者UAが音声処理装置20Aに向かって発話すると(S9)、音声処理装置20Aの第1符号化部224が符号化音声データを生成し、符号化音声データを音声処理装置20Bに送信する(S10)。そして、音声処理装置20Bの第1復号部232が符号化音声データを復号し、復号により得られた音声データに基づいて音声処理装置20Bの音声出力部236が利用者UAの音声を出力する(S11)。
After the connection is established, when the user UA speaks to the
同様に、利用者UBが音声処理装置20Bに向かって発話すると(S12)、音声処理装置20Bの第1符号化部224が符号化音声データを生成し、符号化音声データを音声処理装置20Aに送信する(S13)。そして、音声処理装置20Aの第1復号部232が符号化音声データを復号し、復号により得られた音声データに基づいて音声処理装置20Aの音声出力部236が利用者UBの音声を出力する(S14)。この間、符号化音声データは会議サーバ30を経由しない。会議室に参加する音声処理装置20が増えても同様のシーケンスにより各音声処理装置20を接続することが可能である。
Similarly, when user UB speaks toward
(試験モードでのシーケンス)
続いて、音声処理装置20Aおよび音声処理装置20Bの接続が確立された後に、音声処理装置20Aが試験モードに移行した場合の処理シーケンスを説明する。
(Sequence in test mode)
Next, a processing sequence when the
図4は、音声処理装置20Aが試験モードに移行した場合の処理シーケンスを示す説明図である。利用者UAが音声処理装置20Aに対して音声試験の開始操作を行うと(S21)、音声処理装置20Aが試験モードへ移行する(S22)。試験モードでは、後述の符号化音声データの送信において、相手装置に試験用の音声データであることを示すフラグが設定される。
FIG. 4 is an explanatory diagram showing a processing sequence when the
その後、利用者UAは、試験モードにおいて発話を行うか、第1バッファ244に保持している音声データを使うかの指示を出す(S23)。利用者UAが試験用の発話を行うと(S24)、音声処理装置20Aの第1バッファ244が一定時間の音声データを保持し(S25:第1バッファリング)、当該保持された音声データを第1符号化部224が第1の処理方式を用いて符号化して符号化音声データを生成する(S27:第1符号化)。
After that, the user UA issues an instruction to speak in the test mode or to use the voice data held in the first buffer 244 (S23). When the user UA makes a test utterance (S24), the
一方、第1バッファ244に保持している音声データを使う場合、第1バッファ244に保持されている音声データがあれば、制御部240は当該音声データを第1符号化部224に供給し(S26)、第1符号化部224は当該音声データを第1の処理方式を用いて符号化して符号化音声データを生成する(S27:第1符号化)。
On the other hand, when using the audio data held in the
いずれにしても、符号化音声データは、所定のフラグを含む試験モードに関する情報を伴って音声処理装置20Aの第1通信部228から音声処理装置20Bに送信される(S28)。試験モードに関する情報は、所定のフラグに加えて、音声処理装置20Bからのデータ待ち受け用のアドレスとポート等を示す情報を含む。
In any case, the encoded audio data is transmitted from the
音声処理装置20Bの第1通信部228が符号化音声データを受信すると、音声処理装置20Bの第1復号部232が当該符号化音声データを第1の処理方式を用いて復号する(S29:第1復号)。ここで、音声処理装置20Bの制御部240が所定のフラグの設定に基づいて当該符号化音声データが試験モードで送信されたデータであると判断すると、音声処理装置20Bの回送部248が復号により得られた音声データを第2符号化部252に回送し、第2符号化部252が当該音声データを第2の処理方式を用いて符号化する(S30:第2符号化)。そして、音声処理装置20Bの第2通信部256が符号化により生成された符号化音声データを音声処理装置20Aに送信する(S31)。
When the
音声処理装置20Aの第2通信部256が符号化音声データを受信すると、音声処理装置20Aの第2復号部260が符号化音声データを第2の処理方式を用いて復号し(S32:第2復号)、第2バッファ264が復号により得られた音声データを一時的に保持する(S33:第2バッファリング)。
When the
その後、音声出力部236が、第2バッファ264に保持されている音声データに基づいて音声を出力する(S34)。音声処理装置20Aの相手先の装置が複数存在する場合、音声出力部236は、第2バッファ264に保持されている複数の音声データを任意の順番で再生する。そして、制御部240が試験モード終了の処理を行い、所定のフラグの設定を外す(S35)。
After that, the
(音声データの流れ)
ここで、図5および図6を参照して、通常モードにおける音声データの流れ、および試験モードにおける音声データの流れを整理する。
(Audio data flow)
Here, with reference to FIGS. 5 and 6, the flow of audio data in the normal mode and the flow of audio data in the test mode will be organized.
図5は、音声処理装置20Aおよび音声処理装置20Bの通常モードにおける音声データの流れを示す説明図である。図5において、実線は音声処理装置20Aの利用者UAの音声データの流れを示し、二点鎖線は音声処理装置20Bの利用者UBの音声データの流れを示している。
FIG. 5 is an explanatory diagram showing the flow of audio data in the normal mode of the
図5において実線で示したように、通常モードにおいては、利用者UAの音声データは、音声処理装置20Aの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Bの第1通信部228、第1復号部232、音声出力部236、という流れで処理される。同様に、図5において二点鎖線で示したように、利用者UBの音声データは、音声処理装置20Bの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Aの第1通信部228、第1復号部232、音声出力部236、という流れで処理される。
As indicated by the solid line in FIG. 5, in the normal mode, the voice data of the user UA is input to the
図6は、音声処理装置20が試験モードで動作し、音声処理装置20Bが通常モードで動作している場合の音声データの流れを示す説明図である。図6において、実線は音声処理装置20Aの利用者UAの音声データの流れを示し、二点鎖線は音声処理装置20Bの利用者UBの音声データの流れを示している。
FIG. 6 is an explanatory diagram showing the flow of audio data when the
図6において実線で示したように、試験モードにおいては、利用者UAの音声データは、音声処理装置20Aの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Bの第1通信部228、第1復号部232、回送部248、第2符号化部252、第2通信部256という流れで処理され、第2の処理方式で生成された符号化音声データが音声処理装置20Aに送信される。その後、符号化音声データが音声処理装置20Aの第2通信部256、第2復号部260、第2バッファ264、音声出力部236という流れで処理され、音声処理装置20Aの音声出力部236から利用者UAの音声が出力される。なお、音声処理装置20Bにおいて、第1復号部232から音声出力部236へは音声データが供給されないので、音声処理装置20Bの音声出力部236からは利用者UAの音声データは出力されない。
As indicated by the solid line in FIG. 6, in the test mode, the voice data of the user UA is input to the
一方、図6において二点鎖線で示したように、音声処理装置20Aが試験モードで動作している場合には、利用者UBの音声データは、音声処理装置20Bの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Aの第1通信部228、第1復号部232という流れで処理される。第1復号部232により得られた音声データは音声出力部236に供給されないので、音声処理装置20Aの音声出力部236からは利用者UBの音声データは出力されない。
On the other hand, as indicated by the two-dot chain line in FIG. 6, when the
<4.作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が発揮される。例えば、本発明の一実施形態による音声処理装置20は、試験モードにおいて、利用者の音声データを他の音声処理装置20から折り返して受信し、当該音声データに基づいて利用者の音声を出力する。従って、利用者の音声データが他の音声処理装置20に到達する環境であるか否かの確認を、利用者間で「音声届いていますか?」といった会話による確認無しに行うことが可能である。結果、このような会話により会議の進行が妨げられないので、会議を円滑に進行することが可能となる。
<4. Action effect>
According to one embodiment of the present invention described above, various functions and effects are exhibited. For example, in the test mode, the
また、本発明の一実施形態による音声処理装置20は、ネットワーク対応のTV会議システムやPC上のビデオ通話ソフトにおいて、通常の会議や会話の際の符号化方式(第1の処理方式)および速度重視の送受信のプロトコル(第1の通信方式)に加えて、可逆式の符号化方式(第2の処理方式)と確実性重視の送受信プロトコル(第2の通信方式)に対応している。そして、他の音声処理装置20からの音声データの折り返しには、第2の処理方式および第2の通信方式が用いられる。従って、音声処理装置20の利用者は、音声処理装置20から出力される自身の音声に基づき、他の音声処理装置20で出力されるだろう音声の品質を確認することが可能である。また、音声処理装置20から出力された自身の音声の品質に問題がなければ、音声処理装置20と他の音声処理装置20の内部処理および双方のネットワークには問題がないことが分かるので、トラブル原因の追究の時間ロスを軽減することができる。
In addition, the
また、本発明の一実施形態による音声処理装置20は、試験モードにおいて、他の音声処理装置20から受信された通常の音声データに基づく音声の出力を行わない。従って、音声処理装置20の利用者は、他の音声処理装置20から折り返して受信された自身の音声を明確に聞くことで、当該音声の品質をより正確に把握することが可能である。また、他の音声処理装置20においては、試験モードで動作する音声処理装置20から送信された音声データに基づく音声の出力を行わないので、試験用の音声により会議が妨げられることを防止できる。
Also, the
また、本発明の一実施形態による音声処理装置20は第2バッファ264を備えるので、音声処理装置20が複数の他の音声処理装置20と会議を行う場合でも、他の音声処理装置20の各々から折り返して受信された自身の音声を順番に聞くことが可能である。
In addition, since the
<5.変形例>
以上、本発明の一実施形態を説明した。以下では、上述した実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で上述した実施形態に適用されてもよいし、組み合わせで上述した実施形態に適用されてもよい。また、各変形例は、上述した実施形態の構成に代えて適用されてもよいし、上述した実施形態の構成に対して追加的に適用されてもよい。
<5. Variation>
An embodiment of the present invention has been described above. Several modifications of the above-described embodiment are described below. In addition, each modification described below may be applied to the above-described embodiment alone, or may be applied in combination to the above-described embodiment. Further, each modification may be applied instead of the configuration of the embodiment described above, or may be applied additionally to the configuration of the embodiment described above.
上記では第2の処理方式として、通常の会議や会話の際の符号化方式(第1の処理方式)と異なる方式を説明した。しかし、第2の処理方式の種類は第1の処理方式の種類と同じであり、第2の処理方式に適用されるパラメータが第1の処理方式に適用されるパラメータと異なってもよい。また、第2の処理方式は完全可逆の方式でなく、ニアロスレスであってもよい。 As the second processing method, a method different from the encoding method (first processing method) used in normal meetings and conversations has been described above. However, the type of the second processing scheme may be the same as the type of the first processing scheme, and the parameters applied to the second processing scheme may differ from the parameters applied to the first processing scheme. Also, the second processing method may be a near-lossless method instead of a completely reversible method.
また、音声処理装置20が通常の会議や会話の際の符号化方式(第1の処理方式)および速度重視の送受信のプロトコル(第1の通信方式)に加えて、可逆式の符号化方式(第2の処理方式)と確実性重視の送受信プロトコル(第2の通信方式)に対応している例を説明したが、音声処理装置20は、第2の処理方式または第2の通信方式の一方または双方に対応していなくてもよい。すなわち、他の音声処理装置20において第1の処理方式で生成された符号化音声データが第1の通信方式で折り返されてもよい。この場合、他の音声処理装置20に届く音声データよりも品質が劣化した音声データが音声処理装置20に折り返されることになるが、音声処理装置20の利用者の音声データが他の音声処理装置20に届いているか否かの確認は可能である。
In addition to the encoding method (first processing method) for normal meetings and conversations and the speed-oriented transmission/reception protocol (first communication method), the
また、上記では音声データを折り返すための機能が音声処理装置20に実装される例を説明したが、当該機能は会議サーバ30にも実装されてもよい。この場合、音声処理装置20は、会議サーバ30および他の音声処理装置20の双方から音声データの折り返しを受け、双方の音声データを比較することで、トラブルの原因究明を行い得る。例えば、会議サーバ30からは正常な音声データが折り返されたが、他の音声処理装置20からは音声データが折り返されない(または、折り返されても品質に問題がある)場合には、音声処理装置20および音声処理装置20側のネットワーク回線には問題が無く、他の音声処理装置20側に何かしらの問題があることが分かる。
Moreover, although the example in which the
また、上記では、データの一例として音声データを説明し、符号化データの一例として符号化音声データを説明したが、映像データおよび符号化映像データにも本発明の一実施形態を適用可能である。すなわち、音声処理装置20は、映像データの折り返しのための機能を有してもよい。この場合、図2を参照して説明した音声入力部220に加えてまたは代えてカメラのような映像入力部が用いられ、音声出力部236に加えてまたは代えてディスプレイのような映像表示部が用いられる。かかる構成によっても、音声処理装置20の利用者の映像が他の音声処理装置20に届くか否か、届く場合にはどのような品質で届くかを確認することが可能である。
In the above description, audio data was described as an example of data, and encoded audio data was described as an example of encoded data, but an embodiment of the present invention can also be applied to video data and encoded video data. . That is, the
<6.ハードウェア構成>
以上、本発明の一実施形態を説明した。上述した音声データの符号化および復号などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
<6. Hardware Configuration>
An embodiment of the present invention has been described above. Information processing such as encoding and decoding of the audio data described above is realized by cooperation between software and hardware of the
図7は、音声処理装置20のハードウェア構成を示したブロック図である。音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、音声処理装置20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
FIG. 7 is a block diagram showing the hardware configuration of the
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述した第1符号化部224、第1復号部232、制御部240、回送部248、第2符号化部252および第2通信部256などの機能が実現され得る。
The
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
The
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
The
ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
The
ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
The
ネットワークインターフェース215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
The
なお、上述した音声処理装置20のハードウェア構成は会議サーバ30にも適用可能である。
Note that the hardware configuration of the
<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<7. Supplement>
Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention belongs can conceive of various modifications or modifications within the scope of the technical idea described in the claims. , of course, are also understood to belong to the technical scope of the present invention.
例えば、本明細書の音声処理装置20の処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
For example, each step in the processing of the
また、音声処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
It is also possible to create a computer program for causing hardware such as the CPU, ROM, and RAM built into the
20 音声処理装置
220 音声入力部
224 第1符号化部
228 第1通信部
232 第1復号部
236 音声出力部
238 操作部
240 制御部
244 第1バッファ
248 回送部
252 第2符号化部
256 第2通信部
260 第2復号部
264 第2バッファ
30 会議サーバ
20
Claims (14)
前記受信部により受信された第1の符号化データを復号する復号部と、
前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、
前記第1の符号化データが前記他の通信装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他の通信装置への送信を制御する制御部と、
を備える、データ処理装置。 a receiving unit that receives the first encoded data from another data processing device;
a decoding unit that decodes the first encoded data received by the receiving unit;
an encoding unit that encodes the data obtained by the decoding unit to generate second encoded data;
Controlling transmission of the second encoded data to the other communication device when it is determined that the first encoded data is data transmitted from the other communication device in a specific operation mode a control unit that
A data processing device comprising:
前記出力部は、前記制御部により第1の符号化データが前記他のデータ処理装置から前記特定の動作モードで送信されたデータであると判断された場合、前記復号部により得られた前記データに基づいて音声および映像を出力しない、請求項1に記載のデータ処理装置。 The data processing device further comprises an output unit that outputs audio or video based on the data obtained by the decoding unit,
The output unit outputs the data obtained by the decoding unit when the control unit determines that the first encoded data is data transmitted from the other data processing device in the specific operation mode. 2. The data processing apparatus of claim 1, wherein no audio or video is output based on.
前記第1のデータ処理装置は、
データを符号化して得られた第1の符号化データを前記第2のデータ処理装置に送信し、
前記第2のデータ処理装置は、
前記第1のデータ処理装置から第1の符号化データを受信する受信部と、
前記受信部により受信された第1の符号化データを復号する復号部と、
前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、
前記第1の符号化データが前記第1のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記第1のデータ処理装置への送信を制御する制御部と、
を備える、データ処理システム。 A data processing system having a first data processing device and a second data processing device,
The first data processing device,
transmitting first encoded data obtained by encoding data to the second data processing device;
The second data processing device is
a receiving unit that receives first encoded data from the first data processing device;
a decoding unit that decodes the first encoded data received by the receiving unit;
an encoding unit that encodes the data obtained by the decoding unit to generate second encoded data;
transmitting the second encoded data to the first data processing device when it is determined that the first encoded data is data transmitted from the first data processing device in a specific operation mode; a control unit for controlling the transmission of
A data processing system comprising:
前記第1の符号化データを復号することと、
前記第1の符号化データの復号により得られたデータを符号化して第2の符号化データを生成することと、
前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他のデータ処理装置への送信を制御することと、
を含む、音声処理方法。 receiving first encoded data from another data processing device;
decoding the first encoded data;
encoding data obtained by decoding the first encoded data to generate second encoded data;
transmitting the second encoded data to the other data processing device when it is determined that the first encoded data is data transmitted from the other data processing device in a specific operation mode; and
An audio processing method, comprising:
前記符号化データを他のデータ処理装置に送信する送信部と、
前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信する受信部と、
第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御する制御部と、
を備える、データ処理装置。 an encoding unit that encodes input data to generate encoded data;
a transmission unit that transmits the encoded data to another data processing device;
a receiving unit that receives the first encoded data or the second encoded data from the other data processing device;
Control for controlling audio or video output based on the first encoded data in the first operation mode, and controlling audio or video output based on the second encoded data in the second operation mode Department and
A data processing device comprising:
前記受信部は、
前記第1の通信方式に対応し、前記第1の符号化データを受信する第1受信部、および
前記第2の通信方式に対応し、前記第2の符号化データを受信する第2受信部、
を有する、請求項8に記載のデータ処理装置。 The first encoded data is data transmitted using a first communication scheme, and the second encoded data is transmitted using a second communication scheme having higher reliability than the first communication scheme. is the data sent,
The receiving unit
A first receiving unit that corresponds to the first communication method and receives the first encoded data, and a second receiving unit that corresponds to the second communication method and receives the second encoded data ,
9. A data processing apparatus according to claim 8, comprising:
前記データ処理装置は、
前記第1の処理方式に対応し、前記第1の符号化データを復号する第1復号部、および、
前記第2の処理方式に対応し、前記第2の符号化データを復号する第2復号部、
を有する、請求項8または9に記載のデータ処理装置。 The first encoded data is data generated using a first processing method, and the second encoded data is generated using a second processing method with less quality deterioration than the first processing method. is data generated using
The data processing device is
a first decoding unit that corresponds to the first processing method and decodes the first encoded data; and
a second decoding unit that corresponds to the second processing method and decodes the second encoded data;
10. A data processing apparatus according to claim 8 or 9, comprising:
前記制御部は、前記第1バッファに保持されたデータを前記符号化部に供給する、請求項8~10のいずれか一項に記載のデータ処理装置。 The data processing device further comprises a first buffer that holds input data,
11. The data processing device according to claim 8, wherein said control section supplies the data held in said first buffer to said encoding section.
前記制御部は、前記第2バッファに保持された複数のデータの出力を順次に制御する、請求項8~11のいずれか一項に記載のデータ処理装置。 The data processing device further comprises a second buffer holding a plurality of data obtained by decoding a plurality of the second encoded data received from a plurality of other data processing devices,
12. The data processing device according to claim 8, wherein said control unit sequentially controls output of a plurality of data held in said second buffer.
前記符号化データを他のデータ処理装置に送信することと、
前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信することと、
第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御することと、
を含む、音声処理方法。 encoding input data to generate encoded data;
transmitting the encoded data to another data processing device;
receiving first encoded data or second encoded data from the other data processing device;
controlling audio or video output based on the first encoded data in a first operation mode, and controlling audio or video output based on the second encoded data in a second operation mode; When,
An audio processing method, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021004208A JP2022108957A (en) | 2021-01-14 | 2021-01-14 | Data processing device, data processing system, and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021004208A JP2022108957A (en) | 2021-01-14 | 2021-01-14 | Data processing device, data processing system, and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022108957A true JP2022108957A (en) | 2022-07-27 |
Family
ID=82556986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021004208A Pending JP2022108957A (en) | 2021-01-14 | 2021-01-14 | Data processing device, data processing system, and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022108957A (en) |
-
2021
- 2021-01-14 JP JP2021004208A patent/JP2022108957A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8713167B1 (en) | Distributive data capture | |
US8817061B2 (en) | Recognition of human gestures by a mobile phone | |
US7822050B2 (en) | Buffering, pausing and condensing a live phone call | |
RU2398361C2 (en) | Intelligent method, audio limiting unit and system | |
US20090135741A1 (en) | Regulated voice conferencing with optional distributed speech-to-text recognition | |
US20070133523A1 (en) | Replay caching for selectively paused concurrent VOIP conversations | |
JP2009194661A (en) | Conference terminal | |
US20110235632A1 (en) | Method And Apparatus For Performing High-Quality Speech Communication Across Voice Over Internet Protocol (VoIP) Communications Networks | |
US11800017B1 (en) | Encoding a subset of audio input for broadcasting conferenced communications | |
TWI435589B (en) | Voip integrating system and method thereof | |
JP2022108957A (en) | Data processing device, data processing system, and voice processing method | |
KR100419931B1 (en) | SIP-Phone Wireless Bridge Unifing terminal And Control method thereof | |
JP2020036225A (en) | Information processing apparatus, information processing method, and information processing program | |
US9503812B2 (en) | Systems and methods for split echo cancellation | |
JP2008271415A (en) | Received voice output apparatus | |
GB2591557A (en) | Audio conferencing in a room | |
JP2006210973A (en) | Communication terminal and its session connection method | |
JP4531013B2 (en) | Audiovisual conference system and terminal device | |
JP2006345103A (en) | Media conference system, and control method, program and storage medium therefor | |
JP6972576B2 (en) | Communication equipment, communication systems, communication methods and programs | |
CN113079267B (en) | Audio conferencing in a room | |
JP2004177777A (en) | Minute preparation system | |
TWI419563B (en) | Multimedia transferring system and method thereof | |
CN111356062A (en) | Data acquisition method, microphone and computer readable storage medium | |
JP4522332B2 (en) | Audiovisual distribution system, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241007 |