JP2018207288A - Redistribution system, redistribution method and program - Google Patents

Redistribution system, redistribution method and program Download PDF

Info

Publication number
JP2018207288A
JP2018207288A JP2017110376A JP2017110376A JP2018207288A JP 2018207288 A JP2018207288 A JP 2018207288A JP 2017110376 A JP2017110376 A JP 2017110376A JP 2017110376 A JP2017110376 A JP 2017110376A JP 2018207288 A JP2018207288 A JP 2018207288A
Authority
JP
Japan
Prior art keywords
content
unit
audio
package
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017110376A
Other languages
Japanese (ja)
Other versions
JP6971059B2 (en
Inventor
成暁 加藤
Nariaki Kato
成暁 加藤
宗 遠藤
Hajime Endo
宗 遠藤
馬場 秋継
Akitsugu Baba
秋継 馬場
石川 清彦
Kiyohiko Ishikawa
清彦 石川
裕紀 藤井
Hironori Fujii
裕紀 藤井
丸山 英樹
Hideki Maruyama
英樹 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017110376A priority Critical patent/JP6971059B2/en
Publication of JP2018207288A publication Critical patent/JP2018207288A/en
Application granted granted Critical
Publication of JP6971059B2 publication Critical patent/JP6971059B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a redistribution system, a redistribution method and a program which can reduce transmission cost and equipment material cost.SOLUTION: The redistribution system includes a receiver unit, an edition unit, an integration unit and a distribution unit. The receiver unit receives a first package which includes at least one type of contents encoded to an HTTP streaming form. The edition unit generates and outputs a new content which is based on at least a part of types among the contents included in the first package received by the receiver unit. The integration unit integrates and outputs the content included in the first package received by the receiver unit, and the new content generated by the edition unit, as one second package. The distribution unit redistributes the second package which is output from the integration unit.SELECTED DRAWING: Figure 1

Description

本発明は、再配信システム、再配信方法、およびプログラムに関する。   The present invention relates to a redistribution system, a redistribution method, and a program.

インターネット等の通信回線を用いて様々なコンテンツ(映像や音声など)をリアルタイムに配信(ストリーミング)する技術が普及してきている。インターネットを利用した映像や音声等の配信は、比較的低コストの設備や、相対的に低い情報伝送コストで実現できるため、今後、ますます活用されていくことが予想されている。   A technique for distributing (streaming) various contents (video, audio, etc.) in real time using a communication line such as the Internet has become widespread. Distribution of video, audio, etc. using the Internet can be realized with relatively low cost facilities and relatively low information transmission costs, and is expected to be used more and more in the future.

ところで、例えば、第1の事業者によって制作されたコンテンツを、第2の事業者が受信して再配信する場合に、コンテンツを付加する場合がある。典型的な例では、特定の地域向けあるいは特定の言語圏向けにコンテンツを再配信するときに、その地域ないしは言語等に特有のコンテンツを付加することが望まれることがある。そのような場合、従来の技術では、まず第1の事業者が制作したコンテンツ(例えば、映像および音声)を第2の事業者向けに伝送する。そして、第2の事業者は、付加すべきコンテンツ(例えば、特定言語による解説音声や、特定地域向けの解説音声)を付加した後、インターネット配信用の形式にエンコードしていた。   By the way, for example, when the content created by the first operator is received and redistributed by the second operator, the content may be added. In a typical example, when content is redistributed for a specific region or a specific language area, it may be desired to add content specific to the region or language. In such a case, in the conventional technology, first, content (for example, video and audio) produced by the first operator is transmitted to the second operator. Then, the second business operator added content to be added (for example, commentary sound in a specific language or commentary sound for a specific region), and then encoded it into a format for Internet distribution.

従来技術によるこのような方法では、第2の事業者がコンテンツを加工し、配信しやすくするため、高品質なコンテンツを専用線などを使用した伝送が必要で、第2の事業者がコンテンツ(上記の音声)を付加するために、多くの機材および工程を要していた。   In such a method according to the prior art, in order for the second operator to process and distribute the content, it is necessary to transmit high-quality content using a dedicated line or the like. In order to add the above voice), a lot of equipment and processes were required.

具体的には、従来技術を用いた場合、第1の事業者から伝送された映像および音声をデコーダーによりデコードし、映像と音声とをDeMUX(デマルチプレクサー)で分離した後、元の音声に付加すべき音声を付加していた。そして、元の映像と付加された音声とをエンコーダーを用いてエンコードし、映像と音声を再びMUX(マルチプレクサー)で結合することでインターネット配信用の形式にエンコードしていた。   Specifically, when the conventional technology is used, the video and audio transmitted from the first operator are decoded by a decoder, the video and audio are separated by DeMUX (demultiplexer), and then the original audio is restored. The voice that should be added was added. Then, the original video and the added audio are encoded using an encoder, and the video and the audio are combined again by a MUX (multiplexer) to be encoded into a format for Internet distribution.

例えば、非特許文献1には、大規模なスポーツイベントに関して、放送事業者が、インターネット経由で全競技・全種目の映像を実際にライブストリーミングで配信した際のシステム構成が記載されている。この文献によれば、イベントが開催されている現地都市のセンター(ブラジル)から、国際回線を用いて、IPVandAのSD画質の映像リソースが、東京の放送センターまで伝送された。なお、SD画質の映像は、約2.5Mbpsのビットレートによるものである。そして、その放送センターにおいて、IPVandAの映像をより低ビットレートの映像にコーディングし直して、インターネット経由での配信が行われた。また、一部の競技の映像に関しては、上記の放送センター内に簡易の音声ブースを構築し、ネット配信独自の解説・実況の音声を付加して配信することが行われた。   For example, Non-Patent Document 1 describes a system configuration when a broadcaster actually distributes all games and events of all sports via a live streaming over a large-scale sports event. According to this document, SDV image quality of IPVandA was transmitted from a local city center (Brazil) where an event was held to a broadcasting center in Tokyo using an international line. Note that SD quality video is based on a bit rate of about 2.5 Mbps. At the broadcast center, the IPVandA video was re-coded into a lower bit rate video and distributed via the Internet. In addition, for some competition videos, a simple audio booth was built in the above broadcasting center, and distributed with explanations and live audio specific to online distribution.

島西顕司,遠藤宗,小久保幸紀,折下伸也,坂井駿一,前田彩、「リオデジャネイロオリンピック デジタルコンテンツ制作について」、放送技術、2016年11月、p.104−106.Kenji Shimanishi, Mune Endo, Yuki Kokubo, Shinya Orishita, Junichi Sakai, Aya Maeda, “On the production of digital content in the Rio de Janeiro Olympics”, Broadcast Technology, November 2016, p. 104-106.

従来技術において、コンテンツを付加して再配信する際に、元のコンテンツの少なくとも一部を再生する必要がある。また、元のコンテンツと、付加されるコンテンツとの間のタイミングを合わせて、再配信する必要がある。
そのために、元のコンテンツをまずベースバンド信号(非圧縮信号)の状態にして再生し、コンテンツを付加する必要があった。また、そのため、元のコンテンツを伝送するためにベースバンド信号(非圧縮信号)もしく高いビットレートでエンコードされた高解像度な映像を含む信号を伝送する必要があり、広帯域で安定した回線、即ち高コストな通信回線を必要としていた。また、そのようなシステムを構成するためには、多段の工程を必要とし、即ち多くの高価な機材等を必要としていた。特に、複数の拠点から従来技術を用いて同時にコンテンツを配信できるようにすることは、費用面において困難であった。
In the prior art, when content is added and redistributed, it is necessary to reproduce at least a part of the original content. In addition, it is necessary to redistribute the original content and the added content at the same timing.
For this reason, it is necessary to first reproduce the original content in a baseband signal (uncompressed signal) state and add the content. For this reason, it is necessary to transmit a baseband signal (uncompressed signal) or a signal including a high-resolution video encoded at a high bit rate in order to transmit the original content. A costly communication line was required. Further, in order to configure such a system, a multi-stage process is required, that is, a lot of expensive equipment is required. In particular, it has been difficult in terms of cost to enable simultaneous delivery of content from a plurality of bases using conventional technology.

本発明は、上記の課題認識に基づいて行なわれたものであり、元のコンテンツを受信し、新たなコンテンツを付加し、それらをまとめて再配信する際に、伝送のコストや機材のコストを低くすることのできる、再配信システム、再配信方法、およびプログラムを提供しようとするものである。   The present invention has been made on the basis of the above problem recognition. When receiving original contents, adding new contents, and redistributing them together, transmission costs and equipment costs are reduced. It is an object of the present invention to provide a redistribution system, a redistribution method, and a program that can be lowered.

[1]上記の課題を解決するため、本発明の一態様による再配信システムは、HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信部と、前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合部と、前記統合部から出力される前記第2パッケージを再配信する配信部と、を具備することを特徴とする。   [1] In order to solve the above problem, a redistribution system according to an aspect of the present invention includes a receiving unit that receives a first package including at least one type of content encoded in an HTTP streaming format, and the receiving unit includes: An editing unit that generates and outputs new content based on at least some types of content included in the received first package, and the first package received by the receiving unit. An integration unit that integrates and outputs at least a part of the content and the new content generated by the editing unit as one second package, and the second output from the integration unit And a distribution unit that redistributes the package.

[2]また、本発明の一態様は、上記の再配信システムにおいて、前記受信部は、少なくとも1種類の映像のコンテンツと、少なくとも1種類の音声のコンテンツとを含む前記第1パッケージを受信し、前記編集部は、前記第1パッケージに含まれる少なくとも1種類の音声のコンテンツである第1音声を再生するとともに、前記第1音声と、前記第1音声に対応して入力される別の音声とを重畳して得られる第2音声を生成して前記新たなコンテンツとして出力し、前記統合部は、前記第1パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力する、ことを特徴とする。   [2] According to another aspect of the present invention, in the redistribution system, the receiving unit receives the first package including at least one type of video content and at least one type of audio content. The editing unit reproduces the first audio that is at least one type of audio content included in the first package, and the first audio and another audio input corresponding to the first audio Are generated and output as the new content, and the integration unit includes the video content and the audio content included in the first package, and the new content. Are integrated and output so that the reproduction timing is consistent.

[3]また、本発明の一態様は、上記の再配信システムにおいて、前記編集部は、前記第1パッケージに含まれるコンテンツが保持するタイミング情報に基づいて、整合するタイミング情報を前記新たなコンテンツに付与するものであり、前記統合部は、前記第1パッケージに含まれるコンテンツが保持するタイミング情報と前記新たなコンテンツに付与されたタイミング情報とに基づいて、再生のタイミングが整合するようにする、ことを特徴とする。   [3] Further, according to one aspect of the present invention, in the above redistribution system, the editing unit sets matching timing information based on timing information held by the content included in the first package to the new content. And the integration unit makes the reproduction timing match based on the timing information held by the content included in the first package and the timing information given to the new content. It is characterized by that.

[4]また、本発明の一態様は、上記の再配信システムにおいて、前記統合部は、前記第1音声の波形と前記第2音声の波形との類似性に基づいて、前記第1音声のコンテンツを含む前記第1パッケージのコンテンツと、前記新たなコンテンツである前記第2音声との、いずれか一方を時間方向に移動させることによって、再生のタイミングが整合するように統合して出力する、ことを特徴とする。   [4] Further, according to one aspect of the present invention, in the redistribution system, the integration unit may be configured to perform the first audio based on similarity between the waveform of the first audio and the waveform of the second audio. By moving either one of the content of the first package including the content and the second audio that is the new content in the time direction, the output is integrated and output so that the reproduction timing is matched. It is characterized by that.

[5]また、本発明の一態様は、上記の再配信システムにおいて、前記受信部は、少なくとも1種類の音声のコンテンツを含む前記第1パッケージを受信し、前記編集部は、前記第1パッケージに含まれる少なくとも1種類の音声のコンテンツの音声認識処理を行うことによって前記音声のコンテンツに対応する字幕テキストのコンテンツを前記新たなコンテンツとして生成し、前記統合部は、前記音声のコンテンツに含まれる音声信号と生成された前記字幕テキストとの間の時間方向の対応関係に基づいて、前記音声のコンテンツの再生のタイミングと前記字幕テキストの提示のタイミングが整合するように統合して出力する、ことを特徴とする。   [5] Further, according to one aspect of the present invention, in the redistribution system, the reception unit receives the first package including at least one type of audio content, and the editing unit includes the first package. The subtitle text content corresponding to the audio content is generated as the new content by performing audio recognition processing of at least one type of audio content included in the content, and the integration unit is included in the audio content Based on the correspondence in the time direction between the audio signal and the generated subtitle text, the audio content reproduction timing and the subtitle text presentation timing are integrated and output so as to match It is characterized by.

[6]また、本発明の一態様は、HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信過程、前記受信過程で受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集過程、前記受信過程で受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集過程において生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合過程、前記統合過程で出力される前記第2パッケージを再配信する配信過程、を含むことを特徴とする再配信方法である。   [6] Further, according to one aspect of the present invention, a reception process of receiving a first package including at least one type of content encoded in an HTTP streaming format, and the content included in the first package received in the reception process An editing process for generating and outputting new content based on at least some types of content, and at least a part of the content included in the first package received in the receiving process; and An integration process in which the new content generated in the editing process is integrated and output as one second package; and a distribution process in which the second package output in the integration process is redistributed. This is a redistribution method.

[7]また、本発明の一態様は、コンピューターを、HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信部と、前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合部と、前記統合部から出力される前記第2パッケージを再配信する配信部と、を具備する再配信システムとして機能させるためのプログラムである。   [7] Further, according to one aspect of the present invention, a computer receives a first package including at least one type of content encoded in an HTTP streaming format, and the first package received by the reception unit. An editing unit that generates and outputs new content based on at least some types of content included in the content, and at least a portion of the content included in the first package received by the receiving unit And the new content generated by the editing unit are integrated and output as one second package, and the distribution unit redistributes the second package output from the integration unit And a program for functioning as a redistribution system.

本発明によれば、低い伝送コスト、低い機器コストで、ストリーミング形式のコンテンツに新たなコンテンツを付加したうえで再配信することが可能となる。   According to the present invention, it is possible to redistribute after adding new content to streaming content at low transmission cost and low equipment cost.

本発明の第1実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。It is the schematic which shows the schematic function structure of the redistribution system (redistribution apparatus) by 1st Embodiment of this invention, and the flow of the content data in the system. 同実施形態による再配信システムを含む、システム全体の構成例を示すブロック図である。It is a block diagram which shows the structural example of the whole system containing the redistribution system by the embodiment. 第2実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。It is the schematic which shows the schematic function structure of the redistribution system (redistribution apparatus) by 2nd Embodiment, and the flow of the content data in the system. 同実施形態において、配信サーバー装置から配信されたコンテンツを再配信システムが再配信する際のコンテンツの流れを示す概略図である。In the same embodiment, it is the schematic which shows the flow of the content at the time of the redistribution system redistributing the content distributed from the distribution server apparatus. 同実施形態において配信サーバー装置側からストリーミング配信されるデータの構成例を示す概略図である。It is the schematic which shows the structural example of the data stream-distributed from the delivery server apparatus side in the same embodiment. 同実施形態において再配信システムからストリーミング配信されるデータの構成例を示す概略図である。It is the schematic which shows the structural example of the data streamed from the redistribution system in the same embodiment. 同実施形態において用いられる最上位層のインデックスファイルの構成例を示す概略図である。It is the schematic which shows the structural example of the index file of the highest layer used in the embodiment. 同実施形態において用いられる、相対的に下位層のインデックスファイルの構成例を示す概略図である。It is the schematic which shows the structural example of the index file of a relatively lower layer used in the embodiment. 第3実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。It is the schematic which shows the schematic function structure of the redistribution system (redistribution apparatus) by 3rd Embodiment, and the flow of the content data in the system.

[第1実施形態]
図1は、本実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム1は、受信部120と、編集部140と、統合部160と、配信部180とを含んで構成される。
[First Embodiment]
FIG. 1 is a schematic diagram illustrating a schematic functional configuration of a redistribution system (redistribution apparatus) according to the present embodiment and a flow of content data in the system. As illustrated, the redistribution system 1 includes a receiving unit 120, an editing unit 140, an integration unit 160, and a distribution unit 180.

再配信システム1は、例えば外部の配信サーバーからHTTPストリーミング等で配信されるコンテンツを受信する。なお、HTTPは、ハイパーテキスト転送プロトコル(HyperText Transfer Protocol)の略である。再配信システム1が受信するコンテンツは、例えば、映像や音声やテキストなど、複数の種類のコンテンツを含んでいる。また、再配信システム1が受信するコンテンツは、例えば、複数の映像のコンテンツや、複数の音声のコンテンツ等を含んできてもよい。そして、再配信システム1は、受信したコンテンツの少なくとも一部に基づく新たなコンテンツを生成する。そして、再配信システム1は、受信した元のコンテンツと、生成した新たなコンテンツとを、まとめて1つのコンテンツのパッケージとして、再配信するものである。   The redistribution system 1 receives content distributed by, for example, HTTP streaming from an external distribution server. Note that HTTP is an abbreviation of HyperText Transfer Protocol. The content received by the redistribution system 1 includes a plurality of types of content such as video, audio, and text. Further, the content received by the redistribution system 1 may include, for example, a plurality of video contents, a plurality of audio contents, and the like. Then, the redistribution system 1 generates new content based on at least a part of the received content. The redistribution system 1 redistributes the received original content and the generated new content as a single content package.

受信部120は、例えばHTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する。受信部120は、複数の種類のコンテンツを受信してもよい。図示する例では、C(1)からC(m+n)までの(m+n)種類のコンテンツを含んだパッケージを受信する。なお、ここで、mは0以上の整数であり、nは1以上の整数である。なお、受信部120は、例えばHLSによりこれらのコンテンツを受信する。HLSは、「HTTPライブストリーミング」(HTTP Live Streaming)の略であり、インターネット等を介して映像等をストリーミング配信する方法(プロトコル)として知られる。
受信部120は、受信したコンテンツであるC(1)からC(m+n)を、統合部160に渡す。また、受信部120は、受信したコンテンツのうちのC(m+1)からC(m+n)を、編集部140に渡す。
The receiving unit 120 receives a first package including at least one type of content encoded in, for example, an HTTP streaming format. The receiving unit 120 may receive a plurality of types of content. In the illustrated example, a package including (m + n) types of contents from C (1) to C (m + n) is received. Here, m is an integer of 0 or more, and n is an integer of 1 or more. The receiving unit 120 receives these contents by, for example, HLS. HLS is an abbreviation for “HTTP Live Streaming” and is known as a method (protocol) for streaming video and the like via the Internet or the like.
The receiving unit 120 passes C (1) to C (m + n), which are the received contents, to the integrating unit 160. In addition, the receiving unit 120 passes C (m + 1) to C (m + n) of the received content to the editing unit 140.

編集部140は、受信部120が受信した第1パッケージに含まれるコンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する。より具体的には、編集部140は、受信部120が受信したコンテンツのうちのC(m+1)からC(m+n)までのn種類のコンテンツを、受信部120から受け取る。そして、編集部140は、受け取ったコンテンツであるC(m+1)からC(m+n)までに基づいて、これらのコンテンツに関連する新たなコンテンツを生成する。編集部140が生成する新たなコンテンツは、C(m+n+1)からC(m+n+k)までのk種類のコンテンツである。ただし、kは、1以上の整数である。編集部140が受け取るコンテンツであるC(m+1)からC(m+n)までと、編集部が生成するコンテンツであるC(m++n+1)からC(m+n+k)までとの関係は様々であるが、両者はコンテンツとして関係を有している。また、両者は、相互に関連するものであるので、その再生等(より一般的には、提示)においてタイミングを合わせるべきものである。編集部140は、生成したコンテンツを、統合部160に渡す。   The editing unit 140 generates and outputs new content based on at least some types of content included in the first package received by the receiving unit 120. More specifically, the editing unit 140 receives n types of content from C (m + 1) to C (m + n) among the content received by the receiving unit 120 from the receiving unit 120. Then, the editing unit 140 generates new contents related to these contents based on the received contents C (m + 1) to C (m + n). The new contents generated by the editing unit 140 are k kinds of contents from C (m + n + 1) to C (m + n + k). However, k is an integer of 1 or more. There are various relationships between C (m + 1) to C (m + n), which are contents received by the editing unit 140, and C (m ++ n + 1) to C (m + n + k), which are contents generated by the editing unit. Have a relationship. In addition, since both are related to each other, the timing should be matched in reproduction or the like (more generally, presentation). The editing unit 140 passes the generated content to the integration unit 160.

統合部160は、受信部120が受信した第1パッケージに含まれるコンテンツと、編集部140によって生成された新たなコンテンツとを、一つの第2パッケージとして統合して出力する。統合部160は、受信部120から渡されたコンテンツであるC(1)からC(m+n)までと、編集部140から渡されたコンテンツであるC(m+n+1)からC(m+n+k)までとを統合する。なお、統合部160は、エンコードされたままの状態でC(1)からC(m+n)までを受け取り、そのままコンテンツであるC(m+n+1)からC(m+n+k)までとの統合を行う。そして、統合部160は、これらのコンテンツの全体を一つのパッケージとして、配信部180に渡す。なお、このとき、統合部160は、受信部120から渡されたコンテンツと編集部140から渡されたコンテンツとの間で、再生のタイミングが整合するように統合する。
なお、統合部160が、受信部120から渡されたコンテンツであるC(1)からC(m+n)までの全部ではなく、それらの一部のみを、C(m+n+1)からC(m+n+k)までと統合するようにしてもよい。この場合、C(1)からC(m+n)のうちのいずれをC(m+n+1)からC(m+n+k)までと統合するかは、適宜、定められる。
つまり、統合部160は、受信部120が受信した第1パッケージに含まれるコンテンツのうちの少なくとも一部のコンテンツと、編集部140によって生成された新たなコンテンツとを、一つの第2パッケージとして統合して出力する。
The integration unit 160 integrates and outputs the content included in the first package received by the reception unit 120 and the new content generated by the editing unit 140 as one second package. The integration unit 160 integrates the contents C (1) to C (m + n) passed from the receiving unit 120 and the contents C (m + n + 1) to C (m + n + k) passed from the editing unit 140. To do. Note that the integration unit 160 receives C (1) to C (m + n) in an encoded state, and performs integration from C (m + n + 1) to C (m + n + k) as the contents as they are. Then, the integration unit 160 passes the entire content to the distribution unit 180 as one package. At this time, the integration unit 160 integrates the content delivered from the reception unit 120 and the content delivered from the editing unit 140 so that the reproduction timing is consistent.
Note that the integration unit 160 does not include all the contents C (1) to C (m + n), which are the contents passed from the reception unit 120, but only some of them from C (m + n + 1) to C (m + n + k). You may make it integrate. In this case, which of C (1) to C (m + n) is integrated with C (m + n + 1) to C (m + n + k) is appropriately determined.
That is, the integration unit 160 integrates at least a part of the content included in the first package received by the reception unit 120 and the new content generated by the editing unit 140 as one second package. And output.

配信部180は、統合部160から渡されたコンテンツ(第2パッケージ)を、再配信する。   The distribution unit 180 redistributes the content (second package) passed from the integration unit 160.

図2は、再配信システム1を含む、システム全体の構成例を示すブロック図である。図示するように、本システムは、配信サーバー装置2と、再配信システム1と、クライアント装置3とを含んで構成される。再配信システム1は、インターネット等の通信回線を介して、配信サーバー装置2およびクライアント装置3と接続されている。なお、この図においては、1台のクライアント装置3のみを示しているが、実際には多数のクライアント装置3が再配信システム1に接続されていてもよい。再配信システム1が受信部120と編集部140と統合部160と配信部180とを含んで構成される点は、図1を参照しながら説明した通りである。   FIG. 2 is a block diagram illustrating a configuration example of the entire system including the redistribution system 1. As shown in the figure, this system includes a distribution server device 2, a redistribution system 1, and a client device 3. The redistribution system 1 is connected to the distribution server device 2 and the client device 3 via a communication line such as the Internet. Although only one client device 3 is shown in this figure, a large number of client devices 3 may actually be connected to the redistribution system 1. The point that the redistribution system 1 includes the receiving unit 120, the editing unit 140, the integration unit 160, and the distribution unit 180 is as described with reference to FIG.

配信サーバー装置2は、オリジナルのコンテンツを配信するサーバーコンピューターである。配信サーバー装置2が配信するコンテンツは、例えば、映像と音声とで構成されるコンテンツである。なお、配信サーバー装置2は、コンテンツの配信には、例えば、前述のHLSを用いる。
クライアント装置3は、再配信システム1が送出するコンテンツ(再配信されるコンテンツ)を受信する。クライアント装置3は、例えば、パーソナルコンピューター(PC)や、スマートフォン(スマホ)や、腕時計型の情報端末や、メガネ型の情報端末や、その他の情報機器等を用いて実現される。クライアント装置3は、例えば、ウェブブラウザーの機能を備えており、ウェブブラウザーがHTTPクライアントとして機能する。これにより、再配信システム1からHLSで再配信されるコンテンツが視聴可能となる。
The distribution server device 2 is a server computer that distributes original content. The content distributed by the distribution server device 2 is content composed of video and audio, for example. The distribution server device 2 uses, for example, the aforementioned HLS for content distribution.
The client device 3 receives content (redistributed content) sent from the redistribution system 1. The client device 3 is realized using, for example, a personal computer (PC), a smartphone (smartphone), a wristwatch-type information terminal, a glasses-type information terminal, other information devices, or the like. The client device 3 has, for example, a web browser function, and the web browser functions as an HTTP client. Thereby, the content redistributed by the HLS from the redistribution system 1 can be viewed.

本実施形態の構成によれば、ベースバンド信号(非圧縮信号)によるコンテンツを受信することなく、ストリーミング形式で受信したコンテンツに関連する新たなコンテンツを付加したうえで、コンテンツの再配信を実現することが可能となる。つまり、工程や機材等を大幅に削減できるため、安価に再配信システムを実現することが可能となる。   According to the configuration of the present embodiment, redistribution of content is realized without adding content based on a baseband signal (uncompressed signal) and adding new content related to the content received in the streaming format. It becomes possible. In other words, since the processes and equipment can be greatly reduced, a redistribution system can be realized at a low cost.

[第2実施形態]
次に、第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
[Second Embodiment]
Next, a second embodiment will be described. In addition, about the matter already demonstrated in previous embodiment, description may be abbreviate | omitted below. Here, the description will focus on matters specific to the present embodiment.

図3は、本実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム11は、受信部220と、編集部240と、統合部260と、配信部280とを含んで構成される。   FIG. 3 is a schematic diagram illustrating a schematic functional configuration of a redistribution system (redistribution apparatus) according to the present embodiment and a flow of content data in the system. As illustrated, the redistribution system 11 includes a receiving unit 220, an editing unit 240, an integration unit 260, and a distribution unit 280.

再配信システム11は、映像および音声のコンテンツ(「音声A」と呼ぶ)を受信し、受信した音声のコンテンツに基づく別の音声のコンテンツ(「音声B」と呼ぶ)を生成し、受信した元のコンテンツ(音声Aをも含む)と、生成した音声のコンテンツ(音声B)とを統合したコンテンツを、再配信するものである。   The redistribution system 11 receives video and audio content (referred to as “audio A”), generates another audio content (referred to as “audio B”) based on the received audio content, and receives the received original content. Content (including audio A) and the generated audio content (audio B) are redistributed.

受信部220は、少なくとも1種類の映像のコンテンツと、少なくとも1種類の音声のコンテンツとを含む第1パッケージを受信する。具体的には、受信部220は、インターネット等の通信回線を介して配信されるストリーミング映像および音声(「音声A」と呼ぶ)のコンテンツを受信する。受信部220が受信する映像および音声Aは、エンコードされた状態で、例えば外部の配信サーバー等から送信されたものである。なお、一例として、受信専用のコンピューター装置などを用いて、受信部220を実現することが可能である。   The receiving unit 220 receives a first package including at least one type of video content and at least one type of audio content. Specifically, the receiving unit 220 receives content of streaming video and audio (referred to as “audio A”) distributed via a communication line such as the Internet. The video and audio A received by the receiving unit 220 are encoded and transmitted from, for example, an external distribution server. As an example, the receiving unit 220 can be realized by using a reception-only computer device or the like.

編集部240は、第1パッケージに含まれる少なくとも1種類の音声のコンテンツである第1音声を再生するとともに、その第1音声と、その第1音声に対応して入力される別の音声とを重畳して得られる第2音声を生成して新たなコンテンツとして出力する。つまり、編集部240は、受信部220が外部から受信したコンテンツのうち、少なくとも音声Aのコンテンツを受け取り、再生する。なお、編集部240が、映像のコンテンツをも受け取って再生するようにしてもよい。そして、編集部240は、音声Aのコンテンツと、編集部240に接続されたマイクロホン等から集音された音声とを、音声の帯域において混合し、所定の符号化方式でエンコードして、新たな音声(「音声B」と呼ぶ)のコンテンツとして出力する。
一例として、アナウンサーや解説者らが、編集部240で再生されるコンテンツ(映像および音声A)を視聴しながら、実況あるいは解説等を行う。つまり、アナウンサーや解説者らは、自身の声をマイクロホン等に向けて発し、その声を含む音声Bのコンテンツを編集部240が生成する。このように、デコードされた第1音声を再生して、アナウンサーや解説者らがその第1音声をリアルタイムで聞きながら自身の声を発する場合には、音声を処理するための遅延時間が生じないか、その遅延時間は無視できるほどに小さい。よって、第1音声と新たな音声とは、適切なタイミングで混合され、音声Bが生成される。
なお、他の方法によって音声Bを作成してもよい。その場合、音声Bの作成にあたっては、必要に応じて、第1音声と別の音声(アナウンサーや解説者らが発する声)とのタイミングが整合するように、タイミング合わせのための適切な処理を行ってもよい。
なお、コンピューターを用いて、編集部240を実現することも可能である。一例として、パーソナルコンピューターやスマートフォン(スマホ)などの、個人用の情報機器などを用いて、編集部240を実現することも可能である。
The editing unit 240 reproduces the first audio that is at least one type of audio content included in the first package, and outputs the first audio and another audio input corresponding to the first audio. The second audio obtained by superimposing is generated and output as new content. That is, the editing unit 240 receives and reproduces at least the content of the audio A among the content received by the receiving unit 220 from the outside. Note that the editing unit 240 may also receive and play back video content. Then, the editing unit 240 mixes the content of the audio A and the audio collected from the microphone or the like connected to the editing unit 240 in the audio band, encodes it with a predetermined encoding method, and creates a new Output as audio content (referred to as “audio B”).
As an example, an announcer and commentators perform the actual situation or explanation while viewing the content (video and audio A) reproduced by the editing unit 240. That is, announcers and commentators utter their voices toward a microphone or the like, and the editing unit 240 generates the content of the voice B including the voices. As described above, when the decoded first sound is reproduced and the announcer or commentator speaks the first sound in real time, the delay time for processing the sound does not occur. Or the delay time is negligibly small. Therefore, the first sound and the new sound are mixed at an appropriate timing, and the sound B is generated.
Note that the voice B may be created by other methods. In that case, when creating the voice B, if necessary, appropriate processing for timing adjustment is performed so that the timing of the first voice and another voice (voices from announcers and commentators) are matched. You may go.
Note that the editing unit 240 can be realized using a computer. As an example, the editing unit 240 can be realized by using a personal information device such as a personal computer or a smartphone (smartphone).

統合部260は、第1パッケージに含まれる映像のコンテンツおよび音声のコンテンツと、上記の新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力する。統合部260は、元々受信部220が受信したコンテンツ(映像と音声A)と、編集部240から渡されたコンテンツ(音声B)とを統合して、配信部280に渡す。統合部260は、これらのコンテンツを統合する際、受信部220が受信したコンテンツ(映像と音声A)と、編集部240から渡されたコンテンツ(音声B)との間で、タイミングが相互に整合するように調整する。また、統合部260は、受信部220から渡される音声Aと、編集部240から渡される音声Bとの間の、レベル調整を行う。なお、統合部260は、映像および音声Aを、エンコードされたままの状態で受信部220から受け取る。そして、そのままの状態で、音声Bとの統合を行う。
なお、統合部260が、受信部220から渡されたコンテンツの全部(映像と音声A)ではなく、それらの一部のみを、編集部240から渡されるコンテンツ(音声B)と統合するようにしてもよい。その場合、例えば、統合部260は、受信部220から渡される映像、および編集部240から渡される音声Bだけを統合してもよい。また、例えば、受信部220から渡される音声A、および編集部240から渡される音声Bだけを統合してもよい。これらのいずれの場合にも、統合部260は、コンテンツを統合する際、受信部220が受信したコンテンツと、編集部240から渡されたコンテンツとの間で、タイミングが相互に整合するように調整する。
つまり、統合部260は、受信部220が受信した第1パッケージに含まれるコンテンツのうちの少なくとも一部のコンテンツと、編集部240によって生成された新たなコンテンツとを、一つの第2パッケージとして統合して出力する。
なお、統合部260に依るタイミングの調整およびレベルの調整の処理は、自動的に行われる。統合部260がタイミングを調整する方法の詳細については、後で述べる。
The integration unit 260 integrates and outputs the video content and audio content included in the first package so that the playback timing is consistent with the new content. The integration unit 260 integrates the content (video and audio A) originally received by the reception unit 220 and the content (audio B) passed from the editing unit 240 and passes the integrated content to the distribution unit 280. When integrating the content, the integration unit 260 matches the timing between the content (video and audio A) received by the reception unit 220 and the content (audio B) passed from the editing unit 240. Adjust to Further, the integration unit 260 adjusts the level between the audio A passed from the receiving unit 220 and the audio B passed from the editing unit 240. The integration unit 260 receives the video and audio A from the reception unit 220 in an encoded state. Then, integration with the voice B is performed as it is.
Note that the integration unit 260 integrates not only all of the content (video and audio A) passed from the receiving unit 220 but also the content (audio B) passed from the editing unit 240. Also good. In that case, for example, the integration unit 260 may integrate only the video passed from the reception unit 220 and the audio B passed from the editing unit 240. Further, for example, only the voice A passed from the receiving unit 220 and the voice B passed from the editing unit 240 may be integrated. In any of these cases, when integrating the content, the integration unit 260 adjusts the timing so that the content received by the reception unit 220 and the content passed from the editing unit 240 are mutually matched. To do.
That is, the integration unit 260 integrates at least a part of the content included in the first package received by the reception unit 220 and the new content generated by the editing unit 240 as one second package. And output.
Note that the timing adjustment and level adjustment processing by the integration unit 260 is automatically performed. Details of how the integration unit 260 adjusts the timing will be described later.

配信部280は、統合部260から出力されたコンテンツを、配信する。配信部280は、インターネット等を介して、コンテンツを配信する。   The distribution unit 280 distributes the content output from the integration unit 260. The distribution unit 280 distributes content via the Internet or the like.

図4は、本実施形態において、配信サーバー装置から配信されたコンテンツを再配信システムが再配信する際のコンテンツの流れを示す概略図である。同図において、受信部220と編集部240と統合部260と配信部280とは、図3にも示した通り、再配信システム11を構成する装置(またはその一部の機能)である。また、再配信システム11を構成するこれらの機能と、配信サーバー装置2と、クライアント装置3とは、それぞれインターネットに接続されており相互に通信可能である。なお、通信のために、インターネット以外の手段を用いてもよい。なお、図4において、クライアント装置3を1台のみ示しているが、実際には、多数のクライアント装置3が配信部280からの配信を受けるようにしてよい。   FIG. 4 is a schematic diagram showing the flow of content when the redistribution system redistributes the content distributed from the distribution server device in the present embodiment. In FIG. 3, a receiving unit 220, an editing unit 240, an integration unit 260, and a distribution unit 280 are devices (or a part of functions) constituting the redistribution system 11 as shown in FIG. Further, these functions constituting the redistribution system 11, the distribution server device 2, and the client device 3 are connected to the Internet and can communicate with each other. Note that means other than the Internet may be used for communication. In FIG. 4, only one client device 3 is shown, but in reality, a large number of client devices 3 may receive distribution from the distribution unit 280.

図示するように、配信サーバー装置2は、映像および音声を含むコンテンツを、インターネット経由で配信する。コンテンツの配信には、例えば、前述のHLSを用いる。受信部220は、配信サーバー装置2から配信された上記コンテンツを受信する。受信部220は、受信したコンテンツである映像および音声(音声A)を、インターネット経由で、または他の回線等を経由して、統合部260に渡す。また、受信部220は、受信したコンテンツのうちの少なくとも音声Aを(必要に応じて映像をも)、インターネット経由で、または他の回線等を経由して、編集部240に渡す。編集部240は、受信部220から受信したコンテンツに基づいて、音声Aとは異なる音声コンテンツである音声Bを生成する。なお、音声B内に、音声Aが混合されていてもよい。典型的な適用例においては、音声Aはイベント等が行われている現地からの生中継音声であり、音声Bは、編集部240を用いるアナウンサーや解説者等が、音声Aに、マッチした発話を混合させたものである。編集部240は、音声Aを有するファイルに含まれるタイミング情報を参照し、音声Bに前記タイミング情報を付加してエンコードし、ファイルとして出力する。ここで、タイミング情報とは、例えばPTS(プレゼンテーションタイムスタンプ)である。さらに、編集部240は、音声Aと音声Bとの間で再生タイミングを一致させるためのメタデータ(音声Aと音声Bとの間で対応付けられるファイル名等のデータ)を生成する。そして、編集部240は、音声Bを、新たな音声のコンテンツとして統合部260に渡す。なお、編集部240は、この音声のコンテンツ(音声B)を統合部260に渡す際、インターネット経由で送信してもよいし、その他の回線等を経由して送信してもよい。   As illustrated, the distribution server device 2 distributes content including video and audio via the Internet. For example, the above-mentioned HLS is used for content distribution. The receiving unit 220 receives the content distributed from the distribution server device 2. The receiving unit 220 passes the received video and audio (audio A) as content to the integration unit 260 via the Internet or other line. In addition, the receiving unit 220 passes at least the audio A of the received content (also video if necessary) to the editing unit 240 via the Internet or other line. The editing unit 240 generates audio B, which is audio content different from the audio A, based on the content received from the receiving unit 220. Note that voice A may be mixed in voice B. In a typical application example, the voice A is a live broadcast voice from the site where an event or the like is performed, and the voice B is an utterance matched with the voice A by an announcer or commentator using the editing unit 240. Are mixed. The editing unit 240 refers to the timing information included in the file having the sound A, adds the timing information to the sound B, encodes it, and outputs it as a file. Here, the timing information is, for example, a PTS (presentation time stamp). Furthermore, the editing unit 240 generates metadata (data such as a file name associated with the sound A and the sound B) for matching the reproduction timing between the sound A and the sound B. Then, the editing unit 240 passes the audio B to the integrating unit 260 as new audio content. Note that the editing unit 240 may transmit the audio content (audio B) to the integration unit 260 via the Internet or other line.

統合部260は、受信部220から受け取ったコンテンツと、編集部240から受け取ったコンテンツとを、再生タイミングを一致させるためのメタデータ(ファイル名の対応関係等のデータ)に基づいて統合する。統合部260が行う重要な処理の一つは、受信部220側からのコンテンツと編集部240側からのコンテンツとの間で、上記のメタデータ(ファイル名の対応関係等)に基づいてタイミングを合わせることである。つまり、統合部260がコンテンツ間での同期を取ることにより、編集部240で生成された音声Bのコンテンツは、受信部220側からの映像および音声(音声A)のそれぞれと、整合したタイミングで配信することが可能となる。統合部260は、タイミングを整合させる対象となる受信部220側からのコンテンツと編集部240側からのコンテンツの到達時刻が不一致となる場合を考慮し、コンテンツを蓄積するバッファ領域を備える。統合部260は、統合されたコンテンツを、配信部280に渡す。そして、配信部280は、統合部260から渡されたコンテンツの全体を、インターネット経由で配信する。コンテンツの配信には、例えば、前述のHLSを用いる。クライアント装置3は、配信部280から再配信されたコンテンツを受信し、デコードして再生する。なお、クライアント装置3は、映像のコンテンツを再生するとともに、適宜、音声Aあるいは音声Bのいずれか一方の音声のコンテンツを再生するようにしてよい。   The integration unit 260 integrates the content received from the reception unit 220 and the content received from the editing unit 240 based on metadata (data such as file name correspondences) for matching the reproduction timing. One of the important processes performed by the integration unit 260 is that the timing between the content from the receiving unit 220 side and the content from the editing unit 240 side is determined based on the above-described metadata (file name correspondence, etc.). To match. That is, when the integration unit 260 synchronizes between the contents, the content of the audio B generated by the editing unit 240 is matched with each of the video and audio (audio A) from the receiving unit 220 side. It becomes possible to deliver. The integration unit 260 includes a buffer area for accumulating content in consideration of a case where the arrival time of the content from the reception unit 220 and the content arrival time from the editing unit 240 that are to be matched in timing does not match. The integration unit 260 passes the integrated content to the distribution unit 280. The distribution unit 280 distributes the entire content delivered from the integration unit 260 via the Internet. For example, the above-mentioned HLS is used for content distribution. The client device 3 receives the content redistributed from the distribution unit 280, decodes and reproduces it. Note that the client device 3 may reproduce the video content and, at the same time, reproduce the audio content of either the audio A or the audio B as appropriate.

次に、本実施形態において配信されるデータの形式等について説明する。
図5は、本実施形態において受信部220が受信するストリーミング配信データの構成例を示す概略図である。図示するように、配信サーバー装置2側から配信されるデータは、階層構造で構成されている。同図では、最も左側が最上位の階層、真中が中間の階層、最も右側が最下位の階層を表している。最上位の階層では、1個のインデックスファイルが存在しており、そのファイル名は「IndexFile.m3u8」である。このインデックスファイル「IndexFile.m3u8」は、下位層(中間の階層)の別の3種類のインデックスファイルの所在の情報(ファイル名、パス名等)を保持している。それらの3種類のインデックスファイルは、「Alternate−LowIndex」と、「Alternate−MidIndex」と、「Alternate−HiIndex」とである。これらの3種類のインデックスファイルは、適宜、確保可能な通信帯域幅に応じて使い分けることができる。例えば、配信を受けるクライアント装置側のユーザーが、低帯域幅、中帯域幅、高帯域幅の3種類の中から一つを指定できるようにする。「Alternate−LowIndex」と、「Alternate−MidIndex」と、「Alternate−HiIndex」のそれぞれは、所定時間長(例えば、6秒など)ごとの動画ファイルの所在情報のリストを保持している。一例として、インデックスファイル「Alternate−LowIndex」は、「Low_01.ts」と、「Low_02.ts」と、「Low_03.ts」と、「Low_04.ts」との4つの動画ファイルの所在の情報を保持している。なお、「Low_01.ts」と、「Low_02.ts」と、「Low_03.ts」と、「Low_04.ts」とは、順次再生されるべき動画ファイルである。なお、インデックスファイル「Alternate−LowIndex」は、4個に限らず、任意の数の動画ファイルの所在情報を持つことができる。ここではインデックスファイル「Alternate−LowIndex」を例として説明したが、「Alternate−MidIndex」と「Alternate−HiIndex」のそれぞれもまた、帯域幅に応じた動画ファイルの所在情報を保持する。
Next, the format of data distributed in the present embodiment will be described.
FIG. 5 is a schematic diagram illustrating a configuration example of streaming distribution data received by the receiving unit 220 in the present embodiment. As shown in the figure, data distributed from the distribution server device 2 side has a hierarchical structure. In the figure, the leftmost layer represents the highest layer, the middle represents the middle layer, and the rightmost represents the lowest layer. In the highest hierarchy, there is one index file, and the file name is “IndexFile.m3u8”. This index file “IndexFile.m3u8” holds location information (file name, path name, etc.) of another three types of index files in the lower layer (intermediate layer). The three types of index files are “Alternate-LowIndex”, “Alternate-MidIndex”, and “Alternate-HiIndex”. These three types of index files can be properly used according to the communication bandwidth that can be secured. For example, the user on the client device side receiving the delivery can specify one of three types of low bandwidth, medium bandwidth, and high bandwidth. Each of “Alternate-LowIndex”, “Alternate-MidIndex”, and “Alternate-HiIndex” holds a list of moving image location information for each predetermined time length (for example, 6 seconds). As an example, the index file “Alternate-LowIndex” holds the location information of four video files “Low — 01.ts”, “Low — 02.ts”, “Low — 03.ts”, and “Low — 04.ts”. doing. Note that “Low — 01.ts”, “Low — 02.ts”, “Low — 03.ts”, and “Low — 04.ts” are moving image files to be sequentially played back. The index file “Alternate-LowIndex” is not limited to four, and can have location information of an arbitrary number of moving image files. Here, the index file “Alternate-LowIndex” has been described as an example, but each of “Alternate-MidIndex” and “Alternate-HiIndex” also holds the location information of the moving image file according to the bandwidth.

なお、図5に示すデータ構成の場合、音声(音声A)は、それぞれの動画ファイル(Low_01.tsや、Mid_01.tsや、Hi_01.tsなど)の中に含まれている。
一方、音声(音声A)を独立のファイルとして配信サーバー装置2側から配信し、受信部220がその音声ファイルをも受信するようにしてもよい。この場合、音声は、適切な長さに分割されて、時間の経過に沿った複数のファイルとして配信される。また、それらの音声ファイルは、動画ファイルをインデックスしているのと同一のインデックスファイルによってインデックスされている。
In the case of the data configuration shown in FIG. 5, the sound (sound A) is included in each moving image file (Low_01.ts, Mid_01.ts, Hi_01.ts, etc.).
On the other hand, the audio (audio A) may be distributed as an independent file from the distribution server device 2 side, and the receiving unit 220 may also receive the audio file. In this case, the audio is divided into appropriate lengths and distributed as a plurality of files over time. These audio files are indexed by the same index file that indexes the moving image file.

図6は、本実施形態において統合部260が出力し、配信部280が配信するストリーミング配信データの構成例を示す概略図である。図示するように、統合部280が配信するデータもまた、階層構造で構成されている。図5で説明したデータ構成と同様に、最も左側が最上位の階層、真中が中間の階層、最も右側が最下位の階層を表している。最上位の階層では、1個のインデックスファイルが存在しており、そのファイル名は「IndexFile.m3u8」である。このインデックスファイル「IndexFile.m3u8」は、下位層(中間の階層)の別の5種類のインデックスファイルの所在の情報(ファイル名、パス名等)を保持している。それらの5種類のインデックスファイルは、「Alternate−LowIndex」と、「Alternate−MidIndex」と、「Alternate−HiIndex」と、「mixed」と、「original」とである。   FIG. 6 is a schematic diagram illustrating a configuration example of streaming distribution data output from the integration unit 260 and distributed by the distribution unit 280 in the present embodiment. As shown in the figure, the data distributed by the integration unit 280 is also configured in a hierarchical structure. Similar to the data configuration described with reference to FIG. 5, the leftmost side represents the highest hierarchy, the middle represents the middle hierarchy, and the rightmost represents the lowest hierarchy. In the highest hierarchy, there is one index file, and the file name is “IndexFile.m3u8”. This index file “IndexFile.m3u8” holds the location information (file name, path name, etc.) of another five types of index files in the lower layer (intermediate layer). These five types of index files are “Alternate-LowIndex”, “Alternate-MidIndex”, “Alternate-HiIndex”, “mixed”, and “original”.

このうち、「Alternate−LowIndex」と、「Alternate−MidIndex」と、「Alternate−HiIndex」との3種類は、図5で説明したデータ構成と同様、動画のファイルに関するインデックスである。これらの3種類のインデックスファイルの下位の動画ファイルも図5で説明したデータ構成と同様のものである。   Among these, three types of “Alternate-LowIndex”, “Alternate-MidIndex”, and “Alternate-HiIndex” are indexes related to moving image files, as in the data configuration described with reference to FIG. The subordinate moving image files of these three types of index files have the same data structure as described with reference to FIG.

また、中間階層の上記5種類のインデックスファイルのうち、「mixed」と、「original」との2種類は、それぞれ、音声のファイルをインデックスする。「mixed」と「original」とのそれぞれは、所定時間長(例えば、6秒など)ごとの音声ファイルの所在情報のリストを保持している。一例として、インデックスファイル「mixed」は、「mixed_01.ts」と、「mixed_02.ts」と、「mixed_03.ts」と、「mixed_04.ts」との4つの音声ファイルの所在の情報を保持している。なお、「mixed_01.ts」と、「mixed_02.ts」と、「mixed_03.ts」と、「mixed_04.ts」とは、順次再生されるべき音声ファイルである。なお、インデックスファイル「mixed」は、4個に限らず、任意の数の音声ファイルの所在情報を持つことができる。「mixed」と全く同様に、「original」も、所定時間長(例えば、6秒など)ごとの別の音声ファイルの所在情報のリストを保持している。つまり、「original」は、「original_01.ts」と、「original_02.ts」と、「original_03.ts」と、「original_04.ts」との4つの、順次再生されるべき音声ファイルの所在の情報を保持する。   Of the five types of index files in the middle layer, two types, “mixed” and “original”, index audio files, respectively. Each of “mixed” and “original” holds a list of audio file location information for each predetermined time length (for example, 6 seconds). As an example, the index file “mixed” holds information on the location of four audio files “mixed — 01.ts”, “mixed — 02.ts”, “mixed — 03.ts”, and “mixed — 04.ts”. Yes. Note that “mixed — 01.ts”, “mixed — 02.ts”, “mixed — 03.ts”, and “mixed — 04.ts” are audio files to be sequentially played back. Note that the index file “mixed” is not limited to four, and can have location information of an arbitrary number of audio files. Just like “mixed”, “original” also holds a list of location information of another audio file for each predetermined time length (for example, 6 seconds). In other words, “original” includes the location information of the four audio files to be sequentially played, “original — 01.ts”, “original — 02.ts”, “original — 03.ts”, and “original — 04.ts”. Hold.

なお、上記のインデックスファイル「mixed」がインデックスする音声ファイル(mixed_01.tsなど)は、編集部240によって出力される音声(音声B)を含むものである。また、インデックスファイル「original」がインデックスする音声フィアル(original_01.tsなど)は、受信部220が配信サーバー装置2側から受信したオリジナルの音声(音声A)を含むものである。   Note that the audio file (such as mixed_01.ts) indexed by the index file “mixed” includes the audio (audio B) output by the editing unit 240. The audio file (original_01.ts, etc.) indexed by the index file “original” includes the original audio (audio A) received by the receiving unit 220 from the distribution server device 2 side.

元の配信サーバー装置2から音声Aの独立のファイルが配信される場合には、統合部260は、そのファイルをそのまま「original」によってインデックスされる音声ファイルとして出力すればよい。
元の配信サーバー装置2から配信される音声Aが、配信される動画ファイル内にしか存在しない場合には、統合部260は、それらの動画ファイルから音声を抽出して音声ファイルを生成する。そして、統合部260は、生成された音声ファイルを、「original」によってインデックスされる音声ファイルとして出力すればよい。
When an independent file of the sound A is distributed from the original distribution server device 2, the integration unit 260 may output the file as it is as an audio file indexed by “original”.
When the sound A distributed from the original distribution server device 2 exists only in the moving image file to be distributed, the integration unit 260 extracts the sound from these moving image files and generates an audio file. Then, the integration unit 260 may output the generated audio file as an audio file indexed by “original”.

図7は、本実施形態が用いるインデックスファイルの構成例を示す概略図である。なお、ここに例示するファイルは、階層構造における最上位のインデックスファイルである。このインデックスファイルのファイル名は「playlist.m3u8」である。図示するように、インデックスファイル「playlist.m3u8」は、拡張M3U形式のファイルであり、その内部にはインデックス情報を表すテキストを含んでいる。なお、図7において、便宜的にテキストの各行に対応する行番号を付している。以下、インデックスファイル「playlist.m3u8」の内容を説明する。   FIG. 7 is a schematic diagram illustrating a configuration example of an index file used in the present embodiment. The file exemplified here is the highest index file in the hierarchical structure. The file name of this index file is “playlist.m3u8”. As shown in the figure, the index file “playlist.m3u8” is an extended M3U format file, and includes text representing index information therein. In FIG. 7, a line number corresponding to each line of text is given for convenience. The contents of the index file “playlist.m3u8” will be described below.

第1行目は、当ファイルが拡張M3U形式のファイルであることを示すヘッダーである。
第2行目と第3行目は、音声のコンテンツに関する情報を保持する。第2行目と第3行目は、ともに「TYPE=AUDIO」という記述を含んでおり、これは、第2行目と第3行目がそれぞれ音声のコンテンツのインデックスであることを示す。また、第2行目と第3行目は、ともに「GROUP−ID=”audio”」という記述を含んでおり、これは、第2行目と第3行目がともに「audio」という識別情報によって識別されるグループに属することを示す。
これらのうち、第2行目は、「NAME=”mixed”」という記述を含んでおり、これは、混合音声であること、即ち編集部240において付加音声が付加されたもの(つまり、音声B)であることを示すものである。また、第2行目は、「DEFAULT=YES」という記述を含んでおり、これは、デフォルトの音声であることを示している。また、第2行目は、当該音声に関する下位のインデックスファイルの所在情報を保持している。「URI=”mixed/playlist.m3u8”」という記述がその所在情報にあたる。
一方で、第3行目は、「NAME=”original”」という記述を含んでおり、これは、混合される前のオリジナルの音声であることを示している。即ち、付加音声が付加されていない、受信部220が受信した音声(音声A)であることを示すものである。また、第3行目は、「DEFAULT=NO」という記述を含んでおり、これは、デフォルトの音声ではないことを示している。また、第3行目は、当該音声に関する下位のインデックスファイルの所在情報を保持している。「URI=”original/playlist.m3u8”」という記述がその所在情報にあたる。
The first line is a header indicating that the file is an extended M3U format file.
The second and third lines hold information related to audio content. Both the second and third lines contain the description “TYPE = AUDIO”, which indicates that the second and third lines are indexes of audio content. The second and third lines both contain the description “GROUP-ID =“ audio ””, which is the identification information that the second and third lines are both “audio”. It belongs to the group identified by.
Among these, the second line includes a description “NAME =“ mixed ””, which is a mixed sound, that is, an additional sound added by the editing unit 240 (that is, a sound B). ). The second line includes a description “DEFAULT = YES”, which indicates that it is a default voice. The second line holds the location information of the lower index file related to the sound. “URI =” mixed / playlist. The description “m3u8 ″” corresponds to the location information.
On the other hand, the third line includes a description “NAME =“ original ””, which indicates the original sound before being mixed. That is, it indicates that the voice (voice A) is received by the receiving unit 220 with no additional voice added. The third line includes a description “DEFAULT = NO”, which indicates that this is not the default voice. The third line holds the location information of the lower index file related to the sound. “URI =” original / playlist. The description “m3u8 ″” corresponds to the location information.

第4行目は、コンテンツの当該セグメントが、独立セグメントであることを表す情報である。つまり、当該セグメントのコンテンツをデコードするために他のセグメントからの情報を必要としないことを表す。   The fourth line is information indicating that the segment of the content is an independent segment. That is, it represents that information from another segment is not required to decode the content of the segment.

第5行目から第16行目までは、6種類の映像ファイルのインデックスの情報を含むものである。
第5行目および第6行目は、第1の映像のインデックスの情報を保持する。第1の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「545600」(単位は、ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.66.30」と「mp4a.40.2」である。また、この映像の解像度は「480x270」である。また、この映像のインデックスファイルは、「stream1/playlist.m3u8」である。
第7行目および第8行目は、第2の映像のインデックスの情報を保持する。第2の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「765600」(ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.66.30」と「mp4a.40.2」である。また、この映像の解像度は「640x360」である。また、この映像のインデックスファイルは、「stream2/playlist.m3u8」である。
第9行目および第10行目は、第3の映像のインデックスの情報を保持する。第3の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「1425600」(ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.42c01f」と「mp4a.40.2」である。また、この映像の解像度は「640x360」である。また、この映像のインデックスファイルは、「stream3/playlist.m3u8」である。
The 5th to 16th lines include the index information of 6 types of video files.
The fifth and sixth lines hold the index information of the first video. In the first video, the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are both “545600” (the unit is bits per second). Also, codecs (codec) for decoding the video stream are “avc1.66.30” and “mp4a.40.2”. Further, the resolution of this video is “480 × 270”. The index file of this video is “stream1 / playlist.m3u8”.
The seventh and eighth lines hold the index information of the second video. In the second video, both the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are “765600” (bits per second). Also, codecs (codec) for decoding the video stream are “avc1.66.30” and “mp4a.40.2”. The resolution of this video is “640 × 360”. The index file of this video is “stream2 / playlist.m3u8”.
The ninth and tenth lines hold the index information of the third video. In the third video, both the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are “1425600” (bits per second). Further, codecs (codec) for decoding the video stream are “avc1.42c01f” and “mp4a.40.2”. The resolution of this video is “640 × 360”. The index file of this video is “stream3 / playlist.m3u8”.

第11行目および第12行目は、第4の映像のインデックスの情報を保持する。第4の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「3955600」(ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.4d401f」と「mp4a.40.2」である。また、この映像の解像度は「960x540」である。また、この映像のインデックスファイルは、「stream4/playlist.m3u8」である。
第13行目および第14行目は、第5の映像のインデックスの情報を保持する。第5の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「5640800」(ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.4d401f」と「mp4a.40.2」である。また、この映像の解像度は「1280x720」である。また、この映像のインデックスファイルは、「stream5/playlist.m3u8」である。
第15行目および第16行目は、第6の映像のインデックスの情報を保持する。第6の映像は、帯域幅(BANDWIDTH)および平均帯域幅(AVERAGE-BANDWIDTH)がともに「7290800」(ビット毎秒)である。また、この映像ストリームをデコードするためのコーデック(codec)は「avc1.4d401f」と「mp4a.40.2」である。また、この映像の解像度は「1280x720」である。また、この映像のインデックスファイルは、「stream6/playlist.m3u8」である。
The eleventh and twelfth lines hold the fourth video index information. In the fourth video, the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are both “3955600” (bits per second). Further, codecs (codec) for decoding the video stream are “avc1.4d401f” and “mp4a.40.2”. Further, the resolution of this video is “960 × 540”. The index file of this video is “stream4 / playlist.m3u8”.
The 13th and 14th lines hold the index information of the fifth video. In the fifth video, the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are both “5640800” (bits per second). Further, codecs (codec) for decoding the video stream are “avc1.4d401f” and “mp4a.40.2”. Further, the resolution of this video is “1280 × 720”. The index file of this video is “stream5 / playlist.m3u8”.
The 15th and 16th lines hold the index information of the sixth video. In the sixth video, the bandwidth (BANDWIDTH) and the average bandwidth (AVERAGE-BANDWIDTH) are both “7290800” (bits per second). Further, codecs (codec) for decoding the video stream are “avc1.4d401f” and “mp4a.40.2”. Further, the resolution of this video is “1280 × 720”. The index file of this video is “stream6 / playlist.m3u8”.

なお、上記の第1の映像から第6の映像までに共通して、フレームレート(FRAME-RATE
)は「30.000」と定義されている。また、第1の映像から第6の映像までの映像に関してすべて「AUDIO=”audio”」という記述が含まれている。これは、各映像に関連付けられる音声のコンテンツは、”audio”というグループIDで識別されるものであることを表す。つまり、各映像に関連付けられる音声のコンテンツは、第2行目または第3行目で定義されているものである。
It should be noted that the frame rate (FRAME-RATE) is common to the first to sixth images.
) Is defined as “30.000”. Further, the description “AUDIO =“ audio ”” is included for all the videos from the first video to the sixth video. This indicates that the audio content associated with each video is identified by the group ID “audio”. That is, the audio content associated with each video is defined in the second row or the third row.

図8は、本実施形態が用いるインデックスファイルの例を示す概略図である。ここに示すファイルは、図7で示した最上位のインデックスファイルから参照される下位のインデックスファイルである。このインデックスファイルのファイル名は「mixed/playlist.m3u8」である。図7で示した最上位のインデックスファイルの第2行目の記述における「URI=”mixed/playlist.m3u8”」という記述が、この図8のファイルの所在を示している。ここで「mixed」はディレクトリ名であり、このディレクトリは混合音声(音声B)用のファイルを格納するディレクトリである。つまり、このインデックスファイル「mixed/playlist.m3u8」は、混合音声に関するインデックスの情報を保持する。このインデックスファイル「mixed/playlist.m3u8」もまた、拡張M3U形式のファイルである。なお、図8においても、テキストの各行に対応する行番号を付している。以下、インデックスファイル「mixed/playlist.m3u8」の内容を説明する。   FIG. 8 is a schematic diagram illustrating an example of an index file used in the present embodiment. The file shown here is a lower-order index file that is referenced from the highest-order index file shown in FIG. The file name of this index file is “mixed / playlist.m3u8”. In the description of the second line of the top-level index file shown in FIG. 7, “URI =” mixed / playlist. The description “m3u8 ″” indicates the location of the file in FIG. Here, “mixed” is a directory name, and this directory is a directory for storing a file for mixed audio (audio B). That is, the index file “mixed / playlist.m3u8” holds index information related to mixed audio. This index file “mixed / playlist.m3u8” is also an extended M3U format file. In FIG. 8 as well, a line number corresponding to each line of text is given. The contents of the index file “mixed / playlist.m3u8” will be described below.

第1行目は、当ファイルが拡張M3U形式のファイルであることを示すヘッダーである。
第2行目は、ファイル形式のバージョン情報である。具体的には、このファイル形式のバージョンが「3」であることを示している。
第3行目の「#EXT-X-TARGETDURATION」は、次に追加される予定のメディアファイルの予測時間長を示すものである。本データの例では、予測時間長は6秒である。
第4行目の「#EXT-X-MEDIA-SEQUENCE」は、本インデックスファイルが含む最初のメディアファイルのシーケンス番号を表す。本データ例では、最初のシーケンス番号は「417554」(第8行目で指定されているファイルのファイル名に、この番号が含まれている)である。
第5行目の「#EXT-X-DISCONTINUITY-SEQUENCE」については、説明を省略する。
The first line is a header indicating that the file is an extended M3U format file.
The second line is file format version information. Specifically, this indicates that the version of this file format is “3”.
“# EXT-X-TARGETDURATION” on the third line indicates an estimated time length of a media file to be added next. In the example of this data, the predicted time length is 6 seconds.
“# EXT-X-MEDIA-SEQUENCE” in the fourth line represents the sequence number of the first media file included in the index file. In this data example, the first sequence number is “417554” (this number is included in the file name of the file specified in the eighth line).
Description of “# EXT-X-DISCONTINITY-SEQUENCE” in the fifth line is omitted.

第6行目から第35行目までにおいて、3行ずつのまとまりを持つ組が、10回(計30行)繰り返されている。各組における第1行は、メディアファイルを日付・時刻に関連付ける。また、第2行は、そのメディアセグメントの長さを秒単位で表す。また、第3行は、メディアファイルそのものを参照するための情報である。   From the 6th line to the 35th line, a group having a set of 3 lines is repeated 10 times (30 lines in total). The first line in each set associates a media file with a date / time. The second row represents the length of the media segment in seconds. The third line is information for referring to the media file itself.

ここでは、例として、第6行目から第8行目までの組について説明する。
第6行目の「#EXT-X-PROGRAM-DATE-TIME」は、参照されるメディアファイルを、日時に関連付ける。本データ例では、最初のメディアファイルは「2017-05-11T16:19:02.866+09:00」(年月日・時分秒および千分の一秒の表記)で示される日時(世界標準時から9時間先行する時間帯における日時)に関連付けられる。
第7行目の「#EXTINF」は、この組に対応するメディアセグメントの長さを表す。具体的には、その長さは6.000秒であることが指定されている。なお、「6.000」に後続するコンマの次には、タイトルを指定可能であるが、本データではタイトルの記述が省略されている。
第8行目は、この組のメディアファイル(ここでは、混合音声(音声B)の音声ファイル)のファイル名を記述している。本データでは、具体的には、「test2_270_417554.ts」である。
Here, as an example, a group from the sixth line to the eighth line will be described.
“# EXT-X-PROGRAM-DATE-TIME” on the sixth line associates the referenced media file with the date and time. In this data example, the first media file is “2017-05-11T16: 19: 02.866 + 09: 00” (year / month / hour / minute / second and thousandth of a second notation). Date and time in a time zone 9 hours preceding standard time).
“#EXTINF” in the seventh row represents the length of the media segment corresponding to this set. Specifically, it is specified that the length is 6.000 seconds. Note that a title can be specified next to the comma following “6.00”, but the description of the title is omitted in this data.
The eighth line describes the file names of this set of media files (here, the audio file of mixed audio (audio B)). In this data, specifically, “test2 — 270 — 417554.ts”.

この組に後続する9組においても、同様に、日時の情報と、メディアセグメントの長さの情報と、そのメディアセグメントにおけるメディアファイルのファイル名の情報とが記述されている。具体的な日時、メディアセグメントの長さ、ファイル名は、図面に記載されている通りであるため、ここでは説明を省略する。   Similarly, the nine sets subsequent to this set describe date and time information, media segment length information, and file name information of media files in the media segment. Since the specific date and time, the length of the media segment, and the file name are as described in the drawing, the description is omitted here.

以上のように、ここに例示したインデックスファイルは、混合音声のファイルについて、10セグメント分の情報を保持している。また、各セグメントの長さは6秒であり、10セグメント分の合計の長さは60秒である。   As described above, the index file exemplified here holds information for 10 segments for a mixed audio file. The length of each segment is 6 seconds, and the total length of 10 segments is 60 seconds.

統合部260は、上の図7に例示したインデックスファイルを生成して出力する。つまり、統合部260は、音声A(NAME=”original”)と音声B(NAME=”mixed”)の両方を含むコンテンツを、配信部280に渡す。配信部280は、そのように統合部260によって統合されたコンテンツを、クライアント装置3に配信する。   The integration unit 260 generates and outputs the index file illustrated in FIG. That is, the integration unit 260 passes the content including both the audio A (NAME = “original”) and the audio B (NAME = “mixed”) to the distribution unit 280. The distribution unit 280 distributes the content integrated by the integration unit 260 to the client device 3.

次に、統合部260が、編集部240によって生成された(音声)音声Bのタイミングを、受信部220からわたされた映像および音声(音声A)のタイミングに合わせる方法の詳細について説明する。本実施形態の方法では、ファイルに含まれる提示時刻情報を利用する。つまり、受信部220が受信する映像および音声(音声A)のファイルには、再生のタイミング情報(PTS,プレゼンテーションタイムスタンプ)と、再生時間の長さの情報とが含まれている。HLSを用いる場合は、受信部220は、映像・音声データを含むTS(Transport Stream)ファイルからタイミング情報(PTS)を取得できる。また、配信サーバー装置2から配信されるインデックスファイル(M3U8ファイル)の「#EXTINF」の記述から、再生時間の長さの情報を取得することができる。編集部240は、元の音声Aを再生しながら音声B(混合音声)を生成するが、その際、音声Aのファイルに含まれていたタイミング情報および再生時間の長さの情報を、そのまま音声Bに埋め込む。例えば、音声の入力が開始した時点のタイミング情報(PTS−1)を取得し、音声Bを生成する際に出力ストリームの先頭のタイミング情報を、前記PTS−1とするように出力する。さらに、M3U8ファイルから取得した再生時間の長さが5秒の場合は、出力ストリームを5秒ごとのファイルに分割して生成する。つまり、編集部240は、音声Aを構成する個々のファイルと同一のタイミング情報および再生時間の長さの情報を有する、音声Bを生成し出力する。そして、統合部260は、音声Aと音声Bのファイルにおけるタイミング情報および再生時間の長さの情報が同一であることを確認して、受信部220からわたされた映像および音声(音声A)と生成した音声Bの再生タイミングが整合するように、映像、音声A、音声Bの情報を含む新たなM3U8ファイルを生成し、HLSコンテンツとして、M3U8ファイル、映像のTSファイル、音声AのTSファイル、音声BのTSファイルを配信する。   Next, details of a method in which the integration unit 260 matches the timing of the (audio) audio B generated by the editing unit 240 with the timing of the video and audio (audio A) passed from the reception unit 220 will be described. In the method of this embodiment, presentation time information included in a file is used. That is, the video and audio (audio A) file received by the receiving unit 220 includes reproduction timing information (PTS, presentation time stamp) and information on the length of the reproduction time. When HLS is used, the receiving unit 220 can obtain timing information (PTS) from a TS (Transport Stream) file including video / audio data. Further, it is possible to acquire information on the length of the reproduction time from the description of “#EXTINF” of the index file (M3U8 file) distributed from the distribution server device 2. The editing unit 240 generates the sound B (mixed sound) while reproducing the original sound A. At this time, the timing information and the length of the reproduction time included in the sound A file are directly sounded. Embed in B. For example, the timing information (PTS-1) at the time when the input of the voice is started is acquired, and when the voice B is generated, the timing information at the head of the output stream is output so as to be the PTS-1. Furthermore, when the length of the playback time acquired from the M3U8 file is 5 seconds, the output stream is generated by dividing the output stream into files every 5 seconds. That is, the editing unit 240 generates and outputs a sound B having the same timing information and playback time length information as the individual files constituting the sound A. Then, the integration unit 260 confirms that the timing information and the playback time length information in the audio A and audio B files are the same, and the video and audio (audio A) passed from the receiving unit 220. A new M3U8 file including information on video, audio A, and audio B is generated so that the reproduction timing of the generated audio B is matched, and as an HLS content, an M3U8 file, a video TS file, an audio A TS file, The TS file of voice B is distributed.

つまり、編集部240は、第1パッケージに含まれるコンテンツが保持するタイミング情報に基づいて、整合するタイミング情報を、生成する新たなコンテンツに付与するものである。また、統合部260は、第1パッケージに含まれるコンテンツが保持するタイミング情報と、上記の新たなコンテンツに付与されたタイミング情報とに基づいて、再生のタイミングが整合するようにする。   That is, the editing unit 240 gives matching timing information to the new content to be generated based on the timing information held by the content included in the first package. Further, the integration unit 260 matches the playback timing based on the timing information held by the content included in the first package and the timing information given to the new content.

これにより、再配信システム11が受信したオリジナルのコンテンツと、再配信システム11が付加したコンテンツとの間でタイミングが合った状態で、コンテンツの再配信を行うことが可能となる。   As a result, the content can be redistributed in a state in which the original content received by the redistribution system 11 and the content added by the redistribution system 11 are matched.

[第2実施形態:変形例]
次に、第2実施形態の変形例について説明する。この変形例の基本的な構成は、第2実施形態におけるそれと同一であるが、統合部260が音声Aと音声Bとの間のタイミングを合わせる方法の部分が第2実施形態とは異なる。
[Second Embodiment: Modification]
Next, a modification of the second embodiment will be described. The basic configuration of this modification is the same as that in the second embodiment, but the part of the method in which the integration unit 260 matches the timing between the voice A and the voice B is different from the second embodiment.

この変形例において、統合部260は、次の通り、音声Aと音声Bとのタイミングを合わせる。編集部240は、オリジナルの音声(音声A)にアナウンサー等の発話などを混合した混合音声(音声B)を生成する。つまり、編集部240が生成する音声Bのデータには、音声Aの情報も含まれている。統合部260は、音声A(「比較用音声」とも呼ぶ)と音声B(発話によるコメントが付加されているため「コメント音声」とも呼ぶ)とを取得する。なお、統合部260は、音声Aを、受信部220から直接取得してもよいし、編集部240から取得してもよい。統合部260は、音声Bの中に音声Aの信号が含まれていることを利用して、音声Aと音声Bのタイミングを合わせるための処理を実行する。   In this modification, the integration unit 260 matches the timings of the voice A and the voice B as follows. The editing unit 240 generates a mixed sound (sound B) in which the original sound (sound A) is mixed with the utterance of an announcer or the like. That is, the audio B data generated by the editing unit 240 includes the audio A information. The integration unit 260 acquires the voice A (also referred to as “comparison voice”) and the voice B (also referred to as “comment voice” since a comment by an utterance is added). The integrating unit 260 may acquire the voice A directly from the receiving unit 220 or may acquire it from the editing unit 240. The integration unit 260 uses the fact that the signal of the sound A is included in the sound B, and executes processing for matching the timings of the sound A and the sound B.

その一例として、統合部260は、次の計算を行う。音声Aおよび音声Bを、それぞれ、S(t)およびS(t)で表す。S(t)およびS(t)は、それぞれ、時刻tにおける信号値(例えば、音声信号の振幅)である。統合部260に音声Aと音声Bとが届くとき、その時点までのプロセスの経路の違いにより、両者のタイミングがずれている可能性がある。そのずれ量をΔt(デルタ・t)とする。図3等に示す処理を装置として構成した場合の音声Aと音声Bとの間のタイミングのずれ量は、通常は最大でも1秒未満、特殊なケースでもせいぜい数秒以内と想定することは妥当である。そして、統合部260は、時刻tを含む所定の時間区間において、信号S(t)と信号S(t+Δt)との相互相関値を算出する。その相互相関値はc=corr(S(t),S(t+Δt))と表される。ここで、corr()は、2つの信号の相互相関値を求める関数である。そして、統合部260は、上記の相互相関値cを最大化するようなずれ量Δtを求める。そして、統合部260は、求められたずれ量Δtに基づいてタイミング情報(PTS)の値を変更し、音声Aと音声Bのコンテンツのタイミングを合わせて、出力する。 As an example, the integration unit 260 performs the following calculation. The voice A and the voice B are represented by S A (t) and S B (t), respectively. S A (t) and S B (t) are signal values (for example, the amplitude of an audio signal) at time t, respectively. When the voice A and the voice B arrive at the integration unit 260, there is a possibility that the timings of the voice A and the voice B are shifted due to the difference in the process route up to that point. The shift amount is assumed to be Δt (delta · t). When the processing shown in FIG. 3 or the like is configured as an apparatus, it is reasonable to assume that the amount of timing deviation between the voice A and the voice B is normally less than one second at most, and within a few seconds at most in special cases. is there. Then, the integration unit 260 calculates a cross-correlation value between the signal S A (t) and the signal S B (t + Δt) in a predetermined time interval including the time t. The cross-correlation value is expressed as c = corr (S A (t), S B (t + Δt)). Here, corr () is a function for obtaining a cross-correlation value between two signals. Then, the integration unit 260 obtains a deviation amount Δt that maximizes the cross-correlation value c. Then, the integration unit 260 changes the value of the timing information (PTS) based on the obtained shift amount Δt, and outputs the contents of the audio A and audio B contents at the same timing.

なお、上記の関数corr()により相互相関値を算出する際、音声Aの信号レベルと音声Bの信号レベルとを、適宜、調整するようにしてもよい。また、ここでの信号レベルの調整量を、例えば機械学習等に基づいて、自動的に求めるようにしてもよい。
また、ここでは相互相関値を用いて音声Aと音声Bのタイミングを合わせる方法を例として挙げたが、統合部260が他の方法によって両者のタイミングを合わせるようにしてもよい。例えば、音声Aと音声Bの信号波形を、画像処理によって比較し、両者の波形の一致度が最も高くなるずれ量Δtを求めてもよい。
Note that when the cross-correlation value is calculated by the function corr (), the signal level of the sound A and the signal level of the sound B may be appropriately adjusted. Further, the signal level adjustment amount here may be automatically obtained based on, for example, machine learning.
In addition, here, a method of matching the timings of the voice A and the voice B using the cross-correlation value is described as an example. For example, the signal waveforms of the sound A and the sound B may be compared by image processing, and the shift amount Δt that maximizes the degree of coincidence between the waveforms may be obtained.

整理すると、統合部260は、第1音声の波形と第2音声の波形との類似性に基づいて、第1音声のコンテンツを含む第1パッケージのコンテンツと、編集部240によって生成された新たなコンテンツである第2音声との、いずれか一方を時間方向に移動させることによって、再生のタイミングが整合するように第1音声と第2音声とを統合して出力する。   When organized, the integration unit 260 creates the new content generated by the editing unit 240 and the content of the first package including the content of the first audio based on the similarity between the waveform of the first audio and the waveform of the second audio. By moving either one of the second sounds as the contents in the time direction, the first sound and the second sound are integrated and output so that the reproduction timing is matched.

[第3実施形態]
次に、第3実施形態について説明する。なお、前実施形態以前において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
[Third Embodiment]
Next, a third embodiment will be described. Note that description of matters already described before the previous embodiment may be omitted below. Here, the description will focus on matters specific to the present embodiment.

図9は、本実施形態による再配信システム(再配信装置)の概略機能構成と、同システムにおけるコンテンツデータの流れとを示す概略図である。図示するように、再配信システム12は、受信部320と、編集部340と、統合部360と、配信部380とを含んで構成される。   FIG. 9 is a schematic diagram illustrating a schematic functional configuration of a redistribution system (redistribution apparatus) according to the present embodiment and a flow of content data in the system. As illustrated, the redistribution system 12 includes a reception unit 320, an editing unit 340, an integration unit 360, and a distribution unit 380.

再配信システム12は、映像および音声のコンテンツを受信する。そして、再配信システム12は、受信した音声のコンテンツに基づいて、字幕テキストのコンテンツを生成する。そして、再配信システム12は、受信したオリジナルのコンテンツと、生成した字幕テキストのコンテンツとを、再生・提示するタイミングがあった状態で、再配信するものである。   The redistribution system 12 receives video and audio content. Then, the redistribution system 12 generates subtitle text content based on the received audio content. The redistribution system 12 redistributes the received original content and the generated subtitle text content in a state where there is a timing to reproduce and present.

受信部320は、少なくとも1種類の音声のコンテンツを含む第1パッケージを受信する。具体的には、例えば、受信部320は、外部の配信サーバー装置から、映像および音声で構成されるコンテンツを、ストリーミングの形式で受信する。受信部320は、受信した映像のファイルおよび音声のファイルを、統合部360に送信する。また、受信部320は、受信した音声のファイルを、編集部340に送信する。   The receiving unit 320 receives a first package including at least one type of audio content. Specifically, for example, the receiving unit 320 receives content composed of video and audio from an external distribution server device in a streaming format. The reception unit 320 transmits the received video file and audio file to the integration unit 360. In addition, the reception unit 320 transmits the received audio file to the editing unit 340.

編集部340は、第1パッケージに含まれる少なくとも1種類の音声のコンテンツの音声認識処理を行うことによってその音声のコンテンツに対応する字幕テキストのコンテンツを、新たなコンテンツとして生成する。編集部340は、音声認識エンジンを内部に備えており、入力された音声を文字列に変換する機能を有する。また、編集部340は、音声から変換された文字列を、さらに字幕テキストデータの形式に整形し、ライブストリーミングにおける映像の一部として表示可能な形態のファイルとして出力する。このとき、編集部340は、元の音声のファイルに含まれているタイミング情報(PTS,プレゼンテーションタイムスタンプ)と、ファイル内での時刻の相対位置等に基づいて、字幕テキストデータの断片ごとにタイミング情報を付与する。なお、編集部340は、例えば、タイムド・テキスト・マークアップ言語(TTML,Timed Text Markup Language)等の、タイミング情報を付加することのできるデータ形式で、字幕テキストを出力することができる。編集部340は、音声に基づいて生成された字幕テキストデータのファイルを、統合部360に送信する。
なお、音声認識エンジン自体には、既存の技術を適用することができる。音声認識エンジンは、基本的な処理として、入力される音声の音響的特徴を抽出し、必要に応じて言語としての特徴を考慮に入れながら、統計的に確からしい文字列を音声認識結果のテキストとして出力するものである。
The editing unit 340 performs a speech recognition process on at least one type of audio content included in the first package, thereby generating subtitle text content corresponding to the audio content as new content. The editing unit 340 includes a voice recognition engine inside, and has a function of converting input voice into a character string. In addition, the editing unit 340 further shapes the character string converted from the sound into a subtitle text data format, and outputs the character string as a file that can be displayed as part of the video in live streaming. At this time, the editing unit 340 performs timing for each piece of subtitle text data based on the timing information (PTS, presentation time stamp) included in the original audio file and the relative position of the time in the file. Give information. Note that the editing unit 340 can output subtitle text in a data format to which timing information can be added, such as Timed Text Markup Language (TTML). The editing unit 340 transmits the subtitle text data file generated based on the sound to the integration unit 360.
Note that existing technology can be applied to the speech recognition engine itself. As a basic process, the speech recognition engine extracts the acoustic features of the input speech, and considers the features of the language as necessary. Is output as

統合部360は、音声のコンテンツに含まれる音声信号と生成された字幕テキストとの間の時間方向の対応関係に基づいて、音声のコンテンツの再生のタイミングと字幕テキストの提示のタイミングが整合するように統合して出力する。つまり、統合部360は、受信部320から受け取った映像および音声のコンテンツのファイルと、編集部340から受け取った字幕テキストのファイルとを、パッケージとして統合して、配信部380に渡す。より具体的には、統合部360は、音声のコンテンツと字幕テキストのコンテンツとの間でのタイミング情報が整合している状態で、コンテンツのデータを出力する。なお、統合部360は、映像および音声のコンテンツを、エンコードされたままの状態で受信部320から受け取る。そして、そのままの状態で、字幕テキストのコンテンツとの統合を行う。   The integration unit 360 matches the reproduction timing of the audio content and the presentation timing of the subtitle text based on the correspondence in the time direction between the audio signal included in the audio content and the generated subtitle text. And output it. That is, the integration unit 360 integrates the video and audio content file received from the reception unit 320 and the subtitle text file received from the editing unit 340 as a package, and passes the package to the distribution unit 380. More specifically, the integration unit 360 outputs the content data in a state where the timing information between the audio content and the subtitle text content is consistent. The integration unit 360 receives the video and audio content from the reception unit 320 in an encoded state. Then, in the state as it is, integration with the content of the subtitle text is performed.

配信部380は、インターネット等を経由して、統合部360から渡されたコンテンツのファイルを配信する。具体的には、配信部380は、映像と音声と字幕テキストのコンテンツを配信する。   The distribution unit 380 distributes the content file passed from the integration unit 360 via the Internet or the like. Specifically, the distribution unit 380 distributes video, audio, and subtitle text content.

[第3実施形態:変形例1]
次に、第3実施形態の変形例1について説明する。この変形例の基本的な構成は、第2実施形態におけるそれと同一であるが、統合部360が、さらに言語翻訳を行う点が、特徴的な構成である。
[Third Embodiment: Modification 1]
Next, Modification 1 of the third embodiment will be described. The basic configuration of this modification is the same as that in the second embodiment, but is characterized in that the integration unit 360 further performs language translation.

第3実施形態の変形例1において、編集部340は、言語翻訳エンジンを備える。言語翻訳エンジンは、自然言語によるテキストの他国語への翻訳を行う。例えば、統合部360は、音声認識処理の結果として得られた日本語のテキストを、英語に翻訳し、英語の字幕テキストデータを出力する。あるいは、編集部340は、音声認識処理の結果として得られたフランス語のテキストを、日本語に翻訳し、日本語の字幕テキストデータを出力する。なお、翻訳元と翻訳先の言語は、ここに例示したもの以外であってもよい。なお、元の音声に付加されていたタイミング情報に基づいて、翻訳後の字幕テキストにもタイミング情報が付与される。編集部340は、翻訳後の字幕テキストを、統合部360に送信する。その後の処理は、既に述べた形態における処理と同様である。   In Modification 1 of the third embodiment, the editing unit 340 includes a language translation engine. The language translation engine translates text in a natural language into another language. For example, the integration unit 360 translates Japanese text obtained as a result of the speech recognition processing into English, and outputs English subtitle text data. Alternatively, the editing unit 340 translates the French text obtained as a result of the speech recognition processing into Japanese and outputs Japanese subtitle text data. Note that the language of the translation source and the translation destination may be other than those exemplified here. Note that the timing information is also given to the translated subtitle text based on the timing information added to the original voice. The editing unit 340 transmits the translated subtitle text to the integration unit 360. The subsequent processing is the same as the processing in the already described form.

[第3実施形態:変形例2]
次に、第3実施形態の変形例2について説明する。この変形例の基本的な構成は、第2実施形態におけるそれと同一であるが、統合部360が、さらに手話への翻訳を行う点が、特徴的な構成である。
なお、言語翻訳の機能自体には、既存の技術を適用すれば良い。
[Third Embodiment: Modification 2]
Next, Modification 2 of the third embodiment will be described. The basic configuration of this modification is the same as that in the second embodiment, but the characteristic is that the integration unit 360 further translates into sign language.
Note that existing technology may be applied to the language translation function itself.

第3実施形態の変形例2において、編集部340は、手話への翻訳機能を備える。言語翻訳エンジンは、音声認識処理の結果得られたテキストデータを、手話表現に翻訳する。そして、編集部340は、翻訳後の手話表現に対応する映像のコンテンツを生成し、出力する。手話は、例えば、コンピューターグラフィクス(CG)を用いて映像として表される。なお、元の音声に付加されていたタイミング情報に基づいて、出力される手話の映像にもタイミング情報が付与される。編集部340は、生成された手話の映像のデータを、統合部360に送信する。統合部360は、第3実施形態で説明した字幕テキストデータの代わりに、手話の映像のデータを、配信部380に渡す。配信部380は、元の映像および音声のコンテンツと、編集部340によって生成された手話の映像とを、配信する。   In the second modification of the third embodiment, the editing unit 340 has a function of translating into sign language. The language translation engine translates text data obtained as a result of the speech recognition processing into a sign language expression. Then, the editing unit 340 generates and outputs video content corresponding to the translated sign language expression. The sign language is represented as an image using, for example, computer graphics (CG). Note that timing information is also given to the output sign language video based on the timing information added to the original voice. The editing unit 340 transmits the generated sign language video data to the integration unit 360. The integration unit 360 passes the sign language video data to the distribution unit 380 instead of the caption text data described in the third embodiment. The distribution unit 380 distributes the original video and audio content and the sign language video generated by the editing unit 340.

なお、上述した実施形態およびその変形例における再配信システムの機能や、再配信システムを構成する一部の装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM、DVD−ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve the function of the redistribution system in embodiment mentioned above and its modification, and the function of some apparatuses which comprise a redistribution system with a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” is a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a DVD-ROM, a USB memory, or a storage device such as a hard disk built in a computer system. That means. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、説明した各実施形態またはその変形例のいずれかによれば、再配信システムは、インターネット等を介して、例えばHLS等の手段を用いて配信されるコンテンツを受信する。言い換えれば、再配信システムは、ベースバンド信号(非圧縮信号)で構成されるコンテンツを受信しない。そして、再配信システムは、受信したコンテンツの少なくとも一部に基づいて、別の新たなコンテンツを生成する。そして、再配信システムは、受信したオリジナルのコンテンツと、生成した新たなコンテンツとを統合したうえで、再配信する。再配信もまた、例えば、HLS等を用いる。これにより、クライアント装置は、新たなコンテンツが付加された状態でコンテンツのストリーミング配信を受けることが可能となる。   As described above, according to any of the embodiments described above or the modifications thereof, the redistribution system receives content distributed using means such as HLS via the Internet or the like. In other words, the redistribution system does not receive content composed of baseband signals (uncompressed signals). Then, the redistribution system generates another new content based on at least a part of the received content. Then, the redistribution system integrates the received original content and the generated new content, and redistributes it. Redistribution also uses, for example, HLS. As a result, the client device can receive streaming distribution of content in a state where new content is added.

そして、各実施形態またはその変形例によれば、最小限の工程および機材により、再配信システムを実現することが可能となり、システムを構築したり運用したりするコストを抑えられる。また、例えば、インターネットに接続できる環境さえあれば基本的にどこにおいても、配信形式のストリーミング映像に対して、音声等の新たなコンテンツを付加して再配信するサービスを実現することができる。   And according to each embodiment or its modification, it becomes possible to implement | achieve a re-distribution system with the minimum process and equipment, and the cost of constructing and operating a system can be held down. Further, for example, it is possible to realize a service in which new contents such as audio are added to a streaming video in a distribution format and redistributed basically anywhere as long as there is an environment that can be connected to the Internet.

コストに関して言えば、ベースバンド信号(非圧縮信号)のプロセッシングを行う高価な特殊機器が不要であり、インターネットにより映像の伝送が可能となるため、伝送コストの大幅な削減が期待できる。さらに、汎用的なコンピューターと、その上で稼働するソフトウェアのみでの処理が可能となるため、インターネット接続可能な場所であればどこからも、コンテンツを付加するサービスを実現することができる。また、元のコンテンツ(映像や音声等)と、付加するコンテンツ(たとえば、音声等)のタイミングを再配信システム内で自動的に同期させることができる。これにより、既存のストリーム映像音声にリアルタイムで新たなコンテンツ(音声等)を付加するという流れを1つにし、サービスの容易な実現が可能となる。コンテンツ配信等のサービスにおいて上の実施形態等で説明した構成を適用することにより、多様で、機動力に富んだサービスを提供することができるようになる。   In terms of cost, expensive special equipment for processing baseband signals (uncompressed signals) is not required, and video transmission is possible over the Internet, so a significant reduction in transmission costs can be expected. Furthermore, since processing can be performed only with a general-purpose computer and software running on the computer, it is possible to realize a service for adding content from anywhere that can be connected to the Internet. In addition, the timing of the original content (such as video and audio) and the content to be added (for example, audio) can be automatically synchronized within the redistribution system. As a result, the flow of adding new content (audio or the like) in real time to the existing stream video and audio can be integrated into one and the service can be easily realized. By applying the configuration described in the above embodiment or the like to a service such as content distribution, it is possible to provide a variety of services with high mobility.

なお、再配信システムが新たに付加するコンテンツは、音声のコンテンツに限られない。既に説明した例では、テキスト(いわゆる字幕テキストを含む)や、映像(一例として手話の映像)を生成して付加することができる。また、ここに例示したもの以外のコンテンツを、生成して付加することも可能となる。   Note that content newly added by the redistribution system is not limited to audio content. In the example already described, text (including so-called caption text) and video (for example, sign language video) can be generated and added. It is also possible to generate and add contents other than those exemplified here.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではない。さらなる変形例で実施するようにしてもよい。また、この発明の要旨を逸脱しない範囲の設計等を行ってもよい。   As mentioned above, although embodiment of this invention has been explained in full detail with reference to drawings, a concrete structure is not restricted to this embodiment. You may make it implement in the further modification. Moreover, you may design within the range which does not deviate from the summary of this invention.

例えば、上記の実施形態では、映像や音声のコンテンツを配信するための形式としてHLSを用いたが、他の形式によって配信するようにしてもよい。例えば、MPEG−DASHや、HDSや、MS Smooth Streamingなどといった形式も、使用することができる。   For example, in the above embodiment, HLS is used as a format for distributing video and audio content, but it may be distributed in other formats. For example, formats such as MPEG-DASH, HDS, and MS Smooth Streaming can also be used.

本発明は、例えばコンテンツを配信する事業等に利用することができる。ただし、産業上の利用可能性は、ここに例示した分野には限定されない。   The present invention can be used, for example, in a business for distributing content. However, industrial applicability is not limited to the field illustrated here.

1 再配信システム(再配信装置)
2 配信サーバー装置
3 クライアント装置
11,12 再配信システム(再配信装置)
120 受信部
140 編集部
160 統合部
180 配信部
220 受信部
240 編集部
260 統合部
280 配信部
320 受信部
340 編集部
360 統合部
380 配信部
1 Redistribution system (redistribution device)
2 Distribution server device 3 Client device 11, 12 Redistribution system (Redistribution device)
120 receiving unit 140 editing unit 160 integrating unit 180 distributing unit 220 receiving unit 240 editing unit 260 integrating unit 280 distributing unit 320 receiving unit 340 editing unit 360 integrating unit 380 distributing unit

Claims (7)

HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信部と、
前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、
前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合部と、
前記統合部から出力される前記第2パッケージを再配信する配信部と、
を具備することを特徴とする再配信システム。
A receiving unit for receiving a first package including at least one type of content encoded in an HTTP streaming format;
An editing unit that generates and outputs new content based on at least some types of content included in the first package received by the receiving unit;
At least a part of the content included in the first package received by the receiving unit and the new content generated by the editing unit are integrated and output as one second package. The integration department;
A distribution unit that redistributes the second package output from the integration unit;
A redistribution system comprising:
前記受信部は、少なくとも1種類の映像のコンテンツと、少なくとも1種類の音声のコンテンツとを含む前記第1パッケージを受信し、
前記編集部は、前記第1パッケージに含まれる少なくとも1種類の音声のコンテンツである第1音声を再生するとともに、前記第1音声と、前記第1音声に対応して入力される別の音声とを重畳して得られる第2音声を生成して前記新たなコンテンツとして出力し、
前記統合部は、前記第1パッケージに含まれる前記映像のコンテンツおよび前記音声のコンテンツと、前記新たなコンテンツとの間で、再生のタイミングが整合するように統合して出力する、
ことを特徴とする請求項1に記載の再配信システム。
The receiving unit receives the first package including at least one type of video content and at least one type of audio content;
The editing unit reproduces the first sound, which is at least one kind of sound content included in the first package, and the first sound and another sound input corresponding to the first sound; To generate a second sound obtained by superimposing and outputting as the new content,
The integration unit integrates and outputs the video content and the audio content included in the first package so that the playback timing is consistent between the new content,
The redistribution system according to claim 1.
前記編集部は、前記第1パッケージに含まれるコンテンツが保持するタイミング情報に基づいて、整合するタイミング情報を前記新たなコンテンツに付与するものであり、
前記統合部は、前記第1パッケージに含まれるコンテンツが保持するタイミング情報と前記新たなコンテンツに付与されたタイミング情報とに基づいて、再生のタイミングが整合するようにする、
ことを特徴とする請求項2に記載の再配信システム。
The editing unit gives matching timing information to the new content based on timing information held by the content included in the first package,
The integration unit matches reproduction timing based on timing information held by content included in the first package and timing information given to the new content.
The redistribution system according to claim 2.
前記統合部は、前記第1音声の波形と前記第2音声の波形との類似性に基づいて、前記第1音声のコンテンツを含む前記第1パッケージのコンテンツと、前記新たなコンテンツである前記第2音声との、いずれか一方を時間方向に移動させることによって、再生のタイミングが整合するように統合して出力する、
ことを特徴とする請求項2に記載の再配信システム。
The integration unit is based on the similarity between the waveform of the first audio and the waveform of the second audio, the content of the first package including the content of the first audio, and the first content that is the new content By moving either one of the two voices in the time direction, they are integrated and output so that the timing of playback is consistent,
The redistribution system according to claim 2.
前記受信部は、少なくとも1種類の音声のコンテンツを含む前記第1パッケージを受信し、
前記編集部は、前記第1パッケージに含まれる少なくとも1種類の音声のコンテンツの音声認識処理を行うことによって前記音声のコンテンツに対応する字幕テキストのコンテンツを前記新たなコンテンツとして生成し、
前記統合部は、前記音声のコンテンツに含まれる音声信号と生成された前記字幕テキストとの間の時間方向の対応関係に基づいて、前記音声のコンテンツの再生のタイミングと前記字幕テキストの提示のタイミングが整合するように統合して出力する、
ことを特徴とする請求項1に記載の再配信システム。
The receiving unit receives the first package including at least one type of audio content;
The editing unit generates, as the new content, subtitle text content corresponding to the audio content by performing audio recognition processing of at least one type of audio content included in the first package;
The integration unit, based on a time direction correspondence between the audio signal included in the audio content and the generated subtitle text, the reproduction timing of the audio content and the presentation timing of the subtitle text Are integrated and output so that
The redistribution system according to claim 1.
HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信過程、
前記受信過程で受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集過程、
前記受信過程で受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集過程において生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合過程、
前記統合過程で出力される前記第2パッケージを再配信する配信過程、
を含むことを特徴とする再配信方法。
Receiving a first package including at least one type of content encoded in an HTTP streaming format;
An editing process for generating and outputting new content based on at least some types of content included in the first package received in the receiving process;
At least a part of the content included in the first package received in the reception process and the new content generated in the editing process are integrated and output as one second package. Integration process,
A distribution process of redistributing the second package output in the integration process;
A redistribution method characterized by including:
コンピューターを、
HTTPストリーミング形式にエンコードされた少なくとも1種類のコンテンツを含む第1パッケージを受信する受信部と、
前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部の種類のコンテンツに基づく新たなコンテンツを生成して出力する編集部と、
前記受信部が受信した前記第1パッケージに含まれる前記コンテンツのうちの少なくとも一部のコンテンツと、前記編集部によって生成された前記新たなコンテンツとを、一つの第2パッケージとして統合して出力する統合部と、
前記統合部から出力される前記第2パッケージを再配信する配信部と、
を具備する再配信システムとして機能させるためのプログラム。
Computer
A receiving unit for receiving a first package including at least one type of content encoded in an HTTP streaming format;
An editing unit that generates and outputs new content based on at least some types of content included in the first package received by the receiving unit;
At least a part of the content included in the first package received by the receiving unit and the new content generated by the editing unit are integrated and output as one second package. The integration department;
A distribution unit that redistributes the second package output from the integration unit;
A program for functioning as a redistribution system.
JP2017110376A 2017-06-02 2017-06-02 Redelivery system, redelivery method, and program Active JP6971059B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017110376A JP6971059B2 (en) 2017-06-02 2017-06-02 Redelivery system, redelivery method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017110376A JP6971059B2 (en) 2017-06-02 2017-06-02 Redelivery system, redelivery method, and program

Publications (2)

Publication Number Publication Date
JP2018207288A true JP2018207288A (en) 2018-12-27
JP6971059B2 JP6971059B2 (en) 2021-11-24

Family

ID=64957599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017110376A Active JP6971059B2 (en) 2017-06-02 2017-06-02 Redelivery system, redelivery method, and program

Country Status (1)

Country Link
JP (1) JP6971059B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021117280A1 (en) * 2019-12-10 2021-06-17 哲朗 清岡 Video streaming reproduction system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177943A (en) * 1997-12-09 1999-07-02 Toshiba Corp Video data multiplexing device
JP2005210196A (en) * 2004-01-20 2005-08-04 Sony Corp Information processing apparatus, and information processing method
JP2005341598A (en) * 2001-04-05 2005-12-08 Matsushita Electric Ind Co Ltd Data stream synthesizing apparatus, delivery apparatus, delivery system, control method of data stream synthesizing apparatus, program and recording medium
JP2013135310A (en) * 2011-12-26 2013-07-08 Sony Corp Information processor, information processing method, program, recording medium, and information processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177943A (en) * 1997-12-09 1999-07-02 Toshiba Corp Video data multiplexing device
JP2005341598A (en) * 2001-04-05 2005-12-08 Matsushita Electric Ind Co Ltd Data stream synthesizing apparatus, delivery apparatus, delivery system, control method of data stream synthesizing apparatus, program and recording medium
JP2005210196A (en) * 2004-01-20 2005-08-04 Sony Corp Information processing apparatus, and information processing method
JP2013135310A (en) * 2011-12-26 2013-07-08 Sony Corp Information processor, information processing method, program, recording medium, and information processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021117280A1 (en) * 2019-12-10 2021-06-17 哲朗 清岡 Video streaming reproduction system

Also Published As

Publication number Publication date
JP6971059B2 (en) 2021-11-24

Similar Documents

Publication Publication Date Title
US11218740B2 (en) Decoder for decoding a media signal and encoder for encoding secondary media data comprising metadata or control data for primary media data
US20210326378A1 (en) Information processing apparatus and information processing method
TWI729997B (en) Transporting coded audio data
CN101981617B (en) Method and apparatus for generating additional information bit stream of multi-object audio signal
KR100802179B1 (en) Object-based 3-dimensional audio service system using preset audio scenes and its method
US20060106597A1 (en) System and method for low bit-rate compression of combined speech and music
JP4718275B2 (en) Multiple media synchronized playback system and synchronized playback method
KR20090115074A (en) Method and apparatus for transmitting/receiving multi channel audio signal using super frame
JP6971059B2 (en) Redelivery system, redelivery method, and program
JP2019110480A (en) Content processing system, terminal device, and program
JP5674590B2 (en) Sending apparatus, content providing system, and program
JP5771098B2 (en) COMMUNICATION CONTENT GENERATION DEVICE AND COMMUNICATION CONTENT GENERATION PROGRAM
JP2021197584A (en) Multiple signal conversion device and program thereof, and receiver
WO2016047475A1 (en) Information processing device and information processing method
CN108702533A (en) Sending device, sending method, reception device and method of reseptance
US20230254531A1 (en) Methods and systems for selective playback and attenuation of audio based on user preference
JP3782006B2 (en) Broadcast data transmission system, broadcast data transmission method, and data conversion apparatus
Kato et al. A location-free commentary adding system for live streaming using a cloud infrastructure
JP2019149790A (en) Recorder, player, converter, transmitter, recording method, playback method, conversion method, and data structure of stream data
KR20090069965A (en) System, device and method that providing meeting material
JP2011155685A (en) Encoding apparatus

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6971059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150