JP2020170980A - Video information output device, video information output system, video information output program, and video information output method - Google Patents

Video information output device, video information output system, video information output program, and video information output method Download PDF

Info

Publication number
JP2020170980A
JP2020170980A JP2019072544A JP2019072544A JP2020170980A JP 2020170980 A JP2020170980 A JP 2020170980A JP 2019072544 A JP2019072544 A JP 2019072544A JP 2019072544 A JP2019072544 A JP 2019072544A JP 2020170980 A JP2020170980 A JP 2020170980A
Authority
JP
Japan
Prior art keywords
microphones
video information
time
microphone
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019072544A
Other languages
Japanese (ja)
Other versions
JP7191760B2 (en
Inventor
洸平 石井
Kohei Ishii
洸平 石井
和男 白石
Kazuo Shiraishi
和男 白石
淳宏 桜井
Atsuhiro Sakurai
淳宏 桜井
佐藤 隆
Takashi Sato
隆 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Animo Ltd
Original Assignee
Fujitsu Ltd
Animo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Animo Ltd filed Critical Fujitsu Ltd
Priority to JP2019072544A priority Critical patent/JP7191760B2/en
Publication of JP2020170980A publication Critical patent/JP2020170980A/en
Application granted granted Critical
Publication of JP7191760B2 publication Critical patent/JP7191760B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

To output video information that can be used to generate a digest video.SOLUTION: A receiving unit receives audio data from built-in microphones 13A and 13B and a reference microphone 12, a cheering time specifying unit identifies a time when the sound pressure of the audio data of the reference microphone exceeds 15 dB (cheering start time), and a filtering unit identifies three seconds before the cheering start time. In addition, the filtering unit extracts the frequency component of the footsteps from the audio data received from the built-in microphones 13A and 13B in the specified three seconds, and a camera selection unit selects one of the built-in microphones on the basis of the extracted frequency component while selecting a video camera that captures a range corresponding to the installation position of the selected built-in microphone. Then, an output unit outputs digest information including information on the selected video camera to an editing unit.SELECTED DRAWING: Figure 10

Description

本発明は、映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法に関する。 The present invention relates to a video information output device, a video information output system, a video information output program, and a video information output method.

従来、動画像データを編集し、ダイジェストを生成する技術が各種提案されている。例えば、動画像データから所定期間ごとに所定時間分の画像データを抽出し、画像データの中の動きの大きい部分を抽出し、ダイジェストを生成する方法が知られている。また、動画像データを複数のシーンに分割して各シーンを評価し、評価結果に基づいてシーンを選択して編集する技術も知られている(例えば、特許文献1等参照)。また、音声映像信号からダイジェストシーンを選択して再生する技術として、音声信号のパワー値が所定条件を満たす盛り上がり時点を含む所定時間内の音声映像信号をダイジェストシーンとする技術が知られている(例えば、特許文献2等参照)。 Conventionally, various techniques for editing moving image data and generating a digest have been proposed. For example, there is known a method of extracting image data for a predetermined time from moving image data for a predetermined time, extracting a portion of the image data having a large movement, and generating a digest. Further, there is also known a technique of dividing moving image data into a plurality of scenes, evaluating each scene, and selecting and editing a scene based on the evaluation result (see, for example, Patent Document 1 and the like). Further, as a technique for selecting and reproducing a digest scene from an audio / video signal, there is known a technique for using an audio / video signal within a predetermined time including an excitement time when a power value of the audio signal satisfies a predetermined condition as a digest scene ( For example, refer to Patent Document 2 and the like).

更に、複数の監視カメラと複数のマイクを有する映像監視システムにおいて、マイクが異常音等を検出した場合に、該マイクに対応する監視カメラの映像情報を記録する技術が知られている(例えば、特許文献3等参照)。 Further, in a video surveillance system having a plurality of surveillance cameras and a plurality of microphones, there is known a technique of recording video information of a surveillance camera corresponding to the microphones when the microphones detect an abnormal sound or the like (for example,). See Patent Document 3 etc.).

特開2002−142189号公報JP-A-2002-142189 特開2007−267351号公報JP-A-2007-267351 特開2008−219227号公報Japanese Unexamined Patent Publication No. 2008-219227

例えばスポーツを複数のカメラで撮影する場合には、歓声をあげている観客がいる位置と、歓声のきっかけとなったプレーが行われている位置とがかけ離れている場合がある。この場合、上記特許文献3のように、盛り上がりの音を検出したマイクに対応するカメラの映像をスポーツのダイジェストとして記録してしまうと、適切なダイジェスト映像を生成することができないおそれがある。 For example, when shooting sports with a plurality of cameras, the position where the cheering spectator is present and the position where the play that triggered the cheering is performed may be far apart. In this case, if the image of the camera corresponding to the microphone that detects the swelling sound is recorded as a sports digest as in Patent Document 3, an appropriate digest image may not be generated.

1つの側面では、本発明は、ダイジェスト映像の生成に用いることが可能な映像情報を出力する映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法を提供することを目的とする。 In one aspect, an object of the present invention is to provide a video information output device, a video information output system, a video information output program, and a video information output method that can be used to generate a digest video. To do.

一つの態様では、映像情報出力装置は、複数のマイクから音声データを受信する受信部と、前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を備えている。 In one embodiment, the video information output device refers to a receiving unit that receives audio data from a plurality of microphones and a time when the sound pressure level of the audio data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold. A specific unit that specifies the time zone, an extraction unit that extracts a predetermined frequency component from the sound data of the time zone received from each of at least two microphones among the plurality of microphones, and the extracted predetermined unit. A selection unit that selects one microphone based on the frequency component and selects a camera that shoots a range corresponding to the installation position of the selected microphone, information on the time including the time zone, and the selected camera. It is equipped with an output unit that outputs video information including information.

ダイジェスト映像の生成に用いることが可能な映像情報を出力することができる。 It is possible to output video information that can be used to generate a digest video.

一実施形態に係る情報処理システムの構成を概略的に示す図である。It is a figure which shows roughly the structure of the information processing system which concerns on one Embodiment. 図1の情報処理装置のハードウェア構成を示す図である。It is a figure which shows the hardware configuration of the information processing apparatus of FIG. 図1の情報処理装置の機能ブロック図である。It is a functional block diagram of the information processing apparatus of FIG. 歓声時間特定部の処理を示すフローチャートである。It is a flowchart which shows the process of the cheering time specific part. 図5(a)は、基準マイクの音声データの一例を示す図であり、図5(b)は、歓声時間DBのデータ構造を示す図である。FIG. 5A is a diagram showing an example of voice data of a reference microphone, and FIG. 5B is a diagram showing a data structure of a cheering time DB. フィルタリング部、カメラ選定部及び出力部の処理を示すフローチャートである。It is a flowchart which shows the processing of a filtering part, a camera selection part and an output part. 図6のステップS50の処理を説明するための図である。It is a figure for demonstrating the process of step S50 of FIG. 図8(a)〜図8(d)は、図6のステップS52の処理を説明するための図である。8 (a) to 8 (d) are diagrams for explaining the process of step S52 of FIG. ダイジェスト情報DBのデータ構造を示す図である。It is a figure which shows the data structure of the digest information DB. 図10(a)は、比較例を示す図であり、図10(b)は、一実施形態の作用効果について説明するための図である。FIG. 10 (a) is a diagram showing a comparative example, and FIG. 10 (b) is a diagram for explaining the operation and effect of one embodiment.

以下、一実施形態について、図1〜図10に基づいて詳細に説明する。 Hereinafter, one embodiment will be described in detail with reference to FIGS. 1 to 10.

図1には、映像情報出力システムの一実施形態である、情報処理システム100の構成が概略的に示されている。本実施形態の情報処理システム100は、例えば室内のフットサルコートで行われるフットサルの試合を複数のビデオカメラで撮影し、撮影後の映像ファイル(映像データ及び音声データを含む)からダイジェストシーンを抽出してダイジェスト映像を編集するシステムである。 FIG. 1 schematically shows a configuration of an information processing system 100, which is an embodiment of a video information output system. The information processing system 100 of the present embodiment captures, for example, a futsal game held on an indoor futsal court with a plurality of video cameras, and extracts a digest scene from a video file (including video data and audio data) after shooting. This is a system for editing digest video.

図1に示すように、情報処理システム100は、映像情報出力装置としての情報処理装置10と、ビデオカメラ14A、14Bと、基準マイク12と、を備える。情報処理装置10と、ビデオカメラ14A、14B及び基準マイク12とは、PoE(Power over Ethernet(登録商標)) HUBやL2SW(layer 2 switch)を介して接続されている。 As shown in FIG. 1, the information processing system 100 includes an information processing device 10 as a video information output device, video cameras 14A and 14B, and a reference microphone 12. The information processing device 10, the video cameras 14A and 14B, and the reference microphone 12 are connected via a PoE (Power over Ethernet (registered trademark)) HUB or L2SW (layer 2 switch).

ビデオカメラ14A、14Bは、例えば、図1に示すようにフットサルコートの隅部に設置されており、各ビデオカメラ14A、14Bの画角は固定されているものとする。本実施形態では、各ビデオカメラ14A、14Bは、設置位置の近傍を撮影する。すなわち、図1において破線で示すように、一方のビデオカメラ14Aは、フットサルコートの左半分側を主に撮影し、他方のビデオカメラ14Bは、フットサルコートの右半分側を主に撮影する。ここで、内蔵マイク13A、13Bの集音範囲は、各マイクの周辺となっている。このため、内蔵マイク13Aとビデオカメラ14Aの撮影範囲とは対応しており、内蔵マイク13Bとビデオカメラ14Bの撮影範囲とは対応していると言える。ビデオカメラ14A、14Bは、撮影した映像データと、内蔵マイク(13A、13B)により取得した音声データと、を例えばmkvファイルなどの映像ファイルの形式で情報処理装置10に対して送信する。 It is assumed that the video cameras 14A and 14B are installed at the corners of the futsal court as shown in FIG. 1, and the angles of view of the video cameras 14A and 14B are fixed. In the present embodiment, the video cameras 14A and 14B photograph the vicinity of the installation position. That is, as shown by the broken line in FIG. 1, one video camera 14A mainly shoots the left half side of the futsal court, and the other video camera 14B mainly shoots the right half side of the futsal court. Here, the sound collecting range of the built-in microphones 13A and 13B is around each microphone. Therefore, it can be said that the shooting range of the built-in microphone 13A and the video camera 14A correspond to each other, and the shooting range of the built-in microphone 13B and the video camera 14B correspond to each other. The video cameras 14A and 14B transmit the captured video data and the audio data acquired by the built-in microphones (13A and 13B) to the information processing device 10 in the form of a video file such as an mkv file.

基準マイク12は、フットサルコートのセンターライン近傍に設置されており、室内(フットサルコートの周辺)の音声データを取得し、情報処理装置10に対して送信する。 The reference microphone 12 is installed near the center line of the futsal court, acquires voice data in the room (around the futsal court), and transmits it to the information processing device 10.

情報処理装置10は、ビデオカメラ14A、14Bと基準マイク12から送信されてくる映像データや音声データに基づいて、ダイジェスト映像を編集する。 The information processing device 10 edits the digest video based on the video data and audio data transmitted from the video cameras 14A and 14B and the reference microphone 12.

図2には、情報処理装置10のハードウェア構成が示されている。図2に示すように、情報処理装置10は、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD(Hard Disk Drive))96、ネットワークインタフェース97、表示部93、入力部95、及び可搬型記憶媒体用ドライブ99等を備えている。表示部93は液晶ディスプレイ等を含み、入力部95は、キーボードやマウス、タッチパネル等を含む。これら情報処理装置10の構成各部は、バス98に接続されている。情報処理装置10では、ROM92あるいはHDD96に格納されているプログラム(映像情報出力プログラムを含む)、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラム(映像情報出力プログラムを含む)をCPU90が実行することにより、図3に示す各部の機能が実現されている。なお、図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。 FIG. 2 shows the hardware configuration of the information processing device 10. As shown in FIG. 2, the information processing device 10 includes a CPU (Central Processing Unit) 90, a ROM (Read Only Memory) 92, a RAM (Random Access Memory) 94, and a storage unit (here, HDD (Hard Disk Drive)) 96. , A network interface 97, a display unit 93, an input unit 95, a portable storage medium drive 99, and the like. The display unit 93 includes a liquid crystal display and the like, and the input unit 95 includes a keyboard, a mouse, a touch panel and the like. Each component of the information processing device 10 is connected to the bus 98. In the information processing device 10, a program stored in the ROM 92 or HDD 96 (including a video information output program) or a program read from the portable storage medium 91 by the portable storage medium drive 99 (including a video information output program). By the CPU 90 executing the above, the functions of the respective parts shown in FIG. 3 are realized. The functions of each part in FIG. 3 may be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図3には、情報処理装置10の機能ブロック図が示されている。図3に示すように、情報処理装置10は、CPU90がプログラムを実行することにより、ダイジェスト情報生成・出力部15、及び編集部50として機能する。ダイジェスト情報生成・出力部15は、ビデオカメラ14A、14Bや、基準マイク12から送信されてくる映像データと音声データから、ダイジェストシーンとすべき映像データ及び音声データの情報(ダイジェスト情報)を生成し、編集部50に対して出力する。編集部50は、ダイジェスト情報生成・出力部15から出力されたダイジェスト情報に基づいてダイジェスト映像を編集する。 FIG. 3 shows a functional block diagram of the information processing device 10. As shown in FIG. 3, the information processing apparatus 10 functions as a digest information generation / output unit 15 and an editing unit 50 when the CPU 90 executes a program. The digest information generation / output unit 15 generates video data and audio data information (digest information) to be a digest scene from the video data and audio data transmitted from the video cameras 14A and 14B and the reference microphone 12. , Output to the editorial unit 50. The editorial unit 50 edits the digest video based on the digest information output from the digest information generation / output unit 15.

ここで、ダイジェスト情報生成・出力部15は、図3に示すように、受信部20、切出し処理部22、歓声時間特定部24、抽出部としてのフィルタリング部26、選定部としてのカメラ選定部28、及び出力部30を有する。 Here, as shown in FIG. 3, the digest information generation / output unit 15 includes a receiving unit 20, a cutting processing unit 22, a cheering time specifying unit 24, a filtering unit 26 as an extraction unit, and a camera selection unit 28 as a selection unit. , And an output unit 30.

受信部20は、ビデオカメラ14A、14Bや、基準マイク12から送信されてくる映像データと音声データを受信し、映像・音声DB40に格納する。 The receiving unit 20 receives the video data and audio data transmitted from the video cameras 14A and 14B and the reference microphone 12, and stores them in the video / audio DB 40.

切出し処理部22は、例えば、ユーザ等が試合の開始時刻と終了時刻を指定して編集開始指示を入力した場合に、映像・音声DB40に格納されている映像データと音声データから、試合中の映像データと音声データとを切り出す処理を実行する。切出し処理部22は、切出した映像データと音声データとを切出し映像・音声DB42に格納する。 For example, when the user or the like specifies the start time and the end time of the match and inputs the edit start instruction, the cutout processing unit 22 is in the match from the video data and the audio data stored in the video / audio DB 40. Executes the process of cutting out video data and audio data. The cutout processing unit 22 stores the cut out video data and audio data in the cutout video / audio DB 42.

歓声時間特定部24は、切出し映像・音声DB42に格納された基準マイク12の音声データを用いて、歓声があった時間帯を特定する。 The cheering time specifying unit 24 identifies the time zone in which the cheering was performed by using the audio data of the reference microphone 12 stored in the cutout video / audio DB 42.

フィルタリング部26は、歓声があった時間帯の前の所定時間(例えば3秒間)において内蔵マイク13A、13Bが取得した音声データを切出し映像・音声DB42から取得する。そして、フィルタリング部26は、取得した音声データそれぞれをバンドパスフィルタにかけ、所定の周波数成分のみを抽出する。 The filtering unit 26 acquires the audio data acquired by the built-in microphones 13A and 13B from the cut-out video / audio DB 42 at a predetermined time (for example, 3 seconds) before the cheering time zone. Then, the filtering unit 26 applies each of the acquired voice data to a bandpass filter, and extracts only a predetermined frequency component.

カメラ選定部28は、フィルタリング部26が抽出した所定の周波数成分の積分値が最も大きい内蔵マイクを選定し、選定した内蔵マイクに対応するビデオカメラを選定する。カメラ選定部28は、選定したビデオカメラの情報と、歓声があった時間帯とその前の所定時間(例えば3秒間)を含む時間帯(ダイジェスト時間)の情報とをダイジェスト情報DB46に格納する。 The camera selection unit 28 selects the built-in microphone having the largest integrated value of the predetermined frequency component extracted by the filtering unit 26, and selects the video camera corresponding to the selected built-in microphone. The camera selection unit 28 stores the information of the selected video camera and the information of the time zone (digest time) including the time zone in which the cheers were received and the predetermined time (for example, 3 seconds) before the cheering in the digest information DB 46.

出力部30は、ダイジェスト情報DB46に格納されている情報(ダイジェスト情報)を編集部50に対して出力する。 The output unit 30 outputs the information (digest information) stored in the digest information DB 46 to the editorial unit 50.

なお、本実施形態では、歓声時間特定部24とフィルタリング部26とにより、基準マイク12の音声データの音圧が閾値を超えた時刻(歓声開始時刻)を基準とする時間帯を特定する特定部としての機能が実現されている。 In the present embodiment, the cheering time specifying unit 24 and the filtering unit 26 specify a time zone based on the time when the sound pressure of the voice data of the reference microphone 12 exceeds the threshold value (cheering start time). The function as is realized.

(ダイジェスト情報生成・出力部15の処理について)
次に、図4、図6のフローチャートに沿って、その他図面を適宜参照しつつ、ダイジェスト情報生成・出力部15の具体的な処理について詳細に説明する。
(Digest information generation / processing of output unit 15)
Next, the specific processing of the digest information generation / output unit 15 will be described in detail with reference to other drawings according to the flowcharts of FIGS. 4 and 6.

(図4の処理について)
図4の処理は、ユーザが、入力部95を介して、フットサルの試合開始時刻と試合終了時刻を指定して、編集開始指示を入力した場合に歓声時間特定部24が実行する処理である。なお、図4の処理が開始される段階では、既にフットサルの試合が終了しているものとする。また、受信部20は、ユーザがフットサルコートを利用している間にビデオカメラ14A、14Bから得られた映像ファイルと、基準マイク12から得られた音声データを受信して、映像・音声DB40に格納しているものとする。更に、切出し処理部22は、ユーザによって指定された試合開始時刻と試合終了時刻に基づいて、試合中の映像データと音声データを切り出し、切出し映像・音声DB42に格納しているものとする。
(About the processing in Fig. 4)
The process of FIG. 4 is a process executed by the cheering time specifying unit 24 when the user specifies the futsal game start time and the game end time via the input unit 95 and inputs an edit start instruction. It is assumed that the futsal game has already ended when the process of FIG. 4 is started. Further, the receiving unit 20 receives the video file obtained from the video cameras 14A and 14B and the audio data obtained from the reference microphone 12 while the user is using the futsal court, and receives the video data obtained from the reference microphone 12 into the video / audio DB 40. It is assumed that it is stored. Further, it is assumed that the cutout processing unit 22 cuts out the video data and the audio data during the match based on the match start time and the match end time specified by the user, and stores them in the cutout video / audio DB 42.

図4の処理では、まず、ステップS10において、歓声時間特定部24が、基準マイク12の音声データを切出し映像・音声DB42から取得する。例えば、歓声時間特定部24は、図5(a)に示すような音声データを取得したものとする。 In the process of FIG. 4, first, in step S10, the cheering time specifying unit 24 acquires the audio data of the reference microphone 12 from the cut-out video / audio DB 42. For example, it is assumed that the cheering time specifying unit 24 has acquired the voice data as shown in FIG. 5A.

次いで、ステップS12では、歓声時間特定部24が、取得した音声データの初期時刻の音圧(音圧レベル)を取得する。次いで、ステップS14では、歓声時間特定部24が、取得した音圧が15dB以上か否かを判断する。このステップS14の判断が否定された場合には、ステップS28に移行する。ステップS28では、歓声時間特定部24が、音声データの末尾であるか否かを判断する。このステップS28の判断が否定された場合には、ステップS30に移行し、歓声時間特定部24は、t秒後(例えば10ms後)の音圧を取得した後、ステップS14に戻る。 Next, in step S12, the cheering time specifying unit 24 acquires the sound pressure (sound pressure level) at the initial time of the acquired voice data. Next, in step S14, the cheering time specifying unit 24 determines whether or not the acquired sound pressure is 15 dB or more. If the determination in step S14 is denied, the process proceeds to step S28. In step S28, the cheering time specifying unit 24 determines whether or not it is the end of the voice data. If the determination in step S28 is denied, the process proceeds to step S30, and the cheering time specifying unit 24 returns to step S14 after acquiring the sound pressure after t seconds (for example, after 10 ms).

一方、ステップS14の判断が肯定された場合、すなわち取得した音圧が15dB以上であった場合には、ステップS16に移行し、歓声時間特定部24は、歓声開始時刻を歓声時間DB44に記憶する。ここで、歓声時間DB44は、図5(b)に示すようなデータ構造を有している。具体的には、歓声時間DB44には、歓声時間の情報(歓声開始時刻と歓声終了時刻)を格納することができる。したがって、ステップS16では、歓声時間特定部24は、歓声開始時刻の欄に取得した音圧に対応する時刻(年月日時分秒ミリ秒)を記憶する。なお、この時点では、記憶した歓声開始時刻に対応する歓声終了時刻は記憶されていない(空欄である)ものとする。 On the other hand, when the determination in step S14 is affirmed, that is, when the acquired sound pressure is 15 dB or more, the process proceeds to step S16, and the cheering time specifying unit 24 stores the cheering start time in the cheering time DB44. .. Here, the cheering time DB44 has a data structure as shown in FIG. 5B. Specifically, the cheering time DB 44 can store information on the cheering time (cheering start time and cheering end time). Therefore, in step S16, the cheering time specifying unit 24 stores the time (year / month / day / hour / minute / second / millisecond) corresponding to the acquired sound pressure in the cheering start time column. At this point, it is assumed that the cheering end time corresponding to the memorized cheering start time is not memorized (blank).

次いで、ステップS18では、歓声時間特定部24が、t秒後の音圧を取得する。そして、次のステップS20では、歓声時間特定部24が、音圧が15dB未満か否かを判断する。このステップS20の判断が否定されている間、すなわち、音圧が15dB以上である間は、ステップS18、S20(否定)を繰り返す。一方、ステップS20の判断が肯定された場合、すなわち、音圧が15dB未満となった場合には、ステップS22に移行する。 Next, in step S18, the cheering time specifying unit 24 acquires the sound pressure after t seconds. Then, in the next step S20, the cheering time specifying unit 24 determines whether or not the sound pressure is less than 15 dB. While the determination in step S20 is denied, that is, while the sound pressure is 15 dB or more, steps S18 and S20 (denial) are repeated. On the other hand, when the determination in step S20 is affirmed, that is, when the sound pressure becomes less than 15 dB, the process proceeds to step S22.

ステップS22に移行すると、歓声時間特定部24は、歓声開始時刻からの経過時間が300ms以上であるか否かを判断する。このステップS22の判断が肯定された場合、すなわち図5(a)の範囲Aのように、15dB以上の音圧が300ms以上続いた場合には、歓声があったことを意味する。この場合、歓声時間特定部24は、ステップS24に移行し、ステップS16で歓声時間DB44に記憶した歓声開始時刻に対応する歓声終了時刻として、直前にステップS18で取得した音圧に対応する時刻(年月日時分秒ミリ秒)を記憶する。その後は、ステップS28に移行する。 When the process proceeds to step S22, the cheering time specifying unit 24 determines whether or not the elapsed time from the cheering start time is 300 ms or more. When the determination in step S22 is affirmed, that is, when the sound pressure of 15 dB or more continues for 300 ms or more as in the range A of FIG. 5A, it means that there was cheering. In this case, the cheering time specifying unit 24 shifts to step S24, and sets the cheering end time corresponding to the cheering start time stored in the cheering time DB44 in step S16 as the time corresponding to the sound pressure acquired in step S18 immediately before. Memorize the year, month, day, hour, minute, second, and millisecond). After that, the process proceeds to step S28.

一方、ステップS22の判断が否定された場合、すなわち図5(a)の範囲Bのように15dB以上の音圧が300ms以上続かなかった場合には、歓声が無かったことを意味する。この場合、歓声時間特定部24は、ステップS26に移行し、ステップS16で歓声時間DB44に記憶した歓声開始時刻を削除して、ステップS28に移行する。 On the other hand, when the determination in step S22 is denied, that is, when the sound pressure of 15 dB or more does not continue for 300 ms or more as in the range B of FIG. 5A, it means that there was no cheering. In this case, the cheering time specifying unit 24 shifts to step S26, deletes the cheering start time stored in the cheering time DB44 in step S16, and shifts to step S28.

その後は、ステップS28の判断が肯定されるまで、上述した処理を繰り返し実行し、ステップS28の判断が肯定された段階で、図4の全処理を終了する。図4の全処理が終了した段階では、試合中において発生した全ての歓声の情報(歓声時間)が歓声時間DB44に格納されることになる。これを例示したものが図5(b)の各エントリである。 After that, the above-described processing is repeatedly executed until the determination in step S28 is affirmed, and when the determination in step S28 is affirmed, all the processing in FIG. 4 is terminated. At the stage when all the processing of FIG. 4 is completed, the information (cheering time) of all the cheers generated during the match is stored in the cheering time DB44. An example of this is each entry in FIG. 5 (b).

(図6の処理について)
次に、図6の処理について説明する。図6の処理は、フィルタリング部26、カメラ選定部28及び出力部30が、図4の処理が完了した後に実行する処理である。
(About the processing in Fig. 6)
Next, the process of FIG. 6 will be described. The process of FIG. 6 is a process executed by the filtering unit 26, the camera selection unit 28, and the output unit 30 after the process of FIG. 4 is completed.

図6の処理では、まず、ステップS50において、フィルタリング部26が、歓声時間DB44に格納されている歓声開始時刻を1つ選択し、その直前の3秒間を特定する。例えば、図7に示す範囲Aの先頭の歓声開始時刻を選択した場合には、その直前の3秒間を特定する。 In the process of FIG. 6, first, in step S50, the filtering unit 26 selects one cheering start time stored in the cheering time DB44 and specifies the 3 seconds immediately before that. For example, when the cheering start time at the beginning of the range A shown in FIG. 7 is selected, the 3 seconds immediately before that is specified.

次いで、ステップS52では、フィルタリング部26が、全ビデオカメラに対応する内蔵マイクから特定した3秒間に得られた音声データに対して、周波数フィルタリング処理を実行する。例えば、フィルタリング部26は、フットサルを行う人の足音(シューズ音)の周波数帯域が3〜4kHzである場合に、当該周波数帯域を通過させるバンドパスフィルタに対して音声データを通す。 Next, in step S52, the filtering unit 26 executes frequency filtering processing on the audio data obtained for 3 seconds specified from the built-in microphones corresponding to all the video cameras. For example, when the frequency band of the footsteps (shoes sound) of a futsal player is 3 to 4 kHz, the filtering unit 26 passes audio data to a bandpass filter that passes through the frequency band.

例えば、内蔵マイク13A、13Bの上記3秒間の音声データが図8(a)、図8(c)に示すようなデータであったとする。この場合、図8(a)の内蔵マイク13Aの音声データは、バンドパスフィルタに通すことで、図8(b)に示すような3〜4kHzの周波数成分のみの音声データとなる。また、図8(c)の内蔵マイク13Bの音声データは、バンドパスフィルタに通すことで、図8(d)に示すような3〜4kHzの周波数成分のみの音声データとなる。 For example, it is assumed that the voice data of the built-in microphones 13A and 13B for 3 seconds is the data shown in FIGS. 8 (a) and 8 (c). In this case, the audio data of the built-in microphone 13A of FIG. 8A is passed through a bandpass filter to become audio data of only frequency components of 3 to 4 kHz as shown in FIG. 8B. Further, the audio data of the built-in microphone 13B of FIG. 8C is passed through a bandpass filter to become audio data of only frequency components of 3 to 4 kHz as shown in FIG. 8D.

次いで、ステップS54では、カメラ選定部28が、各内蔵マイク13A、13Bの、フィルタリング後の3秒間の音声データの音圧を積分する。すなわち、カメラ選定部28は、図8(b)と図8(d)のグラフの面積を求めることとなる。 Next, in step S54, the camera selection unit 28 integrates the sound pressures of the audio data of the built-in microphones 13A and 13B for 3 seconds after filtering. That is, the camera selection unit 28 obtains the areas of the graphs of FIGS. 8 (b) and 8 (d).

次いで、ステップS56では、カメラ選定部28が、積分値が最も大きい内蔵マイクを選定するとともに、選定した内蔵マイクに対応する範囲を撮影するビデオカメラを選定し、ダイジェスト開始時刻及びダイジェスト終了時刻とともにダイジェスト情報DB46に記憶する。なお、足音に対応する周波数成分の積分値が最も大きい内蔵マイクは、歓声のきっかけとなったプレーが行われた位置に最も近い内蔵マイクであると考えられる。したがって、足音に対応する周波数成分の積分値が最も大きい内蔵マイクに対応する範囲を撮影するビデオカメラは、歓声のきっかけとなったプレーを撮影していたと考えられる。 Next, in step S56, the camera selection unit 28 selects the built-in microphone having the largest integrated value, selects a video camera that shoots a range corresponding to the selected built-in microphone, and digests the digest together with the digest start time and the digest end time. It is stored in the information DB 46. The built-in microphone having the largest integrated value of the frequency component corresponding to the footsteps is considered to be the built-in microphone closest to the position where the play that triggered the cheers was performed. Therefore, it is probable that the video camera that shoots the range corresponding to the built-in microphone having the largest integrated value of the frequency component corresponding to the footsteps was shooting the play that triggered the cheers.

図9には、ダイジェスト情報DB46のデータ構造が示されている。図9に示すように、ダイジェスト情報DB46は、カメラID、ダイジェスト開始時刻、ダイジェスト終了時刻の各フィールドを有する。このダイジェスト情報DB46には、どのビデオカメラに撮影されたどの時間帯の映像がダイジェストシーンであるかを示す情報が格納されることになる。 FIG. 9 shows the data structure of the digest information DB 46. As shown in FIG. 9, the digest information DB 46 has fields for a camera ID, a digest start time, and a digest end time. The digest information DB 46 stores information indicating which video camera has captured the video in which time zone is the digest scene.

例えば、図8(b)、図8(d)の場合、積分値は、図8(b)の内蔵マイク13Aの方が大きい。このため、カメラ選定部28は、内蔵マイク13Aに対応するビデオカメラ14Aを選定する。そして、カメラ選定部28は、ビデオカメラ14AのカメラID(「A」とする)と、ダイジェスト開始時刻(歓声開始時刻の3秒前の時刻)と、ダイジェスト終了時刻(歓声終了時刻と同時刻)と、をダイジェスト情報DB46に記憶する。 For example, in the case of FIGS. 8 (b) and 8 (d), the integrated value of the built-in microphone 13A of FIG. 8 (b) is larger. Therefore, the camera selection unit 28 selects the video camera 14A corresponding to the built-in microphone 13A. Then, the camera selection unit 28 includes the camera ID (referred to as “A”) of the video camera 14A, the digest start time (time 3 seconds before the cheer start time), and the digest end time (the same time as the cheer end time). And are stored in the digest information DB 46.

図6に戻り、次のステップS58では、カメラ選定部28が、全ての歓声開始時刻を選択し終えたか否かを判断する。換言すると、図5(b)の全てのエントリに対しての処理が終わったかを判断する。このステップS58の判断が否定された場合には、ステップS50に戻り、ステップS50〜S58の処理・判断を繰り返し実行する。一方、ステップS58の判断が肯定された場合には、ステップS60に移行し、出力部30は、ダイジェスト情報DB46に記憶されている情報(ダイジェスト情報)を編集部50に対して出力する。なお、出力部30は、ダイジェスト情報DB46に記憶されている情報をcsvファイルなどの形式で編集部50に対して出力する。 Returning to FIG. 6, in the next step S58, the camera selection unit 28 determines whether or not all the cheering start times have been selected. In other words, it is determined whether the processing for all the entries in FIG. 5B has been completed. If the determination in step S58 is denied, the process returns to step S50, and the processing / determination in steps S50 to S58 is repeatedly executed. On the other hand, if the determination in step S58 is affirmed, the process proceeds to step S60, and the output unit 30 outputs the information (digest information) stored in the digest information DB 46 to the editorial unit 50. The output unit 30 outputs the information stored in the digest information DB 46 to the editorial unit 50 in the form of a csv file or the like.

ダイジェスト情報生成・出力部15が以上のような処理を実行することにより、図9に示すようなダイジェスト情報DB46に記憶されているダイジェスト情報が編集部50に対して出力される。このため、編集部50は、ダイジェスト情報に基づいて、切出し映像・音声DB42からダイジェストシーンを切り出すことで、歓声のきっかけとなったプレーが撮影された適切なダイジェスト映像を自動的に生成することができる。 When the digest information generation / output unit 15 executes the above processing, the digest information stored in the digest information DB 46 as shown in FIG. 9 is output to the editorial unit 50. Therefore, the editorial unit 50 can automatically generate an appropriate digest video in which the play that triggered the cheers is captured by cutting out the digest scene from the cut-out video / audio DB 42 based on the digest information. it can.

ここで、比較例として、カメラ選定部28が、内蔵マイク13A、13Bのうち音圧が大きい方の内蔵マイクを選定するとともに、選定した内蔵マイクに対応する範囲を撮影するビデオカメラの映像をダイジェスト映像とする場合について説明する。この例において、図10(a)に示すように、フットサルコートの左側のゴールにシュートが決まったときに、フットサルコートの右側に存在する観客が歓声をあげたとする。この場合、比較例では、歓声をあげた観客に近い側のビデオカメラ14Bの映像がダイジェスト映像となってしまうため、歓声があがるきっかけとなったゴールシーンが含まれない映像がダイジェスト映像となるおそれがある。これに対し、本実施形態では、カメラ選定部28が、足音の周波数成分の積分値が大きい内蔵マイク13Aを選定するとともに、選定した内蔵マイク13Aに対応する範囲を撮影するビデオカメラ14Aを選定するため、図10(b)に示すように歓声のきっかけとなったシーンを撮影した映像をダイジェスト映像とすることができる。 Here, as a comparative example, the camera selection unit 28 selects the built-in microphone having the larger sound pressure among the built-in microphones 13A and 13B, and digests the image of the video camera that shoots the range corresponding to the selected built-in microphone. The case of making a video will be described. In this example, as shown in FIG. 10A, it is assumed that the spectator on the right side of the futsal court cheers when a shot is scored on the goal on the left side of the futsal court. In this case, in the comparative example, the image of the video camera 14B on the side closer to the cheering audience becomes the digest image, so that the image that does not include the goal scene that triggered the cheering may become the digest image. There is. On the other hand, in the present embodiment, the camera selection unit 28 selects the built-in microphone 13A having a large integrated value of the frequency component of the footsteps, and also selects the video camera 14A that shoots the range corresponding to the selected built-in microphone 13A. Therefore, as shown in FIG. 10B, the image obtained by shooting the scene that triggered the cheers can be used as the digest image.

以上、詳細に説明したように、本実施形態によると、歓声時間特定部24は、基準マイク12の音声データの音圧が15dBを超えた時刻(歓声開始時刻)を特定し、フィルタリング部26は歓声開始時刻の前の3秒間を特定する。また、フィルタリング部26は、特定した3秒間に内蔵マイク13A、13Bから受信した音声データから足音の周波数成分を抽出する。また、カメラ選定部28は、抽出した周波数成分に基づいて内蔵マイクの1つを選定するとともに、選定した内蔵マイクの設置位置に対応する範囲を撮影するビデオカメラを選定する。そして、出力部30は、選定されたビデオカメラの情報を含むダイジェスト情報を編集部50に対して出力する。これにより、本実施形態では、フットサルなどの試合を撮影した映像からダイジェスト映像を生成するのに用いることが可能な適切な情報を出力することができる。したがって、編集部50は、ダイジェスト情報を用いることで、適切なダイジェスト情報を生成することが可能である。 As described in detail above, according to the present embodiment, the cheering time specifying unit 24 specifies the time when the sound pressure of the voice data of the reference microphone 12 exceeds 15 dB (cheering start time), and the filtering unit 26 determines. Identify the 3 seconds before the cheer start time. Further, the filtering unit 26 extracts the frequency component of the footsteps from the voice data received from the built-in microphones 13A and 13B in the specified 3 seconds. Further, the camera selection unit 28 selects one of the built-in microphones based on the extracted frequency component, and also selects a video camera that shoots a range corresponding to the installation position of the selected built-in microphone. Then, the output unit 30 outputs the digest information including the information of the selected video camera to the editorial unit 50. Thereby, in the present embodiment, it is possible to output appropriate information that can be used to generate a digest video from the video of a game such as futsal. Therefore, the editorial unit 50 can generate appropriate digest information by using the digest information.

また、本実施形態では、カメラ選定部28は、内蔵マイク13A、13Bそれぞれの足音に対応する周波数成分の積分値を求め、積分値が最も大きい内蔵マイクを選定するとともに、選定したマイクに対応するビデオカメラを選定する。これにより、歓声の直前に歓声のきっかけとなったプレーを撮影したビデオカメラを適切に選定することが可能である。 Further, in the present embodiment, the camera selection unit 28 obtains the integrated value of the frequency component corresponding to the footsteps of the built-in microphones 13A and 13B, selects the built-in microphone having the largest integrated value, and corresponds to the selected microphone. Select a video camera. This makes it possible to appropriately select a video camera that captures the play that triggered the cheers immediately before the cheers.

また、本実施形態では、基準マイク12の音声データの音圧が所定の閾値(例えば15dB)を超えた時間が所定時間(例えば300ms)以上となった場合に、歓声があったと判断するので、歓声の有無を適切に判断することができる。 Further, in the present embodiment, when the sound pressure of the voice data of the reference microphone 12 exceeds a predetermined threshold value (for example, 15 dB) for a predetermined time (for example, 300 ms) or more, it is determined that there is a cheer. It is possible to appropriately judge the presence or absence of cheers.

なお、上記実施形態では、情報処理装置10が編集部50を有する場合について説明したが、これに限られるものではない。例えば、情報処理装置10の出力部30は、ダイジェスト情報を表示部93上に出力(表示)することとしてもよい。この場合、ユーザは、ダイジェスト情報を参照しながらダイジェスト映像を編集することができるため、ユーザの作業負担を軽減することが可能となる。また、情報処理装置10の出力部30は、他の装置(端末等)にダイジェスト情報を出力するようにしてもよい。この場合、他の装置がダイジェスト情報に基づいてダイジェスト映像を自動的に編集してもよいし、他の装置のユーザがダイジェスト情報を参照しながらダイジェスト映像を編集することとしてもよい。なお、情報処理装置10が表示部93や他の装置にダイジェスト情報を出力する場合には、情報処理装置10は、ビデオカメラ14A、14Bから映像データを受信(取得)しなくてもよい。 In the above embodiment, the case where the information processing apparatus 10 has the editorial unit 50 has been described, but the present invention is not limited to this. For example, the output unit 30 of the information processing device 10 may output (display) the digest information on the display unit 93. In this case, since the user can edit the digest video while referring to the digest information, it is possible to reduce the work load of the user. Further, the output unit 30 of the information processing device 10 may output the digest information to another device (terminal or the like). In this case, another device may automatically edit the digest video based on the digest information, or a user of the other device may edit the digest video while referring to the digest information. When the information processing device 10 outputs digest information to the display unit 93 or another device, the information processing device 10 does not have to receive (acquire) video data from the video cameras 14A and 14B.

なお、上記実施形態では、基準マイク12が1つである場合について説明したが、これに限らず、基準マイクが複数あってもよい。この場合、複数の基準マイクの各時刻における音圧を合計して、閾値と比較してもよいし、複数の基準マイクの各時刻における音圧を平均して、閾値と比較してもよい。また、例えば、基準マイク12を用意せずに、複数の内蔵マイクの少なくとも1つを基準マイク12の代わりに用いることとしてもよい。複数の内蔵マイクを基準マイクとする場合には、前述と同様、複数の基準マイクの各時刻における音圧を合計して、閾値と比較してもよいし、複数の基準マイクの各時刻における音圧を平均して、閾値と比較してもよい。 In the above embodiment, the case where there is one reference microphone 12 has been described, but the present invention is not limited to this, and there may be a plurality of reference microphones. In this case, the sound pressures of the plurality of reference microphones at each time may be totaled and compared with the threshold value, or the sound pressures of the plurality of reference microphones at each time may be averaged and compared with the threshold value. Further, for example, at least one of a plurality of built-in microphones may be used instead of the reference microphone 12 without preparing the reference microphone 12. When a plurality of built-in microphones are used as reference microphones, the sound pressures of the plurality of reference microphones at each time may be totaled and compared with the threshold value, or the sounds of the plurality of reference microphones at each time may be compared. The pressure may be averaged and compared to the threshold.

なお、上記実施形態では、ビデオカメラの撮影範囲がビデオカメラの近傍でない場合もある。例えば、図1のビデオカメラ14Aが図1のフットサルコートの右側を望遠で撮影し、ビデオカメラ14Bがコートの左側を望遠で撮影する場合もある。このような場合には、どの内蔵マイクの集音範囲とどのビデオカメラの撮影範囲とが対応するかを示すテーブルを用意しておく。そして、カメラ選定部28は、ステップS56において、用意しておいたテーブルを参照して、積分値が最も大きい内蔵マイクに対応するビデオカメラを選定するようにすればよい。 In the above embodiment, the shooting range of the video camera may not be in the vicinity of the video camera. For example, the video camera 14A of FIG. 1 may shoot the right side of the futsal court of FIG. 1 with a telephoto, and the video camera 14B may shoot the left side of the court with a telephoto. In such a case, prepare a table showing which built-in microphone's sound collection range corresponds to which video camera's shooting range. Then, the camera selection unit 28 may select the video camera corresponding to the built-in microphone having the largest integrated value by referring to the prepared table in step S56.

なお、上記実施形態では、足音に対応する周波数を3〜4kHzとし、音声データから当該周波数成分を抽出する場合について説明したが、これに限られるものではない。スポーツの種類や場所などに合わせて、抽出する周波数成分を変更してもよい。例えば、剣道であれば竹刀の音に対応する周波数成分、柔道であれば足と畳がこすれる音に対応する周波数成分などを抽出するようにすればよい。また、歓声の有無の判定に用いる音圧の閾値(15dB)や経過時間の閾値(300ms)についても、スポーツの種類や場所などに合わせて、その他の値に変更してもよい。 In the above embodiment, the case where the frequency corresponding to the footsteps is set to 3 to 4 kHz and the frequency component is extracted from the voice data has been described, but the present invention is not limited to this. The frequency component to be extracted may be changed according to the type and place of sports. For example, in the case of kendo, the frequency component corresponding to the sound of a bamboo sword may be extracted, and in the case of judo, the frequency component corresponding to the sound of rubbing the feet and tatami mats may be extracted. Further, the sound pressure threshold value (15 dB) and the elapsed time threshold value (300 ms) used for determining the presence or absence of cheers may be changed to other values according to the type and place of the sport.

なお、上記実施形態では、フィルタリング部26は、歓声開始時刻を基準とする時間帯を特定する際に、歓声開始時刻の前の3秒間を特定する場合について説明したが、これに限られるものではない。歓声開始時刻を基準とする時間帯の長さは3秒間以外であってもよい。また、フィルタリング部26は、歓声開始時刻の後の時間帯や、歓声開始時刻の前後の時間帯を特定することとしてもよい。 In the above embodiment, the filtering unit 26 has described the case of specifying the 3 seconds before the cheer start time when specifying the time zone based on the cheer start time, but the present invention is not limited to this. Absent. The length of the time zone based on the cheering start time may be other than 3 seconds. Further, the filtering unit 26 may specify the time zone after the cheering start time and the time zone before and after the cheering start time.

なお、上記実施形態では、カメラ選定部28は、音声データの所定の周波数成分の積分値に基づいて、内蔵マイク及びこれに対応するビデオカメラを選定する場合について説明したが、これに限られるものではない。例えば、カメラ選定部28は、音声データの所定の周波数成分において、所定の音圧(例えば15dB)を超えるピークの数が最も多い内蔵マイク及びこれに対応するビデオカメラを選定してもよい。また、カメラ選定部28は、その他の方法により内蔵マイク及びこれに対応するビデオカメラを選定することとしてもよい。 In the above embodiment, the camera selection unit 28 has described the case where the built-in microphone and the video camera corresponding thereto are selected based on the integrated value of the predetermined frequency component of the audio data, but the present invention is limited to this. is not. For example, the camera selection unit 28 may select a built-in microphone having the largest number of peaks exceeding a predetermined sound pressure (for example, 15 dB) in a predetermined frequency component of audio data, and a video camera corresponding thereto. Further, the camera selection unit 28 may select the built-in microphone and the video camera corresponding thereto by another method.

なお、上記実施形態では、フットサルコート近傍にビデオカメラを2台設置した場合について説明したが、これに限らず、ビデオカメラは3台以上設置されてもよい。 In the above embodiment, the case where two video cameras are installed near the futsal court has been described, but the present invention is not limited to this, and three or more video cameras may be installed.

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体(ただし、搬送波は除く)に記録しておくことができる。 The above processing function can be realized by a computer. In that case, a program that describes the processing content of the function that the processing device should have is provided. By executing the program on a computer, the above processing function is realized on the computer. The program describing the processing content can be recorded on a computer-readable recording medium (however, the carrier wave is excluded).

プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When a program is distributed, it is sold in the form of a portable recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory) on which the program is recorded. It is also possible to store the program in the storage device of the server computer and transfer the program from the server computer to another computer via the network.

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes the processing according to the program. The computer can also read the program directly from the portable recording medium and execute the processing according to the program. In addition, the computer can sequentially execute processing according to the received program each time the program is transferred from the server computer.

上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。 The embodiments described above are examples of preferred embodiments of the present invention. However, the present invention is not limited to this, and various modifications can be made without departing from the gist of the present invention.

なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、
を備える映像情報出力装置。
(付記2) 前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする付記1に記載の映像情報出力装置。
(付記3) 前記選定部は、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする付記1又は2に記載の映像情報出力装置。
(付記4) 前記出力部が出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する編集部を更に備える付記1〜3のいずれかに記載の映像情報出力装置。
(付記5) 前記特定部は、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする付記1〜4のいずれかに記載の映像情報出力装置。
(付記6) 複数のマイクと、
前記複数のマイクと接続された映像情報出力装置と、を備え、
前記映像情報出力装置は、
前記複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を有する、
ことを特徴とする映像情報出力システム。
(付記7) 複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータに実行させるための映像情報出力プログラム。
(付記8) 前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする付記7に記載の映像情報出力プログラム。
(付記9) 前記選定する処理では、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする付記7又は8に記載の映像情報出力プログラム。
(付記10) 前記出力する処理で出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する処理を前記コンピュータに更に実行させる付記7〜9のいずれかに記載の映像情報出力プログラム。
(付記11) 前記特定する処理では、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする付記7〜10のいずれかに記載の映像情報出力プログラム。
(付記12) 複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータが実行することを特徴とする映像情報出力方法。
Regarding the description of the above embodiments, the following additional notes will be further disclosed.
(Appendix 1) A receiver that receives audio data from multiple microphones,
A specific unit that specifies a time zone based on the time when the sound pressure level of the sound data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value, and
An extraction unit that extracts a predetermined frequency component from audio data in the time zone received from at least two microphones among the plurality of microphones.
A selection unit that selects one microphone based on the extracted predetermined frequency component and selects a camera that captures a range corresponding to the installation position of the selected microphone.
An output unit that outputs video information including time information including the time zone and information of the selected camera, and an output unit.
Video information output device equipped with.
(Supplementary Note 2) The video information output device according to Supplementary note 1, wherein the predetermined frequency component is a frequency component corresponding to a human footstep.
(Supplementary Note 3) The video information output device according to Supplementary Note 1 or 2, wherein the selection unit selects a microphone having the largest integrated value of the sound pressure level of the predetermined frequency component.
(Supplementary Note 4) The video information output device according to any one of Supplementary notes 1 to 3, further comprising an editing unit for editing video images taken by a plurality of cameras using the video information output by the output unit.
(Appendix 5) When the sound pressure level of the voice data of the reference microphone exceeds a predetermined threshold value for a predetermined time or longer, the specific unit is a time zone immediately before the time when the predetermined threshold value is exceeded. The video information output device according to any one of Supplementary note 1 to 4, wherein the image information output device is specified.
(Appendix 6) With multiple microphones
A video information output device connected to the plurality of microphones is provided.
The video information output device is
A receiver that receives audio data from the plurality of microphones,
A specific unit that specifies a time zone based on the time when the sound pressure level of the sound data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value, and
An extraction unit that extracts a predetermined frequency component from audio data in the time zone received from at least two microphones among the plurality of microphones.
A selection unit that selects one microphone based on the extracted predetermined frequency component and selects a camera that captures a range corresponding to the installation position of the selected microphone.
It has an output unit that outputs video information including time information including the time zone and information of the selected camera.
A video information output system characterized by this.
(Appendix 7) Receive audio data from multiple microphones
A time zone based on the time when the sound pressure level of the voice data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value is specified.
A predetermined frequency component is extracted from the voice data of the time zone received from each of at least two microphones among the plurality of microphones.
One microphone is selected based on the extracted predetermined frequency component, and a camera that captures a range corresponding to the installation position of the selected microphone is selected.
Outputs video information including time information including the time zone and information of the selected camera.
A video information output program that allows a computer to execute processing.
(Supplementary Note 8) The video information output program according to Supplementary note 7, wherein the predetermined frequency component is a frequency component corresponding to a human footstep.
(Supplementary note 9) The video information output program according to Supplementary note 7 or 8, wherein in the selection process, a microphone having the largest integrated value of the sound pressure level of the predetermined frequency component is selected.
(Supplementary Note 10) The video information output according to any one of Supplementary notes 7 to 9, which causes the computer to further execute a process of editing images taken by a plurality of cameras using the video information output in the output process. program.
(Appendix 11) In the specific process, when the time when the sound pressure level of the voice data of the reference microphone exceeds the predetermined threshold value exceeds the predetermined time, the time immediately before the time when the predetermined threshold value is exceeded. The video information output program according to any one of Supplementary notes 7 to 10, wherein the band is specified.
(Appendix 12) Receive audio data from multiple microphones
A time zone based on the time when the sound pressure level of the voice data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value is specified.
A predetermined frequency component is extracted from the voice data of the time zone received from each of at least two microphones among the plurality of microphones.
One microphone is selected based on the extracted predetermined frequency component, and a camera that captures a range corresponding to the installation position of the selected microphone is selected.
Outputs video information including time information including the time zone and information of the selected camera.
A video information output method characterized in that a computer executes processing.

10 情報処理装置(映像情報出力装置)
12 基準マイク(マイク)
13A、13B 内蔵マイク(マイク)
14A、14B ビデオカメラ(カメラ)
20 受信部
24 歓声時間特定部(特定部の一部)
26 フィルタリング部(特定部の一部、抽出部)
28 カメラ選定部(選定部)
30 出力部
50 編集部
100 映像情報出力システム(情報処理システム)
10 Information processing device (video information output device)
12 Reference microphone (microphone)
13A, 13B Built-in microphone (microphone)
14A, 14B video camera (camera)
20 Receiver 24 Cheers time Specific part (part of specific part)
26 Filtering section (part of specific section, extraction section)
28 Camera selection section (selection section)
30 Output unit 50 Editorial unit 100 Video information output system (information processing system)

Claims (8)

複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、
を備える映像情報出力装置。
A receiver that receives audio data from multiple microphones,
A specific unit that specifies a time zone based on the time when the sound pressure level of the sound data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value, and
An extraction unit that extracts a predetermined frequency component from audio data in the time zone received from at least two microphones among the plurality of microphones.
A selection unit that selects one microphone based on the extracted predetermined frequency component and selects a camera that captures a range corresponding to the installation position of the selected microphone.
An output unit that outputs video information including time information including the time zone and information of the selected camera, and an output unit.
Video information output device equipped with.
前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする請求項1に記載の映像情報出力装置。 The video information output device according to claim 1, wherein the predetermined frequency component is a frequency component corresponding to a human footstep. 前記選定部は、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする請求項1又は2に記載の映像情報出力装置。 The video information output device according to claim 1 or 2, wherein the selection unit selects a microphone having the largest integrated value of the sound pressure level of the predetermined frequency component. 前記出力部が出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する編集部を更に備える請求項1〜3のいずれか一項に記載の映像情報出力装置。 The video information output device according to any one of claims 1 to 3, further comprising an editorial unit that edits images taken by a plurality of cameras using the video information output by the output unit. 前記特定部は、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする請求項1〜4のいずれか一項に記載の映像情報出力装置。 When the sound pressure level of the voice data of the reference microphone exceeds a predetermined threshold value for a predetermined time or longer, the specific unit specifies a time zone immediately before the time when the predetermined threshold value is exceeded. The video information output device according to any one of claims 1 to 4, wherein the video information output device is characterized. 複数のマイクと、
前記複数のマイクと接続された映像情報出力装置と、を備え、
前記映像情報出力装置は、
前記複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を有する、
ことを特徴とする映像情報出力システム。
With multiple microphones
A video information output device connected to the plurality of microphones is provided.
The video information output device is
A receiver that receives audio data from the plurality of microphones,
A specific unit that specifies a time zone based on the time when the sound pressure level of the sound data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value, and
An extraction unit that extracts a predetermined frequency component from audio data in the time zone received from at least two microphones among the plurality of microphones.
A selection unit that selects one microphone based on the extracted predetermined frequency component and selects a camera that captures a range corresponding to the installation position of the selected microphone.
It has an output unit that outputs video information including time information including the time zone and information of the selected camera.
A video information output system characterized by this.
複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータに実行させるための映像情報出力プログラム。
Receive audio data from multiple microphones
A time zone based on the time when the sound pressure level of the voice data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value is specified.
A predetermined frequency component is extracted from the voice data of the time zone received from each of at least two microphones among the plurality of microphones.
One microphone is selected based on the extracted predetermined frequency component, and a camera that captures a range corresponding to the installation position of the selected microphone is selected.
Outputs video information including time information including the time zone and information of the selected camera.
A video information output program that allows a computer to execute processing.
複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータが実行することを特徴とする映像情報出力方法。
Receive audio data from multiple microphones
A time zone based on the time when the sound pressure level of the voice data of the reference microphones included in the plurality of microphones exceeds a predetermined threshold value is specified.
A predetermined frequency component is extracted from the voice data of the time zone received from each of at least two microphones among the plurality of microphones.
One microphone is selected based on the extracted predetermined frequency component, and a camera that captures a range corresponding to the installation position of the selected microphone is selected.
Outputs video information including time information including the time zone and information of the selected camera.
A video information output method characterized in that a computer executes processing.
JP2019072544A 2019-04-05 2019-04-05 Video information output device, video information output system, video information output program and video information output method Active JP7191760B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019072544A JP7191760B2 (en) 2019-04-05 2019-04-05 Video information output device, video information output system, video information output program and video information output method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019072544A JP7191760B2 (en) 2019-04-05 2019-04-05 Video information output device, video information output system, video information output program and video information output method

Publications (2)

Publication Number Publication Date
JP2020170980A true JP2020170980A (en) 2020-10-15
JP7191760B2 JP7191760B2 (en) 2022-12-19

Family

ID=72746062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019072544A Active JP7191760B2 (en) 2019-04-05 2019-04-05 Video information output device, video information output system, video information output program and video information output method

Country Status (1)

Country Link
JP (1) JP7191760B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007039994A1 (en) * 2005-09-30 2007-04-12 Pioneer Corporation Digest generating device, and program therefor
JP2009153077A (en) * 2007-12-21 2009-07-09 Fuji Xerox Co Ltd Information processing device and program
JP2012070283A (en) * 2010-09-24 2012-04-05 Toshiba Corp Video processing apparatus, method, and video processing system
JP2016131329A (en) * 2015-01-14 2016-07-21 オリンパス株式会社 Image and sound recording device, image and sound recording method, and image and sound recording program
JP2017017387A (en) * 2015-06-26 2017-01-19 ヤマハ株式会社 Video processing apparatus and video processing method
JP2018170678A (en) * 2017-03-30 2018-11-01 株式会社ライブ・アース Live video processing system, live video processing method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007039994A1 (en) * 2005-09-30 2007-04-12 Pioneer Corporation Digest generating device, and program therefor
JP2009153077A (en) * 2007-12-21 2009-07-09 Fuji Xerox Co Ltd Information processing device and program
JP2012070283A (en) * 2010-09-24 2012-04-05 Toshiba Corp Video processing apparatus, method, and video processing system
JP2016131329A (en) * 2015-01-14 2016-07-21 オリンパス株式会社 Image and sound recording device, image and sound recording method, and image and sound recording program
JP2017017387A (en) * 2015-06-26 2017-01-19 ヤマハ株式会社 Video processing apparatus and video processing method
JP2018170678A (en) * 2017-03-30 2018-11-01 株式会社ライブ・アース Live video processing system, live video processing method, and program

Also Published As

Publication number Publication date
JP7191760B2 (en) 2022-12-19

Similar Documents

Publication Publication Date Title
JP5145939B2 (en) Section automatic extraction system, section automatic extraction method and section automatic extraction program for extracting sections in music
EP1278134A2 (en) Apparatus and method for summarizing video information and processing program for summarizing video information
JP6882057B2 (en) Signal processing equipment, signal processing methods, and programs
EP1847937A1 (en) System and method for detecting exciting scenes in sports videos
JP2008283486A (en) Information processor, information processing method, and program
JP5498064B2 (en) Imaging apparatus and control method thereof
JP2007336283A (en) Information processor, processing method and program
JP6427902B2 (en) Extraction program, method, and apparatus
US20230290382A1 (en) Method and apparatus for matching music with video, computer device, and storage medium
JP2001143451A (en) Automatic index generating device and automatic index applying device
CN112165591B (en) Audio data processing method and device and electronic equipment
JP2006279320A (en) Program storage reproducing apparatus, program storage reproducing method, and recording medium and program thereof
JP7191760B2 (en) Video information output device, video information output system, video information output program and video information output method
JP2007208651A (en) Content viewing apparatus
JP2004334160A (en) Characteristic amount extraction device
JP4310745B2 (en) Program summary device and program summary processing program
JP7451999B2 (en) Recording device, video system, recording method, and program
JP2013183280A (en) Information processing device, imaging device, and program
JP6628670B2 (en) Image processing apparatus and image processing method
US11178445B2 (en) Method of combining data
JP2005167456A (en) Method and device for extracting interesting features of av content
JP3848144B2 (en) Video shortening / reproducing apparatus, video shortening / reproducing method, program for the method, and recording medium recording the program
JP2020129763A (en) Video reproduction device, video reproduction method, and program
JP2003283987A (en) Digital camera
JP2019053135A (en) Information support system for show

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190619

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R150 Certificate of patent or registration of utility model

Ref document number: 7191760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350