JP2018121181A - Edition device and edition program - Google Patents

Edition device and edition program Download PDF

Info

Publication number
JP2018121181A
JP2018121181A JP2017010715A JP2017010715A JP2018121181A JP 2018121181 A JP2018121181 A JP 2018121181A JP 2017010715 A JP2017010715 A JP 2017010715A JP 2017010715 A JP2017010715 A JP 2017010715A JP 2018121181 A JP2018121181 A JP 2018121181A
Authority
JP
Japan
Prior art keywords
text
unit
video
audio
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017010715A
Other languages
Japanese (ja)
Other versions
JP6610572B2 (en
Inventor
杉原 宏
Hiroshi Sugihara
宏 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2017010715A priority Critical patent/JP6610572B2/en
Publication of JP2018121181A publication Critical patent/JP2018121181A/en
Application granted granted Critical
Publication of JP6610572B2 publication Critical patent/JP6610572B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To allow even members not participating in the conference to efficiently understand the content that is hard to understand for members not participating in the conference.SOLUTION: An information processing apparatus 1 includes a keyword input receiving section 103 for receiving input of keyword from a user, a text converting section 104 for converting voice indicated by voice data, based on the voice data in video voice data stored in a video voice data storage section 51, specifying section 105 for specifying the text part including the keyword received by the keyword input receiving section 103, among the text indicated by the text data, based on the text data obtained by the text converting section 104, and an editing section 106 for creating another video voice data consisting of the same time-domain part as the voice part becoming the source of the text part specified by the specifying section 105 anew.SELECTED DRAWING: Figure 1

Description

本発明は、編集装置及び編集プログラムに関し、特に、会議等を撮影した映像音声を編集するための技術に関する。   The present invention relates to an editing apparatus and an editing program, and more particularly, to a technique for editing video / audio obtained by shooting a meeting or the like.

通常、会議に参加していないメンバーは、議事録を参照して議事の内容(例えば、結論、課題、アクションアイテム)を確認することになるが、議事録からだけでは、議事の内容を把握できたとしても、会議の雰囲気を感じ取ることは難しい。また、どのような背景や流れで、議事録に記載された結論などに至ったのかを把握することも難しい。   Normally, members who do not participate in a meeting will check the contents of the minutes (for example, conclusions, issues, action items) by referring to the minutes, but the minutes can be understood only from the minutes. Even so, it is difficult to feel the atmosphere of the meeting. It is also difficult to grasp the background and flow that led to the conclusions described in the minutes.

そこで、現在では、会議を撮影することによって、会議の内容を映像と音声で確認できるようにしている場合がある。映像と音声で会議の内容を確認すれば、議事録からだけでは把握できない、会議の雰囲気を感じ取ることができる。しかしながら、60分の会議であれば、60分間視聴しなければならず、効率は良くない。   Therefore, at present, there are cases where the content of the conference can be confirmed by video and audio by shooting the conference. If you confirm the contents of the meeting with video and audio, you can feel the atmosphere of the meeting that cannot be grasped only from the minutes. However, if the meeting is 60 minutes, it must be viewed for 60 minutes, which is not efficient.

下記の特許文献1に、撮影した会議の映像音声とメモ(議事録担当者が作成したメモ)とをリンクさせた議事録を作成し、メモに対応する映像音声を簡単に閲覧できるようにすることが記載されている。   In the following Patent Document 1, a minutes is created by linking a video and audio of a meeting taken with a memo (a memo created by a person in charge of the minutes) so that the video and audio corresponding to the memo can be easily browsed. It is described.

特開2008−172582号公報JP 2008-172582 A

上記の特許文献1に記載された発明は、ユーザーがメモを指定すれば、指定したメモに対応する映像音声が個別に再生されるので、撮影された全ての映像音声を視聴しなくても良く、時間の短縮を図ることができる。   In the invention described in Patent Document 1 above, if the user designates a memo, the video and audio corresponding to the designated memo are individually played back, so it is not necessary to view all the video and audio shot. The time can be shortened.

しかしながら、上記の特許文献1に記載された発明では、ユーザーはメモと映像音声とを同時に確認する必要があり、煩わしい。また、会議の肝となる内容(例えば、結論、課題、アクションアイテム)について話されている個所を、ユーザーが適切に指定できるとは限らないので、会議の雰囲気を効率良く感じ取ることができるとは言えない。   However, in the invention described in Patent Document 1, it is troublesome for the user to check the memo and the video and audio at the same time. Also, because the user is not always able to specify the location that is spoken about the content that is the heart of the conference (eg, conclusions, issues, action items), it is possible to feel the conference atmosphere efficiently. I can not say.

本発明は、上記の事情に鑑みなされたものであり、現場に居た者(例えば、会議に参加したメンバー)でないと把握しにくい内容を、現場に居なかった者(例えば、会議に参加していないメンバー)であっても、効率良く把握できるようにすることを目的とする。   The present invention has been made in view of the above circumstances, and it is difficult for a person who has not been on the site (for example, a member who has participated in the conference) The purpose is to be able to grasp efficiently even members who are not).

本発明の一局面に係る編集装置は、映像音声データを記憶する映像音声データ記憶部と、キーワードの入力をユーザーから受け付けるキーワード入力受付部と、前記映像音声データ記憶部に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換するテキスト変換部と、前記テキスト変換部による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、前記キーワード入力受付部が受け付けたキーワードを含むテキスト部分を特定する特定部と、前記映像音声データ記憶部に記憶されている前記映像音声データを用いて、前記特定部により特定されたテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する編集部と、を備える。   An editing apparatus according to one aspect of the present invention includes a video / audio data storage unit that stores video / audio data, a keyword input reception unit that receives a keyword input from a user, and a video / audio stored in the video / audio data storage unit. A text conversion unit that converts the voice indicated by the voice data into text based on the voice data in the data, and the text data indicated by the text data based on the text data obtained by the conversion by the text conversion unit. The text part specified by the specifying unit using the specifying unit for specifying the text part including the keyword received by the keyword input receiving unit and the video / audio data stored in the video / audio data storage unit Create another video / audio data consisting of the same time domain part as the original audio part It includes a collection unit.

また、本発明の一局面に係る編集プログラムは、コンピューターを、キーワードの入力をユーザーから受け付けるキーワード入力受付部と、映像音声データ記憶部に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換するテキスト変換部と、前記テキスト変換部による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、前記キーワード入力受付部が受け付けたキーワードを含むテキスト部分を特定する特定部と、前記映像音声データ記憶部に記憶されている前記映像音声データを用いて、前記特定部により特定されたテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する編集部と、して機能させる。   An editing program according to one aspect of the present invention is based on audio data in a video / audio data stored in a video / audio data storage unit and a video / audio data storage unit that receives a keyword input from a user. A keyword conversion unit that converts the voice indicated by the voice data into text, and the keyword input reception unit receives the text indicated by the text data based on the text data obtained by the conversion by the text conversion unit. The same time as the audio part that is the basis of the text part specified by the specifying unit using the specifying unit for specifying the text part including the keyword and the video / audio data stored in the video / audio data storage unit It functions as an editing section that creates new video and audio data consisting of areas. .

本発明によれば、ユーザーが入力したキーワード(重要な意味をもつ言葉)に基づいて編成された、映像音声のダイジェストが生成される。すなわち、重要な部分が収められたダイジェストが生成される。従って、当該映像音声が撮影された現場に居なかった者(例えば、会議に参加していないメンバー)であっても、生成されたダイジェストを視聴することで、現場に居た者(例えば、会議に参加したメンバー)でないと把握しにくい内容(例えば、会議の雰囲気)を、効率良く把握することができる。   According to the present invention, a video / audio digest organized based on keywords (words having important meanings) input by a user is generated. That is, a digest containing an important part is generated. Therefore, even if the person who was not on the spot where the video and audio were shot (for example, a member who did not participate in the meeting), by viewing the generated digest, the person who was on the spot (for example, the meeting) It is possible to efficiently grasp the content (for example, the atmosphere of the meeting) that is difficult to grasp unless the member is a member who participated in.

本発明の第1実施形態に係る編集装置の主要内部構成を概略的に示した機能ブロック図である。1 is a functional block diagram schematically showing a main internal configuration of an editing apparatus according to a first embodiment of the present invention. 第1実施形態に係る編集装置における制御ユニットで行われる処理動作の一例を示したフローチャートである。It is the flowchart which showed an example of the processing operation performed with the control unit in the editing apparatus which concerns on 1st Embodiment. 表示部に表示される操作画面の一例を示した図である。It is the figure which showed an example of the operation screen displayed on a display part. 会議での発言内容の一例を示した図である。It is the figure which showed an example of the content of the statement in a meeting. 映像データが示す映像と、音声データが示す音声と、テキストデータが示すテキストとの時間的関係を説明するための説明図である。It is explanatory drawing for demonstrating the temporal relationship between the image | video which video data shows, the audio | voice which audio | voice data shows, and the text which text data shows. 第2実施形態に係る編集装置の主要内部構成を概略的に示した機能ブロック図である。It is the functional block diagram which showed roughly the main internal structure of the editing apparatus which concerns on 2nd Embodiment. 第2実施形態に係る編集装置における制御ユニットで行われる処理動作の一例を示したフローチャートである。It is the flowchart which showed an example of the processing operation performed with the control unit in the editing apparatus which concerns on 2nd Embodiment.

以下、本発明に係る編集装置及び編集プログラムの実施の形態を図面に基づいて説明する。図1は、本発明の第1実施形態に係る編集プログラムがインストールされた編集装置の主要内部構成を概略的に示した機能ブロック図である。編集装置1は、例えば、パーソナルコンピューター(PC:Personal Computer)などの電子機器であって、表示部10と、音声出力部20と、操作部30と、通信部40と、記憶部50と、制御ユニット100とを備えている。これらの各構成は、互いに通信バスによりデータ又は信号の送受信が可能とされている。   Embodiments of an editing apparatus and an editing program according to the present invention will be described below with reference to the drawings. FIG. 1 is a functional block diagram schematically showing the main internal configuration of an editing apparatus in which an editing program according to the first embodiment of the present invention is installed. The editing device 1 is an electronic device such as a personal computer (PC), for example, and includes a display unit 10, a voice output unit 20, an operation unit 30, a communication unit 40, a storage unit 50, and a control. Unit 100. Each of these components can transmit and receive data or signals with each other via a communication bus.

表示部10は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(OLED:Organic Light-Emitting Diode)などから構成される。また、表示部10は、制御ユニット100からの応答やデータ結果等を表示するとともに、タッチパネル機能が設けられており、ユーザーは画面表示される画像等に触れて編集装置1を操作することができる。   The display unit 10 includes a liquid crystal display (LCD), an organic EL (OLED: Organic Light-Emitting Diode), and the like. The display unit 10 displays responses from the control unit 100, data results, and the like, and is provided with a touch panel function. The user can operate the editing apparatus 1 by touching an image displayed on the screen. .

音声出力部20は、スピーカーなどであり、音声を出力する。   The audio output unit 20 is a speaker or the like and outputs audio.

操作部30は、マウスやキーボードなどであり、編集装置1が実行可能な各種動作及び処理についてユーザーから各種指示を受け付ける。   The operation unit 30 is a mouse, a keyboard, or the like, and receives various instructions from the user regarding various operations and processes that can be executed by the editing apparatus 1.

通信部40は、不図示のLAN(Local Area Network)チップなどの通信モジュールを備える通信インターフェイスである。   The communication unit 40 is a communication interface including a communication module such as a LAN (Local Area Network) chip (not shown).

編集装置1は、例えば、ビデオカメラ200と接続され、後述する制御部101が、通信部40を介して、ビデオカメラ200との間でデータの送受信を行い、ビデオカメラ200に保存されている映像音声データ(映像データと音声データとからなり、これら映像データと音声データが同期されたデータ)を取得することができる。   For example, the editing apparatus 1 is connected to the video camera 200, and a control unit 101 described later transmits and receives data to and from the video camera 200 via the communication unit 40, and is stored in the video camera 200. Audio data (consisting of video data and audio data, and data in which these video data and audio data are synchronized) can be acquired.

記憶部50は、HDD(Hard Disk Drive)などの大容量の記憶装置である。記憶部50には、制御プログラムや前述の編集プログラム等が記憶されると共に、後述する映像音声データ記憶部51や編集データ記憶部52が構築される。   The storage unit 50 is a large-capacity storage device such as an HDD (Hard Disk Drive). The storage unit 50 stores a control program, the editing program described above, and the like, and a video / audio data storage unit 51 and an editing data storage unit 52 described later.

制御ユニット100は、プロセッサー、RAM(Random Access Memory)、ROM(Read Only Memory)、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、MPU(Micro Processing Unit)等である。制御ユニット100は、制御部101と、操作受付部102と、テキスト変換部104と、特定部105と、編集部106と、を備えている。   The control unit 100 includes a processor, a RAM (Random Access Memory), a ROM (Read Only Memory), and a dedicated hardware circuit. The processor is, for example, a central processing unit (CPU), an application specific integrated circuit (ASIC), or a micro processing unit (MPU). The control unit 100 includes a control unit 101, an operation receiving unit 102, a text conversion unit 104, a specifying unit 105, and an editing unit 106.

制御ユニット100は、記憶部50に記憶されている制御プログラム等に従った上記プロセッサーによる動作により、制御部101、操作受付部102、テキスト変換部104、特定部105、及び編集部106として機能するものである。但し、制御部101等は、制御ユニット100による制御プログラム等に従った動作によらず、ハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。   The control unit 100 functions as the control unit 101, the operation receiving unit 102, the text conversion unit 104, the specifying unit 105, and the editing unit 106 by the operation of the processor according to the control program stored in the storage unit 50. Is. However, the control unit 101 and the like can be configured by a hardware circuit regardless of the operation according to the control program by the control unit 100 or the like. The same applies to each embodiment unless otherwise specified.

制御部101は、編集装置1の全体的な動作制御を司る。制御部101は、表示部10、音声出力部20、操作部30、通信部40、及び記憶部50と接続され、これら各部の駆動制御等を行う。例えば、制御部101は、通信部40を介して、ビデオカメラ200に保存されている映像音声データを取得し、記憶部50に映像音声データ記憶部51を構築し、取得した映像音声データを映像音声データ記憶部51に記憶させる。   The control unit 101 governs overall operation control of the editing apparatus 1. The control unit 101 is connected to the display unit 10, the audio output unit 20, the operation unit 30, the communication unit 40, and the storage unit 50, and performs drive control of these units. For example, the control unit 101 acquires video / audio data stored in the video camera 200 via the communication unit 40, constructs a video / audio data storage unit 51 in the storage unit 50, and displays the acquired video / audio data as video. The data is stored in the audio data storage unit 51.

操作受付部102は、タッチパネル機能が設けられた表示部10や操作部30から出力される検知信号に基づき、ユーザーにより入力されたユーザー操作を特定する。そして、操作受付部102は、特定したユーザー操作を受け付け、当該ユーザー操作に対応する制御信号を制御部101などに出力する。また、操作受付部102は、キーワード入力受付部103を備える。   The operation reception unit 102 specifies a user operation input by the user based on a detection signal output from the display unit 10 or the operation unit 30 provided with a touch panel function. Then, the operation reception unit 102 receives the specified user operation and outputs a control signal corresponding to the user operation to the control unit 101 or the like. The operation reception unit 102 includes a keyword input reception unit 103.

テキスト変換部104は、映像音声データ記憶部51に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換する。   Based on the audio data in the video / audio data stored in the video / audio data storage unit 51, the text conversion unit 104 converts the audio indicated by the audio data into text.

特定部105は、テキスト変換部104による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、キーワード入力受付部103が受け付けたキーワードを含むテキスト部分を特定する。   Based on the text data obtained by the conversion by the text conversion unit 104, the specification unit 105 specifies a text portion including the keyword received by the keyword input reception unit 103 from the text indicated by the text data.

編集部106は、映像音声データ記憶部51に記憶されている映像音声データを用いて、特定部105により特定されたテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する。例えば、編集部105は、特定部105により特定されたテキスト部分の元となる音声部分と同じ時間領域の映像音声データを、映像音声データ記憶部51から読み出し、当該読み出した映像音声データを、新たな別の映像音声データとする。   The editing unit 106 uses the video / audio data stored in the video / audio data storage unit 51 to generate another video / audio data including the same time domain portion as the original audio portion of the text portion specified by the specifying unit 105. Create a new. For example, the editing unit 105 reads the audio / video data in the same time domain as the audio part that is the original of the text part specified by the specifying unit 105 from the audio / video data storage unit 51, and newly reads the read audio / video data. Another video / audio data.

次に、上記の構成を備える編集装置1の動作について説明する。図2は、編集プログラムを、編集装置1の制御ユニット100で実行させた場合の処理動作を示したフローチャートである。なお、この処理動作が実行されるのは、操作受付部102が映像音声データ記憶部51に記憶されている映像音声データの編集要求を受け付けた場合である。   Next, the operation of the editing apparatus 1 having the above configuration will be described. FIG. 2 is a flowchart showing the processing operation when the editing program is executed by the control unit 100 of the editing apparatus 1. This processing operation is executed when the operation receiving unit 102 receives an editing request for video / audio data stored in the video / audio data storage unit 51.

操作受付部102が、上記編集要求を受け付けると、キーワード入力受付部103が、例えば、図3に示すような操作画面D1を表示部10に表示させることによって、キーワードのユーザー入力を受け付ける(S1)。操作画面D1には、操作部30を介して入力された文字列を表示する表示領域E1と、「決定」と記された決定ボタンB1とが形成され、キーワード入力受付部103は、決定ボタンB1に対する操作を受け付けると、ユーザーにより入力された文字列をキーワードとして記憶する。   When the operation accepting unit 102 accepts the editing request, the keyword input accepting unit 103 accepts keyword user input by displaying an operation screen D1 as shown in FIG. 3 on the display unit 10, for example (S1). . The operation screen D1 includes a display area E1 for displaying a character string input via the operation unit 30 and a determination button B1 labeled “OK”. The keyword input reception unit 103 receives the determination button B1. When an operation is accepted, the character string input by the user is stored as a keyword.

続いて、テキスト変換部104が、映像音声データ記憶部51に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換する(S2)。なお、音声のテキストへの変換には、既知の技術を用いるため、詳細な説明は省略する。   Subsequently, based on the audio data in the video / audio data stored in the video / audio data storage unit 51, the text conversion unit 104 converts the audio indicated by the audio data into text (S2). In addition, since a known technique is used for conversion of speech into text, detailed description thereof is omitted.

続いて、特定部105が、テキスト変換部104による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、キーワード入力受付部103が受け付けたキーワードを含むテキスト部分を特定する(S3)。   Subsequently, the specifying unit 105 specifies a text portion including the keyword received by the keyword input receiving unit 103 from the text indicated by the text data based on the text data obtained by the conversion by the text converting unit 104. (S3).

図4は、会議での発言内容の一例を示した図であり、例えば、キーワード入力受付部103が受け付けたキーワードが「XXX」である場合、特定部105は、下線で示した部分P1〜P3を、キーワードを含むテキスト部分として特定する。   FIG. 4 is a diagram illustrating an example of the content of the remarks at the conference. For example, when the keyword received by the keyword input receiving unit 103 is “XXX”, the specifying unit 105 displays the underlined portions P1 to P3. Is identified as the text portion containing the keyword.

続いて、編集部106が、特定部105により特定されたテキスト部分の元となる音声部分と同じ時間領域を含む当該同じ時間領域前後の予め定められた時間領域(例えば、前後それぞれ1分間)からなる映像音声データを、映像音声データ記憶部51から読み出す(S4)。   Subsequently, the editing unit 106 starts from a predetermined time region before and after the same time region including the same time region as the original voice part of the text portion specified by the specifying unit 105 (for example, one minute before and after each). Is read from the video / audio data storage unit 51 (S4).

図5は、映像データが示す映像と、音声データが示す音声と、テキストデータが示すテキストとの時間的関係を説明するための説明図である。図中V1〜V3はそれぞれ、テキスト部分P1〜P3の元となる音声部分の時間領域を示し、図中V11,V12は、時間領域V1前後の当該予め定められた時間領域を示し、図中V21,V22は、時間領域V2前後の当該予め定められた時間領域を示し、図中V31,V32は、時間領域V3前後の当該予め定められた時間領域を示している。   FIG. 5 is an explanatory diagram for explaining the temporal relationship between the video indicated by the video data, the audio indicated by the audio data, and the text indicated by the text data. In the figure, V1 to V3 indicate the time areas of the voice parts that are the origins of the text parts P1 to P3, respectively. In the figure, V11 and V12 indicate the predetermined time areas before and after the time area V1, and V21 in the figure. , V22 indicate the predetermined time region before and after the time region V2, and V31 and V32 in the figure indicate the predetermined time region before and after the time region V3.

編集部106は、S4において、時間領域V11,V1,V12、時間領域V21,V2,V22、及び時間領域V31,V3,V32の映像音声データを、映像音声データ記憶部51から読み出す。   In S4, the editing unit 106 reads out the video / audio data of the time regions V11, V1, V12, the time regions V21, V2, V22, and the time regions V31, V3, V32 from the video / audio data storage unit 51.

例えば、映像音声データが、基準時点(例えば、撮影開始時点)からの経過時間を示す時間情報を有する場合、テキストデータも当該経過時間を示す時間情報を有している。編集部106は、当該時間情報に基づいて、指定されたテキストが含まれる区間を映像音声データから特定する。この時間情報に基づいて、映像音声データ及びテキストデータは、上述したように同期されている。このため、編集部106は、特定部105により特定されたテキスト部分の元となる音声部分と同じ時間領域を含む当該同じ時間領域前後の予め定められた時間領域からなる映像音声データを、映像音声データ記憶部51から読み出すことが可能である。   For example, when the video / audio data has time information indicating an elapsed time from a reference time (for example, a shooting start time), the text data also has time information indicating the elapsed time. The editing unit 106 identifies a section including the designated text from the video / audio data based on the time information. Based on this time information, the audiovisual data and the text data are synchronized as described above. For this reason, the editing unit 106 converts video / audio data composed of a predetermined time region before and after the same time region including the same time region as the audio portion that is the basis of the text portion specified by the specifying unit 105 into video / audio. It is possible to read from the data storage unit 51.

続いて、編集部106は、読み出した映像音声データを用いて、新たな別の映像音声データを編集データとして生成し(S5)、記憶部50に編集データ記憶部52を構築し、生成した編集データを編集データ記憶部52に記憶させる(S6)。   Subsequently, the editing unit 106 generates new video / audio data as editing data using the read video / audio data (S5), constructs the editing data storage unit 52 in the storage unit 50, and generates the generated editing data. The data is stored in the edit data storage unit 52 (S6).

編集データ記憶部52に記憶された編集データについては、操作受付部102が、当該編集データに対する再生要求を受け付けると、制御部101が、編集データ記憶部52から当該編集データを読み出し、再生することによって、映像を表示部20に表示させ、音声を音声出力部20から発生させる。   With respect to the edit data stored in the edit data storage unit 52, when the operation receiving unit 102 receives a reproduction request for the edit data, the control unit 101 reads the edit data from the edit data storage unit 52 and reproduces it. Thus, the video is displayed on the display unit 20 and the audio is generated from the audio output unit 20.

上記第1実施形態によれば、ユーザーが入力したキーワード(重要な意味をもつ言葉)に基づいて編成された、映像音声のダイジェストが生成される。すなわち、重要な部分が収められたダイジェストが生成される。従って、当該映像音声が撮影された現場に居なかった者(例えば、会議に参加していないメンバー)であっても、生成されたダイジェストを視聴することで、現場に居た者(例えば、会議に参加したメンバー)でないと把握しにくい内容(例えば、会議の雰囲気)を、効率良く把握することができる。   According to the first embodiment, a video / audio digest organized based on keywords (words having important meanings) input by the user is generated. That is, a digest containing an important part is generated. Therefore, even if the person who was not on the spot where the video and audio were shot (for example, a member who did not participate in the meeting), by viewing the generated digest, the person who was on the spot (for example, the meeting) It is possible to efficiently grasp the content (for example, the atmosphere of the meeting) that is difficult to grasp unless the member is a member who participated in.

図6は、第2実施形態に係る編集プログラムがインストールされた編集装置の主要内部構成を概略的に示した機能ブロック図である。なお、第2実施形態に係る編集装置1Aは、図1に示した編集装置1とは、テキスト変換部104による変換により得られたテキストデータを、予め定められた単位で複数のブロックに分ける分割部107を制御ユニット100Aが備える点で相違する。   FIG. 6 is a functional block diagram schematically showing the main internal configuration of the editing apparatus in which the editing program according to the second embodiment is installed. The editing apparatus 1A according to the second embodiment is different from the editing apparatus 1 shown in FIG. 1 in that the text data obtained by conversion by the text conversion unit 104 is divided into a plurality of blocks in a predetermined unit. The difference is that the control unit 100A includes the unit 107.

次に、第2実施形態に係る編集装置1Aの動作について説明する。図7は、編集プログラムを、編集装置1Aの制御ユニット100Aで実行させた場合の処理動作を示したフローチャートである。なお、この処理動作が実行されるのは、操作受付部102が映像音声データ記憶部51に記憶されている映像音声データの編集要求を受け付けた場合である。   Next, the operation of the editing apparatus 1A according to the second embodiment will be described. FIG. 7 is a flowchart showing the processing operation when the editing program is executed by the control unit 100A of the editing apparatus 1A. This processing operation is executed when the operation receiving unit 102 receives an editing request for video / audio data stored in the video / audio data storage unit 51.

操作受付部102が、上記要求を受け付けると、キーワード入力受付部103が、キーワードのユーザー入力を受け付け(S11)、テキスト変換部104が、映像音声データ記憶部51に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換する(S12)。そして、分割部107は、テキスト変換部104による変換により得られたテキストデータを、予め定められた単位(例えば、発言単位)で複数のブロックに分ける(S13)。   When the operation accepting unit 102 accepts the request, the keyword input accepting unit 103 accepts a keyword user input (S11), and the text converting unit 104 stores the audio / video data stored in the audio / video data storage unit 51. Based on the voice data in the middle, the voice indicated by the voice data is converted into text (S12). Then, the dividing unit 107 divides the text data obtained by the conversion by the text converting unit 104 into a plurality of blocks in a predetermined unit (for example, a speech unit) (S13).

発言と発言との間には、無音時間が一定時間以上継続すると考えられるので、例えば、分割部107は、無音時間の長さに基づいて、テキストデータを複数のブロックに分ける。分割部107は、無音時間が予め定められた時間として例えば5秒続いた場合には、当該無音時間前後に存在し、当該無言時間を有していない部分に相当する各テキストデータ部分を別々のブロックとする。図4に示した例でいえば、分割部107は、その会議での発言内容を、例えば、「AAA案のメリットは何か?」を一つのブロックとし、「AAA案のメリットはYYYです。」を一つのブロックとして、それぞれ分ける。   Since it is considered that the silence period continues for a certain time or more between the statements, for example, the dividing unit 107 divides the text data into a plurality of blocks based on the length of the silence period. When the silent time lasts for example 5 seconds as a predetermined time, the dividing unit 107 separates each text data portion corresponding to a portion that exists before and after the silent time and does not have the silent time. Let it be a block. In the example shown in FIG. 4, the dividing unit 107 sets, for example, “What is the merit of the AAA plan?” As one block, and “YAY is the merit of the AAA plan”. ”As a single block.

続いて、特定部105が、テキスト変換部104による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、キーワード入力受付部103が受け付けたキーワードを含むブロックを特定する(S14)。   Subsequently, the specifying unit 105 specifies a block including the keyword received by the keyword input receiving unit 103 from the text indicated by the text data based on the text data obtained by the conversion by the text converting unit 104 ( S14).

例えば、キーワード入力受付部103が受け付けたキーワードが「XXX」である場合、特定部105は、図4に示した「AAA案の課題はXXXです。」、「XXXは解決できるのか?」、「結論は、XXXの課題が解決できれば承認とする。」という部分を、キーワードを含むブロックとして特定する。   For example, when the keyword received by the keyword input receiving unit 103 is “XXX”, the specifying unit 105 illustrated in FIG. 4 “A problem of the AAA plan is XXX”, “Can XXX be solved?”, “ The conclusion is “approved if the XXX problem can be solved” is specified as a block including a keyword.

続いて、編集部106が、特定部105により特定されたブロックに属するテキスト部分の元となる音声部分と同じ時間領域の映像音声データを、映像音声データ記憶部51から読み出し(S15)、読み出した映像音声データを繋ぎ合わせることによって、編集データを生成し(S16)、記憶部50に編集データ記憶部52を構築し、生成した編集データを編集データ記憶部52に記憶させる(S17)。   Subsequently, the editing unit 106 reads out the audio / video data in the same time domain as the audio part that is the source of the text part belonging to the block specified by the specifying unit 105 from the audio / video data storage unit 51 (S15). Editing data is generated by connecting the video and audio data (S16), the editing data storage unit 52 is constructed in the storage unit 50, and the generated editing data is stored in the editing data storage unit 52 (S17).

当該第2実施形態によれば、キーワードを含むブロックが特定されるので、例えば、キーワードを含む発言を、一つのかたまりとし、それに対応する映像音声データを読み出すことができる。   According to the second embodiment, since a block including a keyword is specified, for example, an utterance including a keyword is taken as one lump, and video and audio data corresponding to the block can be read out.

また、別の実施形態では、上記第1実施形態と同様に、特定部105により特定されたブロックに属するテキスト部分の元となる音声部分と同じ時間領域だけでなく、編集部106が、その前後の予め定められた時間領域(例えば、前後それぞれ1分間)の映像音声データを、映像音声データ記憶部51から読み出すようにしても良い。   In another embodiment, in the same way as in the first embodiment, not only the same time region as the voice part that is the source of the text part belonging to the block specified by the specifying unit 105 but also the editing unit 106 Alternatively, the video / audio data in a predetermined time region (for example, one minute before and after each) may be read from the video / audio data storage unit 51.

また、本発明は上記実施の形態の構成に限られず種々の変形が可能である。また、上記実施形態では、本発明に係る編集装置の一実施形態としてパソコンを用いて説明しているが、これは一例に過ぎず、例えば、スマートフォンやタブレットなど、他の電子機器でも構わない。   The present invention is not limited to the configuration of the above embodiment, and various modifications can be made. Moreover, although the said embodiment demonstrated using the personal computer as one Embodiment of the editing apparatus which concerns on this invention, this is only an example and may be other electronic devices, such as a smart phone and a tablet, for example.

また、上記実施形態では、図1乃至図7を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。   Moreover, in the said embodiment, the structure and process which were shown by the said embodiment using FIG. 1 thru | or FIG. 7 are only one Embodiment of this invention, and are not the meaning which limits this invention to the said structure and process.

1、1A 編集装置
51 映像音声データ記憶部
103 キーワード入力受付部
104 テキスト変換部
105 特定部
106 編集部
107 分割部
1, 1A editing device 51 video / audio data storage unit 103 keyword input reception unit 104 text conversion unit 105 identification unit 106 editing unit 107 division unit

Claims (4)

映像音声データを記憶する映像音声データ記憶部と、
キーワードの入力をユーザーから受け付けるキーワード入力受付部と、
前記映像音声データ記憶部に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換するテキスト変換部と、
前記テキスト変換部による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、前記キーワード入力受付部が受け付けたキーワードを含むテキスト部分を特定する特定部と、
前記映像音声データ記憶部に記憶されている前記映像音声データを用いて、前記特定部により特定されたテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する編集部と、を備える編集装置。
A video / audio data storage unit for storing video / audio data;
A keyword input accepting unit that accepts keyword input from the user;
A text conversion unit that converts audio represented by the audio data into text based on audio data in the audio / video data stored in the audio / video data storage unit;
Based on the text data obtained by the conversion by the text conversion unit, from the text indicated by the text data, a specifying unit for specifying a text part including the keyword received by the keyword input receiving unit,
Using the video / audio data stored in the video / audio data storage unit, newly create another video / audio data composed of the same time domain part as the original audio part of the text part specified by the specifying unit And an editing unit.
前記テキスト変換部による変換により得られたテキストデータを、予め定められた単位で複数のブロックに分ける分割部を更に備え、
前記特定部は、前記テキスト変換部による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、前記キーワード入力受付部が受け付けたキーワードを含む前記ブロックを特定し、
前記編集部は、前記特定部により特定された前記ブロックに属するテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する請求項1に記載の編集装置。
Further comprising a dividing unit that divides the text data obtained by the conversion by the text conversion unit into a plurality of blocks in a predetermined unit;
The specifying unit specifies the block including the keyword received by the keyword input receiving unit from the text indicated by the text data based on the text data obtained by the conversion by the text conversion unit,
The editing apparatus according to claim 1, wherein the editing unit newly creates another video / audio data including a time region portion that is the same as an audio portion that is a source of a text portion belonging to the block specified by the specifying unit.
前記編集部は、前記同じ時間領域を含む当該同じ時間領域前後の予め定められた時間領域からなる映像音声データを、前記映像音声データ記憶部から読み出して、前記新たな別の映像音声データを作成する請求項1又は請求項2に記載の編集装置。   The editing unit reads out the video / audio data including a predetermined time domain before and after the same time domain including the same time domain from the video / audio data storage unit, and creates the new video / audio data. The editing apparatus according to claim 1 or 2. コンピューターを、
キーワードの入力をユーザーから受け付けるキーワード入力受付部と、
映像音声データ記憶部に記憶されている映像音声データの中の音声データに基づいて、当該音声データが示す音声をテキストに変換するテキスト変換部と、
前記テキスト変換部による変換により得られたテキストデータに基づいて、当該テキストデータが示すテキストの中から、前記キーワード入力受付部が受け付けたキーワードを含むテキスト部分を特定する特定部と、
前記映像音声データ記憶部に記憶されている前記映像音声データを用いて、前記特定部により特定されたテキスト部分の元となる音声部分と同じ時間領域部分からなる別の映像音声データを新たに作成する編集部と、して機能させる編集プログラム。
Computer
A keyword input accepting unit that accepts keyword input from the user;
A text conversion unit that converts audio represented by the audio data into text based on audio data in the audio / video data stored in the audio / video data storage unit;
Based on the text data obtained by the conversion by the text conversion unit, from the text indicated by the text data, a specifying unit for specifying a text part including the keyword received by the keyword input receiving unit,
Using the video / audio data stored in the video / audio data storage unit, newly create another video / audio data composed of the same time domain part as the original audio part of the text part specified by the specifying unit An editing program that functions as an editing section.
JP2017010715A 2017-01-24 2017-01-24 Editing device Active JP6610572B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017010715A JP6610572B2 (en) 2017-01-24 2017-01-24 Editing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017010715A JP6610572B2 (en) 2017-01-24 2017-01-24 Editing device

Publications (2)

Publication Number Publication Date
JP2018121181A true JP2018121181A (en) 2018-08-02
JP6610572B2 JP6610572B2 (en) 2019-11-27

Family

ID=63044086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017010715A Active JP6610572B2 (en) 2017-01-24 2017-01-24 Editing device

Country Status (1)

Country Link
JP (1) JP6610572B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182365A (en) * 1993-12-24 1995-07-21 Hitachi Ltd Device and method for assisting multimedia conference minutes generation
JP2002344916A (en) * 2001-05-22 2002-11-29 Takahisa Inoue Focus group interview execution system and its executing method and focus group interview executing program
JP2012054672A (en) * 2010-08-31 2012-03-15 Sanyo Electric Co Ltd Recording and reproducing apparatus
JP2016035607A (en) * 2012-12-27 2016-03-17 パナソニック株式会社 Apparatus, method and program for generating digest
US20160104045A1 (en) * 2014-10-14 2016-04-14 Hanwha Techwin Co., Ltd. Method and apparatus for providing combined-summary in imaging apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182365A (en) * 1993-12-24 1995-07-21 Hitachi Ltd Device and method for assisting multimedia conference minutes generation
JP2002344916A (en) * 2001-05-22 2002-11-29 Takahisa Inoue Focus group interview execution system and its executing method and focus group interview executing program
JP2012054672A (en) * 2010-08-31 2012-03-15 Sanyo Electric Co Ltd Recording and reproducing apparatus
JP2016035607A (en) * 2012-12-27 2016-03-17 パナソニック株式会社 Apparatus, method and program for generating digest
US20160104045A1 (en) * 2014-10-14 2016-04-14 Hanwha Techwin Co., Ltd. Method and apparatus for providing combined-summary in imaging apparatus

Also Published As

Publication number Publication date
JP6610572B2 (en) 2019-11-27

Similar Documents

Publication Publication Date Title
US10019989B2 (en) Text transcript generation from a communication session
US10163077B2 (en) Proxy for asynchronous meeting participation
US10638082B2 (en) Systems and methods for picture-in-picture video conference functionality
RU2530267C2 (en) Method for user communication with information dialogue system
WO2015187764A1 (en) Conversation cues within audio conversations
US20170092253A1 (en) Karaoke system
WO2017113721A1 (en) Preview playing method and device
US10373508B2 (en) Devices, systems, and methods for enriching communications
CA3098735C (en) Display interface switching method, display interface switching apparatus, and electronic device
JP2015126524A (en) Remote conference program, terminal device, and remote conference method
US20130332832A1 (en) Interactive multimedia systems and methods
JP6936165B2 (en) Display control device, display control system, and display control method
JP2010078926A (en) Duet partner extracting system
JP6624476B2 (en) Translation device and translation system
TWI617197B (en) Multimedia apparatus and multimedia system
WO2018184360A1 (en) Method for acquiring and providing information and related device
US9870197B2 (en) Input information support apparatus, method for supporting input information, and computer-readable recording medium
JP6610572B2 (en) Editing device
JP6367748B2 (en) Recognition device, video content presentation system
US10181312B2 (en) Acoustic system, communication device, and program
JP2012253478A (en) Conference support system, conference support device, conference support method, and computer program
JP2011086123A (en) Information processing apparatus, conference system, information processing method, and computer program
JP2019101751A (en) Information presentation device, information presentation system, information presentation method, and program
JP2023000937A (en) Pseudo-interview system, pseudo-interview method, pseudo-interview apparatus, and program
US20200110515A1 (en) Dynamic list composition based on modality of multimodal client device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191014

R150 Certificate of patent or registration of utility model

Ref document number: 6610572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150