JP2020017885A - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP2020017885A
JP2020017885A JP2018140118A JP2018140118A JP2020017885A JP 2020017885 A JP2020017885 A JP 2020017885A JP 2018140118 A JP2018140118 A JP 2018140118A JP 2018140118 A JP2018140118 A JP 2018140118A JP 2020017885 A JP2020017885 A JP 2020017885A
Authority
JP
Japan
Prior art keywords
display
information processing
data
processing apparatus
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018140118A
Other languages
English (en)
Other versions
JP7176272B2 (ja
Inventor
麻衣 鈴木
Mai Suzuki
麻衣 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018140118A priority Critical patent/JP7176272B2/ja
Priority to CN201910279586.2A priority patent/CN110782899B/zh
Priority to US16/516,260 priority patent/US11606629B2/en
Publication of JP2020017885A publication Critical patent/JP2020017885A/ja
Application granted granted Critical
Publication of JP7176272B2 publication Critical patent/JP7176272B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/12Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations different stations being capable of presenting different information simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8545Content authoring for generating interactive applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することを可能とする。【解決手段】データ通信部31は、音声データやプレゼンテーション資料等の静止画像データ等を取得する。ユーザ操作受付部41は、静止画像データ内のユーザが指定する特定文字を受付ける。設定部44は、音声データにおいて特定文字に対応するキーワードが再生されている再生期間を、ユーザ操作受付部41により受付けられた表示オブジェクトの静止画像データ内における表示期間として設定する。そして、表示制御部45は、静止画像データを、音声データに同期させて表示されるように制御する。また、表示制御部45は、音声データ中のキーワード(特定文字)の再生時刻に合わせて、静止画像データの特定文字に表示オブジェクトを表示させるように制御する。【選択図】図3

Description

本発明は、情報処理装置およびプログラムに関する。
特許文献1には、音声データを含む動画像データを入力する動画像入力手段と、動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、音声認識用辞書を参照して、音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識手段と、動画像上の空間位置と、メタデータとなる語句の文字データと、時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段とを備える動画メタデータ自動作成装置が開示されている。
特許文献2には、資料データに基づく資料を表示する資料表示手段と、資料表示手段に表示される資料のうちユーザの指示動作により特定される指示箇所の位置情報を取得する指示箇所情報取得手段と、指示箇所情報取得手段により位置情報を取得された指示箇所について、指示動作の動作態様に基づいて注目度合を算出する注目度合い算出手段と、注目度合い算出手段により算出された注目度合いに応じて指示箇所に対応する資料データを編集し、該編集結果を反映させた表示が可能な資料編集データを生成する資料データ編集手段と、を備える資料データ編集システムが開示されている。
特開2005−065191号公報 特開2009−294984号公報
本発明の目的は、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置およびプログラムを提供することである。
[情報処理装置]
請求項1に係る本発明は、
音声データと静止画像データをそれぞれ取得する取得手段と、
前記取得手段により取得した静止画像データを、前記音声データに同期させて表示するように制御する表示制御手段と、
前記表示制御手段により表示する静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付手段と、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付手段により受付けた表示要素の静止画像データ内における表示期間として設定する設定手段と、
を備えた情報処理装置である。
請求項2に係る本発明は、前記静止画像データ内の特定文字を画像認識してテキスト化する画像認識手段をさらに備え、
前記表示制御手段は、前記画像認識手段によりテキスト化された特定文字を表示するよう制御する請求項1記載の情報処理装置である。
請求項3に係る本発明は、前記画像認識手段によりテキスト化された特定文字を修正する修正手段をさらに備える請求項2記載の情報処理装置である。
請求項4に係る本発明は、前記特定文字として、前記音声データ内に含まれる可能性のある読み方の候補を追加する追加手段をさらに備える請求項2又は3記載の情報処理装置である。
請求項5に係る本発明は、前記追加手段により追加する読み方の候補を提案する提案手段をさらに備える請求項4記載の情報処理装置である。
請求項6に係る本発明は、前記特定文字は、前記受付手段により受付けた表示要素が差し示す静止画像データ内の予め設定された領域に配置された文字列である請求項1から5のいずれか記載の情報処理装置である。
請求項7に係る本発明は、前記音声データを音声認識してテキスト化する音声認識手段をさらに備える請求項1記載の情報処理装置である。
請求項8に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列を表示するよう制御する請求項7記載の情報処理装置である。
請求項9に係る本発明は、前記音声認識手段によりテキスト化された文字列を修正する修正手段をさらに備える請求項8記載の情報処理装置である。
請求項10に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストを表示するように制御する請求項7記載の情報処理装置である。
請求項11に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストと、各文字列の前記音声データにおける再生期間を表示するよう制御する請求項7記載の情報処理装置である。
請求項12に係る本発明は、前記表示制御手段は、前記特定文字が前記音声データに複数含まれる場合には、前記特定文字に対応する文字列を候補として表示するよう制御する請求項7記載の情報処理装置である。
請求項13に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された前記音声データのテキスト全文を表示し、前記特定文字に対応する文字列を候補として、他の文字列と表示を変えて表示するように制御する請求項12記載の情報処理装置である。
請求項14に係る本発明は、前記表示制御手段は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に表示するよう制御する請求項12記載の情報処理装置である。
請求項15に係る本発明は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に再生する再生手段をさらに備える請求項12記載の情報処理装置である。
請求項16に係る本発明は、前記表示制御手段は、前記特定文字に対応する可能性のある前記音声データを、前記音声認識手段によりテキスト化して表示するよう制御する請求項7記載の情報処理装置である。
[プログラム]
請求項17に係る本発明は、
音声データと静止画像データをそれぞれ取得する取得ステップと、
前記取得ステップにおいて取得された静止画像データを、前記音声データに同期させて表示するように制御する表示制御ステップと、
前記表示制御ステップにおいて表示される静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付ステップと、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付ステップにおいて受付けられた表示要素の静止画像データ内における表示期間として設定する設定ステップと、
をコンピュータに実行させるためのプログラムである。
請求項1に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項2に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、画像認識結果を確認することが可能な情報処理装置を提供することができる。
請求項3に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、画像認識結果が誤っている場合に正すことが可能な情報処理装置を提供することができる。
請求項4に係る本発明によれば、画像認識結果と音声認識結果の表記が異なる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項5に係る本発明によれば、画像認識結果と音声認識結果の表記が異なる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項6に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項7に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項8に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。
請求項9に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果が誤っている場合に正すことが可能な情報処理装置を提供することができる。
請求項10に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。
請求項11に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。
請求項12に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項13に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。
請求項14に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項15に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。
請求項16に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。
請求項17に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能なプログラムを提供することができる。
本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。 本発明の一実施形態における編集処理サーバ10のハードウェア構成を示すブロック図である。 本発明の一実施形態における編集処理サーバ10の機能構成を示すブロック図である。 本発明の一実施形態の編集処理サーバ10における処理の概略を示すフローチャートである。 静止画・音声取り込みを開始するファイルを選択する際の端末装置20の表示画面例を示す図である。 図5で選択したファイルに対して音声認識処理を実行する際の端末装置20の表示画面例を示す図である。 マルチメディアコンテンツを生成するオーサリングツール画面の一例を示す図である。 オーサリングツール画面において、音声認識結果を表示する場合の動作を説明する図である。 音声認識結果を示す表示画面例を示す図である。 音声認識結果から抽出されたキーワード毎の再生期間を示す図である。 オーサリングツール画面において、静止画像データ内にポインタ70を付与する場合の動作を説明する図である。 ポインタを静止画像データ内の「Assistant Language Teacher」付近に表示する場合の動作を説明するための図である。 図12で特定した文字列の画像認識結果を示す表示画面例を示す図である。 画像認識結果の読み方を補正する場合の表示画面例を示す図である。 (A)は、音声認識結果の全文の一部(文章)を示す図であって、(B)は、音声認識結果から抽出されたキーワード(単語)と各キーワードの再生期間を示す図である。 音声データに同期させて、表示する静止画像データ内の特定した文字列にポインタ70を付与した場合の表示画面例を示す図である。 音声データに同期させて、表示する静止画像データ内の特定した文字列にポインタ70を付与した場合のプレビュー画面の表示画面例を示す図である。 (A)は、音声認識結果の全文の一部(文章)を示し、音声認識結果が誤っていた場合の表示画面例を示す図である。(B)は、音声認識結果から抽出されたキーワード(単語)と各キーワードの再生期間を示し、音声認識結果が誤っていた場合の表示画面例を示す図である。 音声認識結果を修正する場合の表示画面例を示す図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。
本発明の一実施形態のマルチメディアコンテンツ生成システムは、図1に示されるように、ネットワーク30により相互に接続された編集処理サーバ10およびパーソナルコンピュータ(以下、パソコンと略す。)等の端末装置20により構成される。
本実施形態のマルチメディアコンテンツ生成システムは、動画像、静止画像、音声、文字等の様々なコンテンツを組み合わせたマルチメディアコンテンツを生成するものである。本実施形態のマルチメディアコンテンツ生成システムによれば、例えば、プレゼンテーション資料を用いた講義や説明を録音しておき、音声に同期させてプレゼンテーション資料の強調したい箇所にポインタ(矢印)、文字、記号、メモ、下線、網掛け、囲み枠等の表示オブジェクト(表示要素)を表示するようなマルチメディアコンテンツを生成することができる。
編集処理サーバ10は、このような様々なコンテンツを編集してマルチメディアコンテンツを生成するための編集ソフトウェアがインストールされている情報処理装置である。そして、端末装置20は、静止画像データと音声データを取り込み、編集処理サーバ10上で動作する編集ソフトウェアを用いて、マルチメディアコンテンツを生成する。
なお、このような編集ソフトウェアを編集処理サーバ10にインストールするのではなく、パソコン等の端末装置20に直接インストールして使用することも可能である。
次に、本実施形態の画像形成システムにおける編集処理サーバ10のハードウェア構成を図2に示す。
編集処理サーバ10は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク30を介して端末装置20等の外部の装置等との間でデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、編集処理サーバ10の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明するが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。
図3は、上記の制御プログラムが実行されることにより実現される編集処理サーバ10の機能構成を示すブロック図である。
本実施形態の編集処理サーバ10は、図3に示されるように、データ通信部31と、制御部32と、マルチメディアデータ格納部33とを備えている。
データ通信部31は、端末装置20との間でネットワーク30を介したデータ通信を行っている。また、データ通信部31は、音声データやプレゼンテーション資料等の静止画像データ等を取得する取得手段として機能する。
制御部32は、編集処理サーバ10の動作を制御していて、ユーザ操作受付部41と、音声認識部42と、画像認識部43と、設定部44と、表示制御部45と、確認部46とを備えている。
マルチメディアデータ格納部33は、編集処理を行おうとする動画像データ、静止画像データ、音声データ、音声認識処理結果である音声テキストデータ、画像認識結果である画像テキストデータ等の各種コンテンツデータを格納している。
ユーザ操作受付部41は、静止画像データ内のユーザが指定する特定文字を受付ける。すなわち、ユーザ操作受付部41は、静止画像データ内に表示オブジェクトを付与する付与タイミングの設定指示を受け付ける。具体的には、例えばプレゼンテーション資料のユーザが特定した文字列に、ポインタを付与する等の付与タイミングの設定指示を受付ける。
ここで、特定文字とは、静止画像データ内のユーザが強調したい領域であって、表示オブジェクトを付与したい領域に配置される文字列である。
音声認識部42は、音声データに対して音声認識処理を行う。つまり、音声データをテキスト化して音声テキストデータに変換する。さらに、音声認識部42は、音声テキストデータから文字列であるキーワード(単語)を抽出し、音声データにおける各キーワードの再生開始時刻と再生終了時刻(再生期間)を取得する。
画像認識部43は、静止画像データ内のユーザの指定により受付けられた特定文字に対して画像認識処理を行う。つまり、特定文字の画像データをテキスト化して画像テキストデータに変換する。
表示制御部45は、端末装置20において表示される画面の制御を行っている。
すなわち、表示制御部45は、音声認識部42によりテキスト化された音声テキストデータを端末装置20の表示部に表示するよう制御する。また、表示制御部45は、音声認識部42によりテキスト化された音声テキストデータから抽出されたキーワードのリストを表示するように制御する。また、表示制御部45は、音声認識部42によりテキスト化された音声テキストデータから抽出されたキーワードのリストと、音声データにおける各キーワードの再生開始時刻と再生終了時刻(再生期間)を表示するよう制御する。
また、表示制御部45は、画像認識部43によりテキスト化された特定文字の画像テキストデータを端末装置20の表示部に表示するよう制御する。
設定部44は、音声認識部42によりテキスト化された音声テキストデータの中から、画像認識部43によりテキスト化された特定文字の画像テキストデータに合致する文字列(キーワード)を抽出し、音声データにおいて特定文字に対応するキーワードが再生されている再生期間を、ユーザ操作受付部41により受付けられた表示オブジェクトの静止画像データ内における表示期間として設定する。
つまり、設定部44は、音声認識結果である音声テキストデータと、特定文字の画像認識結果である画像テキストデータと、を合致させて、音声認識結果と画像認識結果とを紐付け、音声データにおける特定文字に対応するキーワードの再生開始時刻と再生終了時刻を、表示オブジェクトの表示開始時刻と表示終了時刻として設定する。
具体的には、例えば設定部44は、音声の再生開始時刻から何分何秒後にプレゼンテーション資料の特定文字にポインタを表示し、音声の再生開始時刻から何分何秒後にポインタを非表示にする、というような設定をする。
また、表示制御部45は、ユーザ操作受付部41により受付けられた特定文字に対応するキーワードが音声データに複数含まれる場合には、各キーワードの再生開始時刻と再生終了時刻とを候補として表示するよう制御する。
また、表示制御部45は、音声認識部42によりテキスト化された音声テキストデータの全文を表示するように制御する。すなわち、音声テキストデータに変換されたキーワードが前後の文脈と共に表示される。そして、表示制御部45は、特定文字に対応するキーワードを枠で囲む、網掛けをする、他の文字列と異なる色で表示する等、他の文字列と表示を変えて候補として表示するように制御する。
また、表示制御部45は、音声データにおいて特定文字に対応するキーワードが検出されない場合であっても、特定文字に対応する可能性のあるキーワードを表示するよう制御する。また、表示制御部45は、特定文字として音声データ内に含まれる可能性のある読み方の候補をユーザが追加可能なように制御する。また、表示制御部45は、特定文字として音声データ内に含まれる可能性のある読み方の候補をユーザに提案するように制御する。
確認部46は、表示する静止画像データ内に表示オブジェクトを設定する前に、ユーザ(使用者)に音声認識結果を確認する。また、確認部46は、特定文字に対応する可能性のあるキーワードの出現前後の音声データを再生して、ユーザに確認する再生手段として機能する。
そして、ユーザは、音声認識部42によりテキスト化された音声テキストデータが誤っていた場合に、端末装置20の表示画面上で修正することができる。また、画像認識部43によりテキスト化された画像テキストデータが誤っていた場合に、端末装置20の表示画面上で修正することができる。
そして、表示制御部45は、データ通信部31により取得した静止画像データを、データ通信部により取得した音声データに同期させて表示されるように制御する。また、表示制御部45は、音声データ中のキーワード(特定文字)の再生時刻に合わせて、静止画像データの特定文字に表示オブジェクトを表示させるように制御する。
ここで、音声データに同期させて静止画像データの表示ページを変更する時刻の設定を行う場合において表示される画面はプレビュー画面と呼ばれ、音声データに同期させて表示する静止画像データに表示オブジェクトを付与する設定をする場合において表示される画面はオーサリングツール画面と呼ばれる。
このプレビュー画面では、音声を再生しながら、切替えて表示を行おうとする複数の静止画像データが表示され、静止画像データの切り替えを行いたいタイミングで切り替える静止画像データを選択することにより切替タイミングの設定指示を行うことができるようになっている。
また、オーサリングツール画面では、音声データと静止画像データを取得して、ユーザが静止画像データ内の表示オブジェクトを付与したい特定文字を特定することにより音声データに同期させて表示オブジェクトの表示位置と表示期間が設定されるようになっている。
次に、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ10の動作について図面を参照して詳細に説明する。
先ず、編集処理サーバ10における動作の概略を図4のフローチャートを参照して説明する。
例えば、端末装置20の表示部において、図5に示すような静止画・音声取り込み画面が表示されて、講演会の録音データ等の音声データを記憶したファイルが選択されてカーソル60により「OK」が選択されると、編集処理サーバ10は、端末装置20から音声データを取得し(ステップS10)、マルチメディアデータ格納部33に格納する。
そして、端末装置20の表示部に図6に示すような音声認識処理の実行画面が表示されて「OK」が選択されると、編集処理サーバ10の音声認識部42が、マルチメディアデータ格納部33に格納した音声データに対して音声認識処理を実行し(ステップS11)、編集処理サーバ10は、音声認識処理によりテキスト化された音声テキストデータを取得する。また、音声認識部42が、音声テキストデータから音声テキストデータに含まれるキーワード(単語)を抽出し、音声データにおける各キーワードの再生開始時刻と再生終了時刻を取得する。そして、端末装置20の表示部には、図7に示されるようなオーサリングツール画面が表示される。
そして、オーサリングツール画面のツールバー62上でカーソル60を右クリックすると、図8に示されるようなコマンドが表示され、ナレーション設定が選択されると、図9に示されるようなナレーション設定画面が表示され、音声テキストデータの全文が表示される。すなわち、音声認識結果の全文(文章)が表示される。また、表示モードの切替えにより、図10に示されるような音声テキストデータに含まれる各キーワードの再生開始時刻、再生終了時刻、再生ボタンが表示される。すなわち、各キーワード(単語)が再生期間、再生ボタンと共に表示される。
図10に示されるような各キーワードの再生開始時刻と再生終了時刻は、図9に示される音声テキストデータの全文を用いて取得される。すなわち、音声テキストデータの全文を用いて、各キーワードが文章の始めから何文字目かを抽出し、例えば1文字あたり1秒で読めると仮定して、このキーワードの再生開始時刻と再生終了時刻を特定して取得する。
また、音声データにおいて複数回発話されているキーワードであっても、図9に示されているような音声認識結果の全文を参照することにより、文脈の前後からポインタを付与したい特定文字の再生開始時刻と再生終了時刻を特定することができる。また、図10に示されているように、各キーワードの再生開始時刻と再生終了時刻を参照することにより、ポインタを付与したい特定文字の再生開始時刻と再生終了時刻を特定することができる。また、各キーワードの再生ボタンを押下することにより、各キーワードの前後(キーワード発話前から発話後まで)の音声データが再生される。
また、上述した静止画・音声取り込み画面において、講演会のプレゼンテーション資料等の静止画像データを記憶したファイルが選択されると、編集処理サーバ10は、端末装置20から静止画像データを取得し(ステップS12)、マルチメディアデータ格納部33に格納する。そして、図11に示されているようなオーサリングツール画面においてページ切替ボタン63をクリックすることにより、オーサリングツール画面において設定される静止画像データを切り替えることができる。つまり、表示オブジェクトの一例であるポインタを付与する静止画像データをページ切替ボタン63で切替えることができる。そして、オーサリングツール画面においてポインタ設定ボタン64をクリックすると、図12に示すような表示オブジェクトの一例であるポインタの設定画面が表示される。
そして、ユーザ操作受付部41は、静止画像データ内の強調したい記述の領域であって、ポインタを付与する文字列(図12において「Assistant Language Teacher」)がカーソル60を用いて領域指定されると、この文字列を特定文字として受付ける(ステップS13)。すると、編集処理サーバ10の画像認識部43が、この特定文字に対して画像認識処理を実行し(ステップS14)、表示制御部45が、図13に示されるような特定文字の画像認識結果を表示するように制御する。なお、画像認識結果が誤っている場合には、図13に示されるような表示画面上で修正することができる。
そして、音声テキストデータの中から画像認識結果として抽出された特定文字に合致する又は対応する(紐づいた)キーワードを検索し、特定する(ステップS15)。
ここで、本実施形態のように、画像認識結果として抽出された画像テキストデータにおける文字列は英語だが、音声認識結果として抽出された音声テキストデータにおける文字列は、カタカナ、ひらがな等の画像認識結果と音声認識結果の表記が異なる場合がある。
具体的には、特定文字の画像認識結果が「Assistant Language Teacher」である場合に、この画像認識結果と音声認識結果の「アシスタントラングエージティーチャー」の表記は合致しない。このように画像認識結果と音声認識結果が合致しない又は合致しない可能性がある場合には、図13に示されているような画像認識結果画面において読み補正ボタン65を選択し、図14に示されているような表示画面において、画像認識結果の読み方を補正登録しておくことにより音声認識結果と対応づける(紐付ける)ことができる。この読み方の補正登録は、複数登録しておくこともできる。なお、カタカナとひらがな等とが互いに互換されるようにしてもよい。
そして、画像認識結果として、音声認識結果に合致する「アシスタントラングエージティーチャ―」を登録しておくことにより、読み補正して登録された画像認識結果と音声認識結果が合致する又は対応づく(紐づく)こととなる。なお、特定文字に対応するキーワードが検出されない場合に、画像認識結果の読み補正を促す表示をするようにしてもよく、例えば図14に示されているような読み方補正登録画面を表示するようにしてもよい。
そして、特定文字に合致する又は対応する(紐づく)音声認識結果のキーワードの再生開始時刻と再生終了時刻を、ポインタの表示開始時刻と表示終了時刻(表示期間)として設定し(ステップS16)、表示制御部45は、特定文字の文頭の中央部を矢印の終点としてポインタを配置するように制御する。なお、ポインタの表示開始時刻と表示終了時刻は、表示画面上で修正できるようにしてもよい。
そして、他の静止画像にポインタ等の表示オブジェクトを付与したい箇所がある場合には(ステップS18においてYes)、ステップS13の処理へ戻り、他の静止画像に表示オブジェクトを付与したい箇所がない場合には(ステップS18においてNo)、処理を終了する。
図15(A)は、音声認識結果の全文の一部(文章)を示す図であって、図15(B)は、音声認識結果から抽出されたキーワード(単語)と各キーワードの再生開始時刻、再生終了時刻を示す図である。
図15(A)及び図15(B)に示されているように、特定文字の画像認識結果「Assistant Language Teacher」に対応して(紐づいて)音声テキストデータ中の文字列(キーワード)である「アシスタントラングエージティーチャー」が特定され、表示制御部45は、この特定されたキーワードが他の文字列と異なるように網掛けして表示するように制御する。また、表示制御部45は、音声データにおける各キーワードの再生開始時刻と再生終了時刻を表示するように制御する。
具体的には、特定文字の画像テキストデータである「Assistant Language Teacher」と音声テキストデータの「アシスタントラングエージティーチャー」が対応するため、設定部44は、音声データの「アシスタントラングエージティーチャー」の再生開始時刻である「00:04:29」をポインタの表示開始時刻とし、再生終了時刻である「00:04:34」をポインタの表示終了時刻と設定する。
そして、図16に示されるように、音声データに同期させて、静止画像データ内の特定文字「Assistant Language Teacher」の文頭の中央部にポインタ70の終点が付与されて表示され、図17に示されているように、プレビュー画面のコマンド設定領域71に追加したコマンドが表示される。すなわち、プレゼンテーション資料の該当ページにおいて「再生開始時刻0:00:04.29」がポインタ赤表示のコマンドとして追加される。さらに、「再生終了時刻0:00:04.34」がポインタ赤非表示のコマンドとして追加される。そして、このコマンドの追加後には、表示される画面は、コマンドに従ってプレビュー画面が切り替わり音声の再生が続行されることになる。
次に、音声認識結果に誤りがある場合の編集処理サーバ10の動作について説明する。
図18(A)及び図18(B)は、音声認識結果に誤りがある場合の表示画面を示す図である。図18(A)に示した音声認識結果の表示画面例では、全文が表示されて、誤っている可能性のある文字列が他の文字列と区別するように表示されている。また、図18(B)に示した音声認識結果の表示画面例では、各キーワードの再生開始時刻と再生終了時刻が表示されて、誤っている可能性のあるキーワードが他のキーワードと区別するように表示されている。
具体的には、図18(A)及び図18(B)では、誤って認識されている可能性のある文字列(キーワード)に網掛けがされて、ユーザが音声認識結果を確認できるように表示されている。つまり、ユーザが画像認識結果と音声認識結果を確認した上で、音声に同期させて、表示する静止画像データ内の特定文字にポインタを表示することができるようにされている。
なお、音声認識結果が誤っている場合には、図18(A)及び図18(B)に示されているような表示画面上で修正することができる。そして、表示画面の一方で修正を加えると、他方も連動して修正される。
具体的には、例えば図18(A)に示されている音声認識結果の全文を表示する表示画面上において「イーエルティー」を「エーエルティー」に修正すると、図18(B)に示されているキーワードの再生開始時刻と再生終了時刻を示す表示画面においても「イーエルティー」から「エーエルティー」に連動して修正される。
さらに、図19に示されているように、図18(A)に示されている文章側で修正された文字列と図18(B)に示されているキーワードの近似度を算出し、図19に示されているように合致しないが近似度が比較的高い文字列を抽出して表示してユーザに確認する。つまり、ユーザは、この表示された単語を参照して、音声認識結果を修正することができるようにされている。
なお、上述の実施形態においては、静止画像データ内の特定文字をカーソル60を用いて領域指定して受付ける構成について説明しているが、本発明はこれに限定されるものではなく、静止画像データ内のポインタを付与した箇所にカーソル60を配置し、カーソル60が配置された箇所の近傍であって、カーソル60の終点の予め設定された領域を画像認識処理するようにしてもよい。このとき、カーソル60で指定された領域の画像認識結果を候補として表示するようにしてもよい。また、画像認識結果に補足情報を入力する入力手段を設け、入力手段により入力された補正情報を用いて画像認識処理を実行するようにしてもよい。
また、本実施形態においては、音声に同期させて、表示する静止画像データ内の特定文字の文頭にポインタを付与する構成について説明したが、本発明はこれに限定されるものではなく、音声に同期させて、表示する静止画像データ内の特定文字の中央等の予め設定された領域にポインタを付与する構成に適用することができる。
また、本実施形態においては、音声に同期させて、表示する静止画像データ内の特定文字にポインタを付与する構成について説明したが、本発明はこれに限定されるものではなく、音声に同期させて、表示する静止画像データ内の特定文字に囲み枠を追加したり、特定文字を網掛けしたり、特定文字に下線を引いたり、特定文字の字体を太くする、色を変える等、特定文字が強調されるように表示する構成に適用することができる。
また、本実施形態においては、音声データに対して音声認識処理を行うことにより音声テキストデータを生成する構成について説明したが、本発明はこれに限定されるものではなく、動画像データに対して音声認識処理を行うことにより音声テキストデータを生成する構成にも適用される。すなわち、動画像データに同期させて、表示する静止画像データ内に表示オブジェクトを付与する構成にも適用される。
10 編集処理サーバ
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース(IF)
15 ユーザインタフェース(UI)装置
16 制御バス
20 端末装置
30 ネットワーク
31 データ通信部
32 制御部
33 マルチメディアデータ格納部
41 ユーザ操作受付部
42 音声認識部
43 画像認識部
44 設定部
45 表示制御部
46 確認部
70 ポインタ(表示オブジェクト)

Claims (17)

  1. 音声データと静止画像データをそれぞれ取得する取得手段と、
    前記取得手段により取得した静止画像データを、前記音声データに同期させて表示するように制御する表示制御手段と、
    前記表示制御手段により表示する静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付手段と、
    前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付手段により受付けた表示要素の静止画像データ内における表示期間として設定する設定手段と、
    を備えた情報処理装置。
  2. 前記静止画像データ内の特定文字を画像認識してテキスト化する画像認識手段をさらに備え、
    前記表示制御手段は、前記画像認識手段によりテキスト化された特定文字を表示するよう制御する請求項1記載の情報処理装置。
  3. 前記画像認識手段によりテキスト化された特定文字を修正する修正手段をさらに備える請求項2記載の情報処理装置。
  4. 前記特定文字として、前記音声データ内に含まれる可能性のある読み方の候補を追加する追加手段をさらに備える請求項2又は3記載の情報処理装置。
  5. 前記追加手段により追加する読み方の候補を提案する提案手段をさらに備える請求項4記載の情報処理装置。
  6. 前記特定文字は、前記受付手段により受付けた表示要素が差し示す静止画像データ内の予め設定された領域に配置された文字列である請求項1から5のいずれか記載の情報処理装置。
  7. 前記音声データを音声認識してテキスト化する音声認識手段をさらに備える請求項1記載の情報処理装置。
  8. 前記表示制御手段は、前記音声認識手段によりテキスト化された文字列を表示するよう制御する請求項7記載の情報処理装置。
  9. 前記音声認識手段によりテキスト化された文字列を修正する修正手段をさらに備える請求項8記載の情報処理装置。
  10. 前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストを表示するように制御する請求項7記載の情報処理装置。
  11. 前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストと、各文字列の前記音声データにおける再生期間を表示するよう制御する請求項7記載の情報処理装置。
  12. 前記表示制御手段は、前記特定文字が前記音声データに複数含まれる場合には、前記特定文字に対応する文字列を候補として表示するよう制御する請求項7記載の情報処理装置。
  13. 前記表示制御手段は、前記音声認識手段によりテキスト化された前記音声データのテキスト全文を表示し、前記特定文字に対応する文字列を候補として、他の文字列と表示を変えて表示するように制御する請求項12記載の情報処理装置。
  14. 前記表示制御手段は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に表示するよう制御する請求項12記載の情報処理装置。
  15. 前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に再生する再生手段をさらに備える請求項12記載の情報処理装置。
  16. 前記表示制御手段は、前記特定文字に対応する可能性のある前記音声データを、前記音声認識手段によりテキスト化して表示するよう制御する請求項7記載の情報処理装置。
  17. 音声データと静止画像データをそれぞれ取得する取得ステップと、
    前記取得ステップにおいて取得された静止画像データを、前記音声データに同期させて表示するように制御する表示制御ステップと、
    前記表示制御ステップにおいて表示された静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付ステップと、
    前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付ステップにおいて受付けられた表示要素の静止画像データ内における表示期間として設定する設定ステップと、
    をコンピュータに実行させるためのプログラム。
JP2018140118A 2018-07-26 2018-07-26 情報処理装置およびプログラム Active JP7176272B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018140118A JP7176272B2 (ja) 2018-07-26 2018-07-26 情報処理装置およびプログラム
CN201910279586.2A CN110782899B (zh) 2018-07-26 2019-04-09 信息处理装置、存储介质及信息处理方法
US16/516,260 US11606629B2 (en) 2018-07-26 2019-07-19 Information processing apparatus and non-transitory computer readable medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018140118A JP7176272B2 (ja) 2018-07-26 2018-07-26 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2020017885A true JP2020017885A (ja) 2020-01-30
JP7176272B2 JP7176272B2 (ja) 2022-11-22

Family

ID=69177257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018140118A Active JP7176272B2 (ja) 2018-07-26 2018-07-26 情報処理装置およびプログラム

Country Status (2)

Country Link
US (1) US11606629B2 (ja)
JP (1) JP7176272B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460124A (zh) * 2018-02-26 2018-08-28 北京物灵智能科技有限公司 基于图形识别的交互方法及电子设备
JP2022030754A (ja) * 2020-08-07 2022-02-18 株式会社東芝 入力支援システム、入力支援方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009283020A (ja) * 2008-05-19 2009-12-03 Fuji Xerox Co Ltd 記録装置、再生装置、及びプログラム
JP2013068699A (ja) * 2011-09-21 2013-04-18 Fuji Xerox Co Ltd 画像表示装置及び画像表示プログラム
JP2013200649A (ja) * 2012-03-23 2013-10-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901166B1 (en) * 1998-10-29 2005-05-31 Mitsuo Nakayama Image scanner and optical character recognition system using said image scanner
CN1300018A (zh) * 1999-10-05 2001-06-20 株式会社东芝 书籍朗读电子机器,编辑系统,存储媒体,及信息提供系统
JP4258966B2 (ja) * 2000-09-29 2009-04-30 コニカミノルタホールディングス株式会社 画像入出力装置
US7451084B2 (en) * 2003-07-29 2008-11-11 Fujifilm Corporation Cell phone having an information-converting function
JP2005065191A (ja) 2003-08-20 2005-03-10 Ntt Comware Corp 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム
US7694213B2 (en) * 2004-11-01 2010-04-06 Advanced Telecommunications Research Institute International Video content creating apparatus
JP2007079943A (ja) * 2005-09-14 2007-03-29 Toshiba Corp 文字読取プログラム、文字読取方法および文字読取装置
US8140341B2 (en) * 2007-01-19 2012-03-20 International Business Machines Corporation Method for the semi-automatic editing of timed and annotated data
US8849672B2 (en) * 2008-05-22 2014-09-30 Core Wireless Licensing S.A.R.L. System and method for excerpt creation by designating a text segment using speech
JP2009294984A (ja) 2008-06-06 2009-12-17 Konica Minolta Holdings Inc 資料データ編集システム及び資料データ編集方法
JP5589466B2 (ja) * 2010-03-17 2014-09-17 ソニー株式会社 情報処理装置、プログラム、記録媒体および情報処理システム
WO2013115235A1 (ja) * 2012-02-03 2013-08-08 シャープ株式会社 出力システム、出力システムの制御方法、制御プログラム、および記録媒体
KR102057284B1 (ko) * 2013-01-23 2020-01-22 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
US20190028721A1 (en) * 2014-11-18 2019-01-24 Elwha Llc Imaging device system with edge processing
EP3503074A4 (en) * 2016-08-17 2020-03-25 Kainuma, Ken-ichi LANGUAGE LEARNING SYSTEM AND LANGUAGE LEARNING PROGRAM

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009283020A (ja) * 2008-05-19 2009-12-03 Fuji Xerox Co Ltd 記録装置、再生装置、及びプログラム
JP2013068699A (ja) * 2011-09-21 2013-04-18 Fuji Xerox Co Ltd 画像表示装置及び画像表示プログラム
JP2013200649A (ja) * 2012-03-23 2013-10-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
US20200037049A1 (en) 2020-01-30
US11606629B2 (en) 2023-03-14
CN110782899A (zh) 2020-02-11
JP7176272B2 (ja) 2022-11-22

Similar Documents

Publication Publication Date Title
US10614265B2 (en) Apparatus, method, and computer program product for correcting speech recognition error
US8380509B2 (en) Synchronise an audio cursor and a text cursor during editing
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
CN110740275B (zh) 一种非线性编辑系统
JP2007171809A (ja) 情報処理装置及び情報処理方法
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP6417104B2 (ja) テキスト編集装置、テキスト編集方法、及びプログラム
JP2014222290A (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2002082684A (ja) プレゼンテーションシステム及びプレゼンテーションデータ生成方法、並びに記録媒体
JP7176272B2 (ja) 情報処理装置およびプログラム
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JPH11161464A (ja) 日本語文章作成装置
JP4436087B2 (ja) 文字データ修正装置、文字データ修正方法および文字データ修正プログラム
JP4587165B2 (ja) 情報処理装置及びその制御方法
US11119727B1 (en) Digital tutorial generation system
JP6949075B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
CN114157823A (zh) 信息处理装置、信息处理方法以及计算机可读介质
JP2012256097A (ja) 表示画像キャプチャ翻訳装置、表示画像キャプチャ翻訳方法、及びプログラム
JP2020140326A (ja) コンテンツ生成システム、及びコンテンツ生成方法
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
JP2020140374A (ja) 電子図書再生装置及び電子図書再生プログラム
JP7481863B2 (ja) 音声認識誤り修正支援装置、プログラムおよび方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7176272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150