JP7492092B1

JP7492092B1 - 電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラム

Info

Publication number: JP7492092B1
Application number: JP2024023759A
Authority: JP
Inventors: 悟史鈴木; 和樹長谷川; 雷太平山; 康一武波; 健育村田; 俊光木本
Original assignee: Studist Corp
Current assignee: Studist Corp
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-05-28
Anticipated expiration: 2044-02-20

Abstract

【課題】電子マニュアルの作成を支援するためのコンピュータシステムを提供すること。【解決手段】コンピュータシステムは、１つ以上の動画を受信する手段と、複数のステップに変換するための条件を示す情報を受信する手段と、条件に基づいて、１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、構造化テキストは、複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、１つ以上の動画と、構造化テキストとに少なくとも基づいて、１つ以上の動画を複数のサブ動画または静止画に分割する手段と、構造化テキストと、複数のサブ動画または静止画とに基づいて、電子マニュアルを仮生成する手段とを備える。【選択図】図１Ｃ

Description

本発明は、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムに関する。

従来から、作業の効率化などを目的として、電子マニュアルを作成し、利用することが知られている（例えば、特許文献１を参照）。

国際公開第２０１７／１８３０６４号明細書

しかしながら、電子マニュアルを作成することは、依然として、時間および労力を必要とするものであり、特に、動画を含む電子マニュアルを作成することは、かなりの時間および労力を必要とするものである。

本発明は、上述した課題に鑑みてなされたものであり、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムを提供することにより、電子マニュアルの作成に必要な時間および労力を低減することを目的とする。

本発明の１つの局面において、本発明のコンピュータシステムは、電子マニュアルの作成を支援するためのコンピュータシステムであり、前記コンピュータシステムは、１つ以上の動画を受信する手段と、複数のステップに変換するための条件を示す情報を受信する手段と、前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割する手段と、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成する手段とを備える。

本発明の一実施形態では、前記条件は、ステップの数の制限を含んでいてもよい。

本発明の一実施形態では、前記条件は、タイトルの文字数の制限および／または説明文の文字数の制限をさらに含んでいてもよい。

本発明の一実施形態では、前記１つ以上の動画に含まれる音声は、前記電子マニュアルの手順を示す音声であってもよい。

本発明の一実施形態では、前記仮生成された電子マニュアルは、前記１つ以上の動画に含まれる音声を含まなくてもよい。

本発明の一実施形態では、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数の候補サブ動画に分割することと、前記複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を、前記候補サブ動画に基づいて静止画に変換することとを含んでいてもよい。

本発明の一実施形態では、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、前記構造化テキストに基づいて、シーンの切り替わりのタイミングを特定することと、前記シーンの切り替わりのタイミングに基づいて前記１つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することを含んでいてもよい。

本発明の一実施形態では、前記構造化テキストに基づいて、前記シーンの切り替わりのタイミングを特定することは、前記構造化テキストに基づいて、前記構造化テキストの内容の切れ目を特定することと、前記構造化テキストの切れ目に対応する前記音声内のタイミングを前記シーンの切り替わりのタイミングとして特定することとを含んでいてもよい。

本発明の一実施形態では、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、前記１つ以上の動画の画像変化の大きいタイミングを特定することと、前記音声の切れ目のタイミングを特定することと、前記画像変化の大きいタイミングと前記シーンの切り替わりのタイミングと前記音声の切れ目のタイミングとが一致するタイミングで、前記１つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することとをさらに含んでいてもよい。

本発明の一実施形態では、前記条件に基づいて、前記１つ以上の動画に含まれる音声から、前記構造化テキストを生成することは、前記１つ以上の動画に含まれる音声を文字起こしすることによって、前記音声をテキストに変換することと、前記音声から変換されたテキストと、前記条件とに基づいて、前記構造化テキストを生成することとを含んでいてもよい。

本発明の一実施形態では、前記コンピュータシステムは、前記仮生成された電子マニュアルを編集することを希望することを示す第１のユーザ入力を受信する手段と、前記第１のユーザ入力を受信したことに応答して、前記仮生成された電子マニュアルのステップ間における分割候補の時間帯を特定する手段であって、前記分割候補の時間帯内において、ユーザは、前記仮生成された電子マニュアルのステップ間の分割位置を調整することができる、ことと、前記分割候補の時間帯を提示する手段と、前記分割候補の時間帯内における前記仮生成された電子マニュアルのステップ間の分割位置を調整するための第２のユーザ入力を受信する手段と、前記第２のユーザ入力に基づいて、前記仮生成された電子マニュアルを編集する手段とをさらに備えてもよい。

本発明の一実施形態では、前記分割候補の時間帯を特定することは、前記構造化テキストと、前記１つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することを含んでいてもよい。

本発明の一実施形態では、前記構造化テキストと、前記１つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することは、前記構造化テキストに基づいて、前記複数のステップの各ステップに対応する前記音声の再生時間を特定することと、各ステップに対応する前記音声の再生時間に基づいて、前記分割候補の時間帯を特定することとを含んでいてもよい。

本発明の一実施形態では、前記コンピュータシステムは、前記電子マニュアルの本生成を実行するための第３のユーザ入力を受信する手段と、前記第３のユーザ入力を受信したことに応答して、前記電子マニュアルの本生成を実行する手段とをさらに備えていてもよい。

本発明の一実施形態では、前記コンピュータシステムは、前記１つ以上の動画が音声を含むか否かを判定する手段と、前記１つ以上の動画が音声を含まないと判定される場合に、前記１つ以上の動画に音声が含まれていないことをユーザに警告する手段とをさらに備えていてもよい。

本発明の一実施形態では、前記１つ以上の動画に含まれる音声は、口語調であり、前記タイトルおよび前記説明文は、文語調であってもよい。

本発明の一実施形態では、前記コンピュータシステムは、前記構造化テキストを読み上げるための音声データを生成する手段をさらに備えていてもよい。

本発明の一実施形態では、前記コンピュータシステムは、入力言語および出力言語を設定するための入力を受信する手段と、前記構造化テキストに含まれる前記複数のステップのそれぞれの前記タイトルまたは前記説明文の言語を前記入力言語から前記出力言語に変換する手段とを備え、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することは、前記複数のステップのそれぞれの前記出力言語に変換された前記タイトルまたは前記説明文と、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することを含んでいてもよい。

本発明の１つの局面において、本発明のプログラムは、電子マニュアルの作成を支援するためのコンピュータシステムにおいて実行されるプログラムであり、前記コンピュータシステムは、前記コンピュータシステムの動作を制御するプロセッサ部を備え、前記プログラムは、前記プロセッサ部によって実行されると、１つ以上の動画を受信することと、複数のステップに変換するための条件を示す情報を受信することと、前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することと、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することとを前記プロセッサ部に少なくとも行わせる。

本発明の１つの局面において、本発明のプログラムは、電子マニュアルの作成を支援するためのプログラムであり、前記プログラムは、ユーザ装置上で実行され、前記ユーザ装置は、前記ユーザ装置の動作を制御するプロセッサ部を備え、前記プログラムは、前記プロセッサ部によって実行されると、１つ以上の動画を特定することと、複数のステップに変換するための条件を示す情報を特定することと、前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することと、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することとを前記プロセッサ部に少なくとも行わせる。

本発明によれば、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムを提供することにより、電子マニュアルの作成に必要な時間および労力を低減することが可能である。

ユーザ装置に表示される画面１００の一例を示す図ユーザ装置に表示される画面１１０の一例を示す図ユーザ装置に表示される画面１２０の一例を示す図ユーザ装置に表示される画面１３０の一例を示す図電子マニュアルの作成を支援するためのシステム２００の構成の一例を示す図コンピュータシステム２１０において実行される処理の一例を示す図コンピュータシステム２１０において実行される処理の他の一例を示す図

以下、図面を参照しながら、本発明の実施の形態を説明する。

１．ユーザ装置に表示される画面の遷移
図１Ａは、ユーザ装置に表示される画面１００の一例を示す。画面１００は、作成したい電子マニュアルのベースとなる１つ以上の動画を特定するための画面である。なお、画面１００は、本発明のプログラムがユーザ装置に予めインストールされていることによって、ユーザ装置に表示されてもよいし、本発明のプログラムが予めインストールされたコンピュータシステムとユーザ装置が通信することによって、ユーザ装置に表示されてもよい。

図１Ａに示される例では、画面１００は、作成したい電子マニュアルのベースとなる１つ以上の動画を選択するための動画選択領域１０１と、作成したい電子マニュアルの入力言語（すなわち、作成したい電子マニュアルのベースとなる１つ以上の動画に含まれる音声の言語）を設定するための入力言語設定領域１０２と、作成したい電子マニュアルの出力言語（すなわち、作成したい電子マニュアルの複数のステップの各ステップのタイトルおよび説明文の言語）を設定するための出力言語設定領域１０３と、次の画面（例えば、図１Ｂの画面１１０）に遷移するための遷移領域１０４とを含む。ユーザが動画選択領域１０１を選択すると、ユーザ装置のメモリ内に記憶されている少なくとも１つの動画の一覧が表示される。表示された少なくとも１つの動画のうち、１つ以上の動画がユーザによって選択されることによって、作成したい電子マニュアルのベースとなる１つ以上の動画を特定することが可能である。図１Ａに示される例では、入力言語設定領域１０２において、「日本語」が選択されており、出力言語設定領域１０３において、「日本語」が選択されている。図１Ａに示される例では、入力言語設定領域１０２および出力言語設定領域１０３にはプルダウン方式が採用されており、ユーザは、入力言語設定領域１０２を選択することによって、作成したい電子マニュアルの入力言語を変更することが可能であり、出力言語設定領域１０３を選択することによって、作成したい電子マニュアルの出力言語を変更することが可能である。入力言語設定領域１０２において入力言語を設定することにより、後の構造化テキストの生成の段階において、構造化テキストの精度を向上させることが可能である。

動画選択領域１０１において、作成したい電子マニュアルのベースとなる１つ以上の動画を選択し、かつ、入力言語設定領域１０２において、作成したい電子マニュアルの入力言語を選択し、かつ、出力言語設定領域１０３において、作成したい電子マニュアルの出力言語を選択した後に、遷移領域１０４を選択することによって、画面１００から次の画面に遷移することが可能である。なお、遷移領域１０４は、作成したい電子マニュアルのベースとなる１つ以上の動画の選択と、作成したい電子マニュアルの入力言語および出力言語の選択との両方が完了するまで、選択することができない状態であってもよい。

なお、動画選択領域１０１において選択された１つ以上の動画は、音声を含むものであり得る。動画選択領域１０１において選択された１つ以上の動画に含まれる音声は、動画選択領域１０１において選択された１つ以上の動画の再生時間のうち、音声が発せられている時刻と関連付けられている。動画選択領域１０１において選択された１つ以上の動画が音声を含まない場合には、遷移領域１０４が選択された後に、動画選択領域１０１において選択された１つ以上の動画に音声が含まれていない旨の警告が、ユーザ装置に表示され得る。このとき、音声を入力することを要求するための画面が、ユーザ装置に表示され、ユーザによって音声が入力されると、画面１００は、次の画面（例えば、図１Ｂの画面１１０）に遷移する。

また、動画選択領域１０１において選択された１つ以上の動画に含まれる音声の言語が自動的に検出されてもよい。例えば、入力言語設定領域１０２において選択された入力言語が、１つ以上の動画に含まれる音声の自動的に検出された言語と異なる場合、入力言語の確認をユーザに要求するための画面が、ユーザ装置を介してユーザに提示されてもよい。これにより、入力言語設定領域１０２において選択された入力言語が１つ以上の動画に含まれる音声の言語と異なるリスクを低減することが可能であるため、構造化テキストの精度が低減することを回避することが可能である。

図１Ｂは、ユーザ装置に表示される画面１１０の一例を示す。画面１１０は、動画選択領域１０１において選択された１つ以上の動画に含まれる音声を複数のステップに変換するための条件を入力するための画面である。画面１１０は、図１Ａに示される画面１００内の遷移領域１０４がユーザによって選択された際に、図１Ａに示される画面１００から遷移した画面の一例である。

図１Ｂに示される例では、画面１１０は、電子マニュアル内のステップの数の制限に関連する「ステップの粒度」を規定するための領域１１１と、電子マニュアル内の各ステップのタイトルの文字数の制限を規定するための領域１１２と、電子マニュアル内の各ステップの説明文の文字数の制限を規定するための領域１１３と、電子マニュアル内の各ステップの説明文の言い回しを規定するための領域１１４と、電子マニュアルの想定される閲覧者を規定するための領域１１５と、電子マニュアル内の字幕の有無を規定するための領域１１６と、電子マニュアルの仮生成を実行するための仮生成領域１１７とを含む。図１Ｂに示される例では、領域１１１には、プルダウン方式が採用されており、領域１１１を選択することによって「ステップの粒度」を変更することが可能である。領域１１２、領域１１３、領域１１４、領域１１５、および領域１１６の各々についても同様である。

図１Ｂに示される例では、領域１１１において、「ステップの粒度」として「標準」が選択されており、領域１１２において、電子マニュアル内の各ステップのタイトルの文字数の制限として「３０文字まで」が選択されており、領域１１３において、電子マニュアル内の各ステップの説明文の文字数の制限として「１００文字程度」が選択されており、領域１１４において、電子マニュアル内の各ステップの説明文の言い回しとして「ていねい」が選択されており、領域１１５において、電子マニュアルの想定される閲覧者として「初心者」が選択されており、領域１１６において、電子マニュアル内の字幕の有無として「あり」が選択されている。

領域１１１において、「ステップの粒度」は、例えば、密、標準、疎などの中から選択され得るが、本発明はこれに限定されない。すなわち、「ステップの粒度」は、２つ以上の選択肢の中から選択されてもよい。また、領域１１２において、電子マニュアル内の各ステップのタイトルの文字数は、例えば、１０文字まで、１５文字まで、２０文字まで、３０文字までなどの中から選択されてもよいし、１０文字程度、１５文字程度、２０文字程度、３０文字程度などの中から選択されてもよいが、本発明はこれに限定されない。また、領域１１３において、電子マニュアル内の各ステップの説明文の文字数は、例えば、２５文字まで、５０文字まで、７５文字まで、１００文字まで、１２５文字まで、１５０文字までなどの中から選択されてもよいし、２５文字程度、５０文字程度、７５文字程度、１００文字程度、１２５文字程度、１５０文字程度などの中から選択されてもよいが、本発明はこれに限定されない。また、領域１１４において、電子マニュアル内の各ステップの説明文の言い回しは、例えば、ていねい、フランクなどの中から選択され得るが、本発明はこれに限定されない。また、領域１１５において、電子マニュアルの想定される閲覧者は、例えば、初心者、中級者、上級者などの中から選択され得るが、本発明はこれに限定されない。また、領域１１６において、電子マニュアル内の字幕の有無は、ありまたは無しの中から選択される。

領域１１１において、「ステップの粒度」を選択し、かつ、領域１１２において、電子マニュアル内の各ステップのタイトルの文字数を選択し、かつ、領域１１３において、電子マニュアル内の各ステップの説明文の文字数を選択し、かつ、領域１１４において、電子マニュアル内の各ステップの説明文の言い回しを選択し、かつ、領域１１５において、電子マニュアルの想定される閲覧者を選択し、かつ、領域１１６において、電子マニュアル内の字幕の有無を選択した後に、仮生成領域１１７を選択することによって、領域１１１～領域１１６の各々において選択された「１つ以上の動画に含まれる音声を複数のステップに変換するための条件」に基づいて電子マニュアルを仮生成することが可能であり、画面１１０から次の画面に遷移することが可能である。なお、仮生成領域１１７は、領域１１１～領域１１６の各々における選択が完了するまで、選択することができない状態であってもよい。

なお、図１Ｂに示される実施形態では、領域１１１において「ステップの粒度」を選択する例が説明されたが、本発明はこれに限定されない。例えば、領域１１１において、電子マニュアル内のステップの数（例えば、２、３、４、５、６、７、８、９、および１０のうちの１つ）を選択することが可能であってもよい。

図１Ｃは、ユーザ装置に表示される画面１２０の一例を示す。画面１２０は、仮生成された電子マニュアルを閲覧するためのプレビュー画面である。画面１２０は、図１Ｂに示される画面１１０内の仮生成領域１１７がユーザによって選択された際に、図１Ｂに示される画面１１０から遷移した画面の一例である。

図１Ｃに示される例では、画面１２０は、仮生成された電子マニュアルの概要を説明するための概要領域１２１と、複数のステップの各々を表示するためのステップ領域１２２と、電子マニュアルの仮生成をやり直すためのやり直し領域１２３と、仮生成された電子マニュアルの編集を実行するための編集開始領域１２４と、仮生成された電子マニュアルの本生成を実行するための本生成領域１２５とを含む。やり直し領域１２３、編集開始領域１２４、本生成領域１２５は、選択可能なように構成されている。

概要領域１２１に表示される仮生成された電子マニュアルの概要は、電子マニュアルの仮生成の前に入力されたものであってもよいし、電子マニュアルの仮生成時に自動的に生成されるものであってもよい。図１Ｃに示される例では、画面１２０には、複数のステップのうちの第１のステップと第２のステップと第３のステップの一部とが表示されているが、ユーザは、所定の操作（例えば、縦スクロール）によって、複数のステップのすべてを確認することが可能である。ユーザがやり直し領域１２３を選択することによって、画面１２０は図１Ｂの画面１１０に遷移し、ユーザは、１つ以上の動画に含まれる音声を複数のステップに変換するための条件の入力をやり直すことが可能である。また、ユーザが編集開始領域１２４を選択することによって、画面１２０は図１Ｄの画面１３０に遷移し、ユーザは、仮生成された電子マニュアルの編集作業を行うことが可能である。また、ユーザが本生成領域１２５を選択することによって、仮生成された電子マニュアルの本生成が実行される。

図１Ｃに示される例では、各ステップ領域１２２は、図１Ａの動画選択領域１０１において選択された１つ以上の動画から分割されたサブ動画または静止画を表示するための画像領域１２６と、ステップのタイトルを表示するためのタイトル領域１２７と、ステップの説明文を表示するための説明文領域１２８とを含む。画像領域１２６には、第１のステップの画像領域のように動画が表示されてもよいし、第２のステップの画像領域のように静止画が表示されてもよい。画像領域１２６に動画が表示される場合には、その画像領域１２６は、選択可能なように構成されており、画像領域１２６を選択するためのユーザ操作（例えば、タップ、クリック、ホバリング）に応じて動画を再生することが可能である。

画面１２０に表示されるステップの数、各ステップのタイトルの文字数、各ステップの説明文の文字数、および各ステップの説明文の言い回しは、図１Ｂの画面１１０の領域１１１～領域１１４の各々において選択された「１つ以上の動画に含まれる音声を複数のステップに変換するための条件」に従っている。また、各ステップの画像領域１２６に表示される動画内の字幕の有無は、図１Ｂの画面１１０の領域１１６において選択された「１つ以上の動画に含まれる音声を複数のステップに変換するための条件」に従っている。１つ以上の動画に含まれる音声は、口語調であり得る一方で、各ステップのタイトルおよび説明文は、文語調であり得る。

図１Ｄは、ユーザ装置に表示される画面１３０の一例を示す。画面１３０は、仮生成された電子マニュアルを編集するための画面である。画面１３０は、図１Ｃに示される画面１２０内の編集開始領域１２４がユーザによって選択された際に、図１Ｃに示される画面１２０から遷移した画面の一例である。

図１Ｄに示される例では、画面１３０は、動画を表示するための動画領域１３１と、府複数のステップのシーケンスを表示するためのステップシーケンス領域１３２と、１つ以上の動画を編集するためのインジケータを表示するためのインジケータ領域１３３と、１つ以上の動画を分割するための分割領域１３４と、仮生成された電子マニュアルの編集を終了するための編集終了領域１３５とを含む。分割領域１３４および編集終了領域１３５は、選択可能なように構成されている。

インジケータ領域１３３は、図１Ａの動画選択領域１０１において選択された１つ以上の動画のタイムラインを水平方向に表したものである。インジケータ領域１３３の左端部は、例えば、図１Ａの動画選択領域１０１において選択された１つ以上の動画の再生開始時間（すなわち、０分０秒）であり得、インジケータ領域１３３の右端部は、例えば、図１Ａの動画選択領域１０１において選択された１つ以上の動画の再生終了時間（例えば、Ｍ分Ｓ秒）であり得る。ここで、Ｍは０～５９の整数であり、Ｓは１～５９の整数である。

図１Ｄに示される例では、インジケータ領域１３３は、現在の再生位置を示す現在位置インジケータ１３６と、電子マニュアルの仮生成を実行したときに自動的に分割処理された動画の分割位置を示す分割位置インジケータ１３７と、仮生成された電子マニュアルのステップ間における分割候補の時間帯を示す分割候補時間帯インジケータ１３８と、電子マニュアルの仮生成を実行したときに所定の理由（例えば、所定の時間の間、画像に変化が表れない）で自動的に削除された動画の時間帯を示す削除時間帯インジケータ１３９とを含む。

現在位置インジケータ１３６が位置する場所に対応する再生時間における動画が、動画領域１３１に表示される。現在位置インジケータ１３６は、インジケータ領域１３３上を水平方向にスライドすることが可能である。ユーザは、分割領域１３４を選択すると、インジケータ領域１３３の位置に分割位置インジケータ１３７を設置することが可能であり、インジケータ領域１３３の位置で１つ以上の動画を分割することが可能である。

表示されている分割位置インジケータ１３７は、例えば、分割候補時間帯インジケータ１３８内において水平方向にスライドさせることが可能であり得、これにより、仮生成された電子マニュアルのステップ間における分割候補の時間帯において分割位置を調節することが可能である。なお、表示されている分割位置インジケータ１３７は、分割候補時間帯インジケータ１３８を超えて水平方向にスライドさせることが可能であってもよい。

図１Ｄに示される例では、ステップシーケンス領域１３２には、隣接するステップを結合するための結合インジケータ１４０を含む。結合インジケータ１４０の数は、インジケータ領域１３３内に表示されている分割位置インジケータ１３７の数に対応している。結合インジケータ１４０は、選択可能なように構成されている。ユーザは、結合インジケータ１４０を選択することによって、選択された結合インジケータ１４０は消滅し、隣接する２つのステップを結合し、１つのステップにすることが可能である。このとき、消滅した結合インジケータ１４０に対応する分割位置インジケータ１３７も消滅する。

ユーザは、削除時間帯インジケータ１３９に対して所定の操作を実行することによって、自動的に削除された動画を復活させることが可能である。

なお、図１Ａの動画選択領域１０１において複数の動画が選択された場合には、インジケータ領域１３３には、その複数の動画が連続して表示され得る。また、この場合、画面１３０には、複数の動画の順序を変更するための順序変更領域（図示せず）が表示されていており、インジケータ領域１３３において、ユーザによるその順序変更領域の選択に応じて複数の動画の順序変更を達成することが可能であってもよい。

このように、ユーザは、電子マニュアルのベースとなる１つ以上の動画を選択し、「１つ以上の動画に含まれる音声を複数のステップに変換するための条件」を入力することによって、電子マニュアル（例えば、ステップ構造型の電子マニュアル）を簡単に仮生成および本生成することが可能である。また、ユーザは、インジケータ領域１３３、現在位置インジケータ１３６、分割位置インジケータ１３７、分割候補時間帯インジケータ１３８、削除時間帯インジケータ１３９、および結合インジケータ１４０などをガイドとして、仮生成された電子マニュアルを簡単に編集することが可能である。

２．電子マニュアルの作成を支援するためのシステムの構成
図２は、電子マニュアルの作成を支援するためのシステム２００の構成の一例を示す。

図２に示される実施形態では、システム２００は、電子マニュアルの作成を支援するためのコンピュータシステム２１０と、ユーザ装置２２０_１～２２０_Ｎとを備える。コンピュータシステム２１０は、インターネット２３０を介して、ユーザ装置２２０_１～２２０_Ｎのそれぞれと通信することが可能なように構成されている。ユーザ装置２２０_１～２２０_Ｎは、電子マニュアルを作成することを希望するユーザによって操作され得る。ここで、Ｎは、１以上の整数である。

コンピュータシステム２１０は、電子マニュアルの作成を支援するためのプログラムを提供・管理する管理会社のための処理を実行する情報処理システムである。図２に示される実施形態では、コンピュータシステム２１０は、インターフェース部２１１と、１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含むプロセッサ部２１２と、メモリ部２１３とを備えている。コンピュータシステム２１０のハードウェア構成は、その機能を実現できる限りにおいて特に限定されず、単一のマシンで構成されていてもよく、複数台のマシンを組み合わせて構成されたものであってもよい。

インターフェース部２１１は、ユーザ装置２２０_１～２２０_Ｎのそれぞれとの通信を制御する。

メモリ部２１３には、処理を実行するために必要とされるプログラムやそのプログラムを実行するために必要とされるデータ等が格納されている。ここで、プログラムをどのようにしてメモリ部２１３に格納するかは問わない。例えば、プログラムは、メモリ部２１３にプリインストールされていてもよい。あるいは、プログラムは、インターネット２３０などのネットワークを経由してダウンロードされることによってメモリ部２１３にインストールされるようにしてもよいし、光ディスクやＵＳＢなどの記憶媒体を介してメモリ部２１３にインストールされるようにしてもよい。

プロセッサ部２１２は、コンピュータシステム２１０全体の動作を制御する。プロセッサ部２１２は、メモリ部２１３に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、コンピュータシステム２１０は、所望のステップを実行する装置として機能することが可能であり、コンピュータシステム２１０のプロセッサ部２１２は、所望の機能を達成する手段として動作することが可能である。

図２に示される実施形態では、コンピュータシステム２１０は、データベース部２４０に接続されている。データベース部２４０には、例えば、仮生成を経て本生成された電子マニュアルが格納され得る。

ユーザ装置２２０_１は、インターネット２３０を介して、コンピュータシステム２１０と通信することが可能なように構成されている。図２に示される実施形態では、ユーザ装置２２０_１は、インターフェース部２２１と、プロセッサ部２２２と、メモリ部２２３と、表示部２２４と、入力（例えば、音、選択（例えば、タップ、クリック）による入力など）を受信するための入力部２２５とを備えている。ユーザ装置２２０_１は、例えば、出力（例えば、音など）を出力するための出力部（図示せず）などをさらに備えていてもよい。ユーザ装置２２０_１は、携帯電話、スマートフォン、タブレット端末等の携帯無線端末であってもよいし、ラップトップＰＣ、ノートＰＣ等のパーソナルコンピュータであってもよい。ユーザ装置２２０_１のインターフェース部２２１、プロセッサ部２２２、およびメモリ部２２３の構成は、コンピュータシステム２１０のインターフェース部２１１、プロセッサ部２１２、およびメモリ部２１３と同様であるため、ここではその詳細な説明を省略する。メモリ部２２３には、電子マニュアルのベースとなり得る１つ以上の動画が格納されている。ユーザ装置２２０_２～２２０_Ｎについても同様である。

なお、図２に示される実施形態では、ユーザ装置２２０_１～２２０_Ｎのそれぞれがインターネット２３０を介してコンピュータシステム２１０と通信可能であると説明したが、本発明はこれに限定されない。インターネット２３０の代わりに任意のタイプのネットワークを用いることも可能である。

また、図２に示される実施形態では、データベース部２４０は、コンピュータシステム２１０の外部に設けられているが、本発明はこれに限定されない。データベース部２４０をコンピュータシステム２１０の内部に設けることも可能である。データベース部２４０の構成は、特定のハードウェア構成には限定されない。例えば、データベース部２４０は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部２４０は、コンピュータシステム２１０の単一の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。

３．コンピュータシステムにおいて実行される処理
図３は、コンピュータシステム２１０において実行される処理の一例を示す。図３に示される各ステップは、例えば、コンピュータシステム２１０のプロセッサ部２１２によって実行される。以下、図３に示される各ステップを説明する。

ステップＳ３０１：１つ以上の動画が特定される。コンピュータシステム２１０は、１つ以上の動画を、例えば、ユーザ装置２２０_１から受信し、これにより、１つ以上の動画を特定することが可能である。特定された１つ以上の動画は、例えば、ユーザ装置２２０_１を操作するユーザが電子マニュアルのベースとすることを希望する動画である。この処理は、例えば、図１Ａの動画選択領域１０１に対する操作に対応し得る。

このとき、コンピュータシステム２１０は、入力言語（すなわち、１つ以上の動画に含まれる音声の言語）および出力言語（すなわち、電子マニュアルの仮生成および本生成における電子マニュアルの言語）を設定するための入力を受信してもよい。この処理は、例えば、図１Ａの入力言語設定領域１０２および出力言語設定領域１０３に対する操作に対応し得る。コンピュータシステム２１０が、入力言語を設定するための入力を受信することにより、ステップＳ３０８における構造化テキストの精度を向上させることが可能である。また、コンピュータシステム２１０が、出力言語を設定するための入力を受信することにより、入力言語と同じ言語でも入力言語と異なる言語でも電子マニュアルを作成することが可能である。

ステップＳ３０２：ステップＳ３０１において受信された１つ以上の動画に音声が含まれているか否かが判定される。１つ以上の動画に含まれる音声は、電子マニュアルの手順を示す音声であり得る。判定結果が「Ｙｅｓ」の場合には、処理はステップＳ３０７に進み、判定結果が「Ｎｏ」の場合には、処理はステップＳ３０３に進む。

ステップＳ３０３：ステップＳ３０１において受信された１つ以上の動画に音声が含まれていないことを警告するための処理が実行される。この処理は、例えば、コンピュータシステム２１０が、１つ以上の動画に音声が含まれていない旨を示す警告をユーザ装置２２０_１に送信してその警告をユーザ装置２２０_１上で提示することによって、達成されてもよいし、コンピュータシステム２１０が、１つ以上の動画に音声が含まれていない旨を示す警告音の信号をユーザ装置２２０_１に送信してその警告音をユーザ装置２２０_１上で発することによって、達成されてもよい。

ステップＳ３０４：音声を入力する旨を示すユーザ入力を受信したか否かが判定される。音声を入力する旨を示すユーザ入力は、例えば、ユーザ装置２２０_１から受信され得る。判定結果が「Ｙｅｓ」の場合には、処理はステップＳ３０６に進み、判定結果が「Ｎｏ」の場合には、処理はステップＳ３０５に進む。

ステップＳ３０５：電子マニュアルを作成できない旨を提示するための処理が実行される。この処理は、例えば、コンピュータシステム２１０が、電子マニュアルを作成できない旨を示す情報をユーザ装置２２０_１に送信してその情報をユーザ装置２２０_１上で提示することによって、達成されてもよい。

ステップＳ３０６：音声の入力を受信したか否かが判定される。音声の入力は、例えば、ユーザ装置２２０_１から受信され得る。音声の入力は、例えば、事前に録音した音声が入力されることによって達成されてもよいし、１つ以上の動画をユーザ装置２２０_１上で再生することと並行して音声がレコーディングされることによって達成されてもよい。判定結果が「Ｙｅｓ」の場合には、処理はステップＳ３０７に進み、判定結果が「Ｎｏ」の場合には、処理はステップＳ３０６に戻る。

ステップＳ３０７：１つ以上の動画に含まれる音声を複数のステップに変換するための条件が特定される。複数のステップに変換するための条件は、少なくとも、ステップの数の制限を含み、これは、図１Ｂの領域１１１に対する操作に対応し得る。また、複数のステップに変換するための条件は、タイトルの文字数の制限（例えば、電子マニュアル内の各ステップのタイトルの文字数の制限）および／または説明文の文字数の制限（例えば、電子マニュアル内の各ステップの説明文の文字数の制限）をさらに含み得、これは、図１Ｂの領域１１２および領域１１３に対する操作に対応し得る。また、複数のステップに変換するための条件は、説明文の言い回しの制限（例えば、電子マニュアル内の各ステップの説明文の言い回しの制限）および／または電子マニュアルの想定される閲覧者をさらに含み得、これは、図１Ｂの領域１１４および領域１１５に対する操作に対応し得る。

ステップＳ３０８：電子マニュアルの複数のステップの構成するための構造化テキストが生成される。構造化テキストは、１つ以上の動画に含まれる音声を複数のステップに変換するための条件に基づいて、ステップＳ３０１において特定された１つ以上の動画に含まれる音声から、生成される。構造化テキストは、複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む。構造化テキストに含まれる複数のステップのそれぞれのタイトルは、例えば、図１Ｃの画面１２０内のタイトル領域１２７における記載に対応し得る。構造化テキストに含まれる複数のステップのそれぞれの説明文は、例えば、図１Ｃの画面１２０内の説明文領域１２８における記載に対応し得る。構造化テキストは、例えば、人工知能（例えば、ＣｈａｔＧＰＴ）を用いて生成されてもよい。コンピュータシステム２１０は、構造化テキスト（特に、構造化テキストに含まれる複数のステップのそれぞれのタイトルまたは説明文）を入力言語から出力言語に変換することが可能なように構成されている。これにより、１つ以上の動画に含まれる音声の入力言語が電子マニュアルの出力言語と異なる場合においても、コンピュータシステム２１０は、設定された出力言語で構造化テキストを生成することが可能である。

なお、コンピュータシステム２１０は、構造化テキストを、１つ以上の動画に含まれる音声を複数のステップに変換するための条件に基づいて、１つ以上の動画に含まれる音声から直接生成してもよい。あるいは、コンピュータシステム２１０は、１つ以上の動画に含まれる音声を文字起こしすることによって、１つ以上の動画に含まれる音声をテキストに変換し、その変換されたテキストと、１つ以上の動画に含まれる音声を複数のステップに変換するための条件とに基づいて、構造化テキストを生成してもよい。

ステップＳ３０９：１つ以上の動画が、複数のサブ動画または静止画に分割される。この処理は、ステップＳ３０１において特定された１つ以上の動画と、ステップＳ３０８において生成された構造化テキストとに少なくとも基づいて、実行される。この処理は、コンピュータシステム２１０が、例えば、構造化テキストに基づいて、動画内のシーンの切り替わりのタイミングを特定することと、シーンの切り替わりのタイミングに基づいて１つ以上の動画を分割することによって複数のサブ動画または静止画を生成することとを行うことによって、達成され得る。シーンの切り替わりのタイミングの特定は、例えば、構造化テキストに基づいて、構造化テキストの内容の切れ目を特定することと、構造化テキストの切れ目に対応する音声内のタイミングをシーンの切り替わりのタイミングとして特定することによって、達成されてもよい。構造化テキストの内容の切れ目は、例えば、複数のステップのステップ間に存在し得る。

コンピュータシステム２１０は、例えば、１つ以上の動画の画像変化の大きいタイミングを特定することと、音声の切れ目のタイミングを特定することと、画像変化の大きいタイミングとシーンの切り替わりのタイミングと音声の切れ目のタイミングとが一致するタイミングで、１つ以上の動画を分割することとを行うことによって、１つ以上の動画から複数のサブ動画または静止画を生成してもよい。１つ以上の動画の画像変化の大きいタイミングは、例えば、動画の表示面積に対して画像が変化した面積が所定の閾値を超えるタイミングであり得る。音声の切れ目のタイミングは、例えば、１つ以上の動画に含まれる音声が無音である時間帯が所定の時間長さを超えて存在するタイミングであり得る。

コンピュータシステム２１０は、例えば、１つ以上の動画と、構造化テキストとに少なくとも基づいて、１つ以上の動画を複数の候補サブ動画に分割することと、複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を特定することと、その候補サブ動画に基づいてその候補サブ動画を静止画に変換することとを行うことによって、１つ以上の動画を複数のサブ動画または静止画に分割することを達成してよい。候補サブ動画を静止画に変換することは、例えば、候補サブ動画の一部を静止画としてキャプチャすることによって、達成され得る。

ステップＳ３１０：電子マニュアルが仮生成される。この処理は、ステップＳ３０８において生成された構造化テキストと、ステップＳ３０９において生成された複数のサブ動画または静止画とに基づいて、実行される。この処理は、電子マニュアルの仮生成を要求するユーザ入力をユーザ装置２２０_１から受信したことに応答して、実行され得る。この処理は、例えば、図１Ｂの仮生成領域１１７に対する操作に対応し得る。仮生成された電子マニュアルは、１つ以上の動画に含まれていた音声を含まなくてもよい。なお、仮生成された電子マニュアルの言語は、図１Ａの入力言語設定領域１０２および出力言語設定領域１０３における言語設定に応じて、入力言語から出力言語に変更され得る。１つ以上の動画に含まれる音声の入力言語が電子マニュアルの出力言語と異なる場合には、仮生成された電子マニュアルの言語は、例えば機械翻訳などによって、変更され得る。また、構造化テキスト（特に、構造化テキストに含まれる複数のステップのそれぞれのタイトルまたは説明文）が出力言語に変換されている場合には、コンピュータシステム２１０は、複数のステップのそれぞれの出力言語に変換されたタイトルまたは説明文と、ステップＳ３０９において生成された複数のサブ動画または静止画とに基づいて、電子マニュアルを仮生成することが可能である。

ステップＳ３１１：電子マニュアルの本生成を実行するためのユーザ入力を受信したか否かが判定される。電子マニュアルの本生成を実行するためのユーザ入力は、例えば、ユーザ装置２２０_１から受信され得る。判定結果が「Ｙｅｓ」の場合には、処理はステップＳ３１２に進み、判定結果が「Ｎｏ」の場合には、処理はステップＳ３１１に戻る。

ステップＳ３１２：電子マニュアルの本生成が実行される。これにより、電子マニュアルが完成する。なお、本生成される電子マニュアルは、図１Ａの出力言語設定領域１０３における言語設定に応じて、出力され得る。電子マニュアルの本生成を実行するとき、コンピュータシステム２１０は、ステップＳ３０８において生成された構造化テキストを読み上げるための音声データを生成してもよい。これにより、完成した電子マニュアルの自動読み上げを実現することが可能である。また、ステップＳ３０８において生成された構造化テキストを読み上げるための音声データを多言語で生成することによって、１つ以上の動画に含まれる音声の言語にかかわらず、多言語で電子マニュアルを提供することを実現することが可能である。

図４は、コンピュータシステム２１０において実行される処理の他の一例を示す。図４に示される各ステップは、例えば、コンピュータシステム２１０のプロセッサ部２１２によって実行される。図４に示される各ステップは、図３のステップＳ３１１の後かつステップＳ３１２の前の任意のタイミングにおいて、仮生成された電子マニュアルの編集を行うための処理の一例を示す。以下、図４に示される各ステップを説明する。

ステップＳ４０１：仮生成された電子マニュアルを編集することを希望することを示すユーザ入力が受信される。仮生成された電子マニュアルを編集することを希望することを示すユーザ入力は、例えば、ユーザ装置２２０_１から受信され得る。この処理は、例えば、図１Ｃの編集開始領域１２４に対する操作に対応し得る。

ステップＳ４０２：仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯が特定される。分割候補の時間帯内において、ユーザは、仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整することが可能であり得る。分割候補の時間帯は、例えば、ステップＳ３０８において生成された構造化テキストと、１つ以上の動画に含まれる音声とに基づいて、特定される。具体的には、コンピュータシステム２１０は、例えば、ステップＳ３０８において生成された構造化テキストに基づいて、複数のステップの各ステップに対応する音声の再生時間を特定し、各ステップに対応する音声の再生時間に基づいて、分割候補の時間帯を特定してもよい。例えば、分割候補の時間帯は、あるステップに対応する音声の再生時間の終了時点と次のステップに対応する音声の再生時間の開始時点との間の時間帯全体であってもよいし、あるステップに対応する音声の再生時間の終了時点と次のステップに対応する音声の再生時間の開始時点との間のある時点から所定の範囲内の時間帯であってもよい。

ステップＳ４０３：仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯を提示するための処理が実行される。この処理は、例えば、コンピュータシステム２１０が、仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯を示す情報をユーザ装置２２０_１に送信してその情報をユーザ装置２２０_１上で提示することによって、達成されてもよい。この処理は、例えば、図１Ｄの画像１３０をユーザ装置２２０_１に表示することに対応し得る。これにより、ユーザは、仮生成された電子マニュアルの編集作業を開始することが可能である。

ステップＳ４０４：仮生成された電子マニュアルを編集するためのユーザ入力が受信されたか否かが判定される。仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、ユーザ装置２２０_１から受信され得る。この処理は、例えば、図１Ｄの画像１３０上での操作に対応し得る。判定結果が「Ｙｅｓ」の場合には、処理はステップＳ４０５に進み、判定結果が「Ｎｏ」の場合には、処理はステップＳ４０６に進む。

仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整するためのユーザ入力を含む。これは、図１Ｄの分割位置インジケータ１３７に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、１つ以上の動画を分割するためのユーザ入力をさらに含み得る。これは、図１Ｄの分割領域１３４に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、自動的に削除された動画を復活させるためのユーザ入力をさらに含み得る。これは、図１Ｄの削除時間帯インジケータ１３９に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、隣接するステップを結合するためのユーザ入力をさらに含み得る。これは、図１Ｄの結合インジケータ１４０に対する操作に対応し得る。

ステップＳ４０５：仮生成された電子マニュアルを編集するためのユーザ入力に応じて、仮生成された電子マニュアルの編集が実行される。例えば、仮生成された電子マニュアルを編集するためのユーザ入力が、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整するためのユーザ入力である場合には、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置の調整が実行される。

ステップＳ４０６：仮生成された電子マニュアルの編集を終了するためのユーザ入力を受信したか否かが判定される。仮生成された電子マニュアルの編集を終了するためのユーザ入力は、例えば、ユーザ装置２２０_１から受信され得る。この処理は、例えば、図１Ｄの編集終了領域１３５に対する操作に対応し得る。

ＣｈａｔＧＰＴを用いて構造化テキストを生成する場合の実施例を以下に説明する。

例えば、１つ以上の動画に含まれる音声が「まず設定アプリを開きます。設定アプリを開いた後、左側のメニューの下の方にある一般管理を開きます。で、右側のメニューにあるテキストの読み上げをタップします。その次に、優先エンジンの隣にある歯車アイコンをタップします。で、すでにインストールされている言語が右側下の方に並んでいて、その中に言語がない場合には音声データをインストールをタップします。で、この中でインストールされていない言語をタップすると、こちらのようにインストールを促す画面が出ますので、インストールボタンを押します。でインストールが完了すると完了を知らせるこのような画面が出ます。以上で、音声データのインストール方法は終わります。」であるとする。「ステップの数が５０まで」、「タイトルの文字数が５０文字まで」、および「説明文の文字数が２００文字まで」という条件の下、ＣｈａｔＧＰＴを用いると、この音声から、以下の出力文が構造化テキストとして出力される。

上記の出力文において、「ステップ〇：・・・」は、各ステップのタイトルを表し、「説明」は、各ステップの説明文を表す。また、「ベーステキスト」は、各ステップに対応する音声をテキスト化したものを意味する。上述された音声の例では、構造化テキストは、７つのステップを含む。

構造化テキストを生成するとき、複数のステップの各ステップと、各ステップに対応する音声の再生時間との間の対応関係は、維持および／または記録されている。上述された音声の例において、ステップ１のベーステキスト「まず設定アプリを開きます。」は、１つ以上の動画に含まれる音声の再生時間０分０秒～０分１８秒に対応し、ステップ２のベーステキスト「左側のメニューの下の方にある一般管理を開きます。」は、音声の再生時間０分１９秒～０分２３秒に対応し、ステップ３のベーステキスト「テキストの読み上げをタップします。」は、音声の再生時間０分２４秒～０分３０秒に対応し、ステップ４のベーステキスト「優先エンジンの隣にある歯車アイコンをタップします。」は、音声の再生時間０分３２秒～０分３８秒に対応し、ステップ５のベーステキスト「すでにインストールされている言語が右側下の方に並んでいて、その中に言語がない場合には音声データをインストールをタップします。で、この中でインストールされていない言語をタップします」は、音声の再生時間０分４０秒～０分４８秒に対応し、ステップ６のベーステキスト「インストールされていない言語をタップすると、こちらのようにインストールを促す画面が出ますので、インストールボタンを押します。」は、音声の再生時間０分５０秒～１分０２秒に対応し、ステップ７のベーステキスト「インストールが完了すると完了を知らせるこのような画面が出ます。」は、音声の再生時間１分０４秒～１分１５秒に対応するとする。この場合、例えば、構造化テキストのステップ１が音声の再生時間「０分０秒～０分１８秒」に対応し、かつ、構造化テキストのステップ２が音声の再生時間「０分１９秒～０分２３秒」に対応するため、コンピュータシステム２１０は、ステップ１とステップ２との間の分割候補の時間帯を、「０分０秒～０分１８秒」と「０分１９秒～０分２３秒」との間の「０分１８秒～０分１９秒」と特定することが可能であり、電子マニュアルの仮生成を実行するときには、ステップ１とステップ２との間における動画の分割位置を分割候補の時間帯「０分１８秒～０分１９秒」の中で決定することが可能である。ステップ２とステップ３との間の分割候補の時間帯、ステップ３とステップ４との間の分割候補の時間帯、ステップ４とステップ５との間の分割候補の時間帯、ステップ５とステップ６との間の分割候補の時間帯、およびステップ６とステップ７との間の分割候補の時間帯についても同様である。

コンピュータシステム２１０は、ステップ１とステップ２との間における動画の分割位置を分割候補の時間帯「０分１８秒～０分１９秒」の中で決定するとき、例えば、その分割位置を分割候補の時間帯「０分１８秒～０分１９秒」の中央に自動的に決定してもよいし、その分割位置を分割候補の時間帯「０分１８秒～０分１９秒」の中からランダムで決定してもよい。他の分割候補の時間帯についても同様である。

なお、図３～図４に示される実施形態では、コンピュータシステム２１０が図３～図４に示される各ステップの処理を実行する例が説明されたが、本発明はこれに限定されない。例えば、図３～図４に示される各ステップの処理は、コンピュータシステム２１０に替えて、例えば、ユーザ装置２２０_１（特に、ユーザ装置２２０_１のプロセッサ部２２２）によって実行されてもよい。この場合、ユーザ装置２２０_１は、図３のステップＳ３０１において、ユーザ装置２２０_１のメモリ部２２３内に記憶されている複数の動画のうちの１つ以上の動画が図１Ａの動画選択領域１０１において選択されることによって、電子マニュアルのベースとなるべき１つ以上の動画を特定することが可能であり、図３のステップＳ３０７において、図１Ｂの領域１１１～領域１１６の各々において「１つ以上の動画に含まれる音声を複数のステップに変換するための条件」が選択されることによって、複数のステップに変換するための条件を特定することが可能である。また、ユーザ装置２２０_１は、図３のステップＳ３０４およびステップＳ３１１と、図４のステップＳ４０６とにおいて、ユーザ装置２２０_１の入力部２２５を介してユーザ入力を受信する。

なお、図３～図４に示される実施形態では、メモリ部に格納されたプログラムをプロセッサ部が実行することによって、図３～図４に示される各ステップの処理が実現される例を説明したが、本発明はこれに限定されない。図３～図４に示される各ステップのうちの少なくとも一部の処理が制御回路などのハードウェア構成によって実現されてもよい。

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

本発明は、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラム等を提供することにより、電子マニュアルの作成に必要な時間および労力を低減するものとして有用である。

２００システム
２１０コンピュータシステム
２２０_１～２２０_Ｎユーザ装置
２３０インターネット
２４０データベース部

Claims

電子マニュアルの作成を支援するためのコンピュータシステムであって、前記コンピュータシステムは、
１つ以上の動画を受信する手段と、
複数のステップに変換するための条件を示す情報を受信する手段と、
前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割する手段と、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成する手段と
を備える、コンピュータシステム。
前記条件は、ステップの数の制限を含む、請求項１に記載のコンピュータシステム。
前記条件は、タイトルの文字数の制限および／または説明文の文字数の制限をさらに含む、請求項２に記載のコンピュータシステム。
前記１つ以上の動画に含まれる音声は、前記電子マニュアルの手順を示す音声である、請求項１に記載のコンピュータシステム。
前記仮生成された電子マニュアルは、前記１つ以上の動画に含まれる音声を含まない、請求項４に記載のコンピュータシステム。
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数の候補サブ動画に分割することと、
前記複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を、前記候補サブ動画に基づいて静止画に変換することと
を含む、請求項１に記載のコンピュータシステム。
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、
前記構造化テキストに基づいて、シーンの切り替わりのタイミングを特定することと、
前記シーンの切り替わりのタイミングに基づいて前記１つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成すること
を含む、請求項１に記載のコンピュータシステム。
前記構造化テキストに基づいて、前記シーンの切り替わりのタイミングを特定することは、
前記構造化テキストに基づいて、前記構造化テキストの内容の切れ目を特定することと、
前記構造化テキストの切れ目に対応する前記音声内のタイミングを前記シーンの切り替わりのタイミングとして特定することと
を含む、請求項７に記載のコンピュータシステム。
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することは、
前記１つ以上の動画の画像変化の大きいタイミングを特定することと、
前記音声の切れ目のタイミングを特定することと、
前記画像変化の大きいタイミングと前記シーンの切り替わりのタイミングと前記音声の切れ目のタイミングとが一致するタイミングで、前記１つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することと
をさらに含む、請求項７に記載のコンピュータシステム。
前記条件に基づいて、前記１つ以上の動画に含まれる音声から、前記構造化テキストを生成することは、
前記１つ以上の動画に含まれる音声を文字起こしすることによって、前記音声をテキストに変換することと、
前記音声から変換されたテキストと、前記条件とに基づいて、前記構造化テキストを生成することと
を含む、請求項１に記載のコンピュータシステム。
前記コンピュータシステムは、
前記仮生成された電子マニュアルを編集することを希望することを示す第１のユーザ入力を受信する手段と、
前記第１のユーザ入力を受信したことに応答して、前記仮生成された電子マニュアルのステップ間における分割候補の時間帯を特定する手段であって、前記分割候補の時間帯内において、ユーザは、前記仮生成された電子マニュアルのステップ間の分割位置を調整することができる、ことと、
前記分割候補の時間帯を提示する手段と、
前記分割候補の時間帯内における前記仮生成された電子マニュアルのステップ間の分割位置を調整するための第２のユーザ入力を受信する手段と、
前記第２のユーザ入力に基づいて、前記仮生成された電子マニュアルを編集する手段と
をさらに備える、請求項１に記載のコンピュータシステム。
前記分割候補の時間帯を特定することは、前記構造化テキストと、前記１つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することを含む、請求項１１に記載のコンピュータシステム。
前記構造化テキストと、前記１つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することは、
前記構造化テキストに基づいて、前記複数のステップの各ステップに対応する前記音声の再生時間を特定することと、
各ステップに対応する前記音声の再生時間に基づいて、前記分割候補の時間帯を特定することと
を含む、請求項１１に記載のコンピュータシステム。
前記コンピュータシステムは、
前記電子マニュアルの本生成を実行するための第３のユーザ入力を受信する手段と、
前記第３のユーザ入力を受信したことに応答して、前記電子マニュアルの本生成を実行する手段と
をさらに備える、請求項１に記載のコンピュータシステム。
前記コンピュータシステムは、
前記１つ以上の動画が音声を含むか否かを判定する手段と、
前記１つ以上の動画が音声を含まないと判定される場合に、前記１つ以上の動画に音声が含まれていないことをユーザに警告する手段と
をさらに備える、請求項１に記載のコンピュータシステム。
前記１つ以上の動画に含まれる音声は、口語調であり、前記タイトルおよび前記説明文は、文語調である、請求項１に記載のコンピュータシステム。
前記コンピュータシステムは、前記構造化テキストを読み上げるための音声データを生成する手段をさらに備える、請求項１に記載のコンピュータシステム。
前記コンピュータシステムは、
入力言語および出力言語を設定するための入力を受信する手段と、
前記構造化テキストに含まれる前記複数のステップのそれぞれの前記タイトルまたは前記説明文の言語を前記入力言語から前記出力言語に変換する手段と
を備え、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することは、前記複数のステップのそれぞれの前記出力言語に変換された前記タイトルまたは前記説明文と、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することを含む、請求項１に記載のコンピュータシステム。
電子マニュアルの作成を支援するためのコンピュータシステムにおいて実行されるプログラムであって、前記コンピュータシステムは、前記コンピュータシステムの動作を制御するプロセッサ部を備え、
前記プログラムは、前記プロセッサ部によって実行されると、
１つ以上の動画を受信することと、
複数のステップに変換するための条件を示す情報を受信することと、
前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することと、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することと
を前記プロセッサ部に少なくとも行わせる、プログラム。
電子マニュアルの作成を支援するためのプログラムであって、前記プログラムは、ユーザ装置上で実行され、前記ユーザ装置は、前記ユーザ装置の動作を制御するプロセッサ部を備え、
前記プログラムは、前記プロセッサ部によって実行されると、
１つ以上の動画を特定することと、
複数のステップに変換するための条件を示す情報を特定することと、
前記条件に基づいて、前記１つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、
前記１つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記１つ以上の動画を複数のサブ動画または静止画に分割することと、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することと
を前記プロセッサ部に少なくとも行わせる、プログラム。