JP2020514936A

JP2020514936A - 音声キャリアのテキストを迅速に挿入する方法およびデバイス

Info

Publication number: JP2020514936A
Application number: JP2020500951A
Authority: JP
Inventors: ▲鉞▼▲堅▼ 区; 志▲軍▼ 黄; 延平高
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Priority date: 2017-03-20
Filing date: 2018-03-19
Publication date: 2020-05-21
Also published as: EP3605356A1; US20200097528A1; SG11201908754YA; EP3605356A4; CN108628815A; WO2018171561A1

Abstract

本願の実施形態は、音声キャリアのテキストを迅速に挿入する方法および装置であって、この方法は、編集対象文書を開くステップと、音声取得命令をユーザから得るステップと、音声取得命令に従って関心のある音声を得るステップと、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識するステップと、そのテキストを編集対象文書に移動させるステップと、を含む。本願の実施形態の方法を適用することにより、作業効率を向上できる。【選択図】図１

Description

本願は、参照により、そのすべてが本明細書に組み込まれている２０１７年３月２０日に中華人民共和国国家知的財産局に出願した「音声キャリアのテキストを迅速に挿入する方法およびデバイス」との名称の中国特許出願第２０１７１０１６５７５７．Ｘ号の優先権を主張するものである。

本願は、電子文書編集の分野に関し、詳細には、音声キャリアのテキストを迅速に挿入する方法および装置に関する。

ユーザがコンピュータまたは携帯電話などの端末デバイスで文書編集を行うために文書編集ソフトウェアを使用する場合には、会議記録に対応するテキスト、および動画の一部の音声に対応するテキストなど、音声キャリア中の音声に対応するテキストを文書に挿入する必要がある。既存の方法では、既存の音声認識プログラムを起動して音声キャリア中の音声に対応するテキストを認識する必要があり、その後に認識したテキストをコピーして編集対象文書にペーストする。

従来技術では、音声キャリア中の音声に対応するテキストを編集対象文書に挿入するために、複数のソフトウェアおよびプログラムを手動で起動する必要があり、音声認識後に得られたテキストを手作業でコピーして編集対象文書にペーストするため、作業効率が低いことが分かる。

他の解決策では、ユーザは、音声キャリア中の音声に対応するテキストを文書に挿入する必要がある場合に、その音声キャリア中の音声に対応するテキストを、手作業でタイプして編集対象文書に追加するが、これは非効率である。

本願の実施形態の目的は、作業効率を向上できる、音声キャリアのテキストを迅速に挿入する方法および装置を提供することである。具体的な技術的解決策は、以下の通りである。

本願の実施形態は、音声キャリアのテキストを迅速に挿入する方法であって、
編集対象文書を開くステップと、
ユーザから音声取得命令を得るステップと、
音声取得命令に従って関心のある音声を得るステップと、
第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識するステップと、
このテキストを編集対象文書に移動させるステップと、を含む方法を開示する。

任意選択で、音声取得命令は、
既存の音声を選択する命令、を含む。

任意選択で、音声取得命令に従って関心のある音声を得るステップは、
音声取得命令が既存の音声を選択する命令である場合、関心のある音声として既存の音声キャリアを選択するステップ、を含む。

任意選択で、音声取得命令は、
既存の音声を抽出する命令、を含む。

任意選択で、音声取得命令に従って関心のある音声を得るステップは、
音声取得命令が既存の音声を抽出する命令である場合に、既存の音声キャリアファイルを取得するステップと、
音声キャリアファイル中の音声開始点および音声終了点を取得するステップと、
音声キャリアファイル中の音声開始点と音声終了点との間の音声セグメントを、関心のある音声として抽出するステップと、を含む。

任意選択で、音声キャリアファイル中の音声開始点および音声終了点を取得するステップは、
マウスカーソルの位置を用いて決定された音声キャリアファイル中の音声開始点および音声終了点を取得するステップ、または
タッチスクリーンカーソルの位置を用いて決定された音声キャリアファイル中の音声開始点および音声終了点を取得するステップ、を含む。

任意選択で、音声取得命令は、
オーディオ入力デバイスを用いて音声を記録する命令、を含む。

任意選択で、音声取得命令に従って関心のある音声を得るステップは、
音声取得命令がオーディオ入力デバイスを用いて音声を記録する命令である場合、オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用するステップ、を含む。

任意選択で、テキストを編集対象文書に移動させるステップは、
テキストを編集対象文書中の挿入位置に移動させるステップを含み、挿入位置は、マウスカーソルの位置、またはタッチスクリーンカーソルの位置である。

任意選択で、この方法は、テキストを編集対象文書に移動させた後に、
そのテキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正するステップをさらに含み、フォーマットは、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む。

本願の実施形態は、さらに、音声キャリアのテキストを迅速に挿入する装置であって、
編集対象文書を開く構成とされた開モジュールと、
音声取得命令をユーザから得る構成とされた命令取得モジュールと、
音声取得命令に従って関心のある音声を得る構成とされた音声取得モジュールと、
第１の文書編集ソフトウェアで関心のある音声に対応するテキストを認識する構成とされた認識モジュールと、
そのテキストを編集対象文書に移動させる構成とされたテキスト移動モジュールと、を含む装置を開示する。

任意選択で、音声取得命令は、
既存の音声を選択する命令、である。

任意選択で、音声取得モジュールは、特に、
音声取得命令が既存の音声を選択する命令である場合、関心のある音声として、既存の音声キャリアファイルを選択する構成とされる。

任意選択で、音声取得モジュールは、
音声取得命令が既存の音声を抽出する命令である場合、既存の音声キャリアファイルを取得する構成とされたファイル取得サブモジュールと、
音声キャリアファイル中の音声開始点および音声終了点を取得する構成とされた間隔取得サブモジュールと、
音声キャリアファイル中の音声開始点と音声終了点との間の音声セグメントを、関心のある音声として抽出する構成とされた抽出サブモジュールと、を含む。

任意選択で、間隔取得サブモジュールは、特に、
マウスカーソルの位置を用いて決定された音声キャリアファイル中の音声開始点および音声終了点を取得、または
タッチスクリーンカーソルの位置を用いて決定された音声キャリアファイル中の音声開始点および音声終了点を取得する構成とされる。

任意選択で、音声取得モジュールは、特に、
音声取得命令がオーディオ入力デバイスを用いて音声を記録する命令である場合、オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用する構成とされる。

任意選択で、テキスト移動モジュールは、特に、
テキストを編集対象文書中の挿入位置に移動させる構成とされ、挿入位置は、マウスカーソルの位置、またはタッチスクリーンカーソルの位置である。

任意選択で、この装置は、
テキストを編集対象文書に移動させた後に、そのテキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正する構成とされたフォーマット修正モジュールをさらに含み、フォーマットは、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む。

本願の実施形態は、さらに、プロセッサおよびメモリを備え、
メモリは、コンピュータプログラムを記憶する構成とされ、
プロセッサは、メモリに記憶されたプログラムを実行した場合、音声キャリアのテキストを迅速に挿入する上記の方法のいずれかを実施する構成とされる、電子デバイスを開示する。

本願の実施形態は、さらに、コンピュータ可読ストレージ媒体であって、コンピュータプログラムを記憶し、そのコンピュータプログラムは、プロセッサにて実行されると、音声キャリアのテキストを迅速に挿入する上記の方法のうちのいずれかを実施する、コンピュータ可読ストレージ媒体を開示する。

本願の実施形態は、実行された場合に、音声キャリアのテキストを迅速に挿入する上記の方法のうちのいずれかを実施する実行可能プログラムコードも開示する。

本願の実施形態にて提供される、音声キャリアのテキストを迅速に挿入する方法および装置は、まず、編集対象文書を開く。次に、ユーザからの音声取得命令を得る。音声取得命令に従って関心のある音声を得る。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを編集対象文書に追加する。本願の実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストを自動的に認識して挿入する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業でコピーしてペーストする従来技術、または関心のある音声に対応するテキストを手作業でタイプして挿入する従来技術と比較して、本実施形態は、作業効率を向上させる。

当然に、本願の製品または方法はいずれも、必ずしも上述したすべての利点を同時に実現する必要があるわけではない。

本願の実施形態および従来技術の技術的解決策をより明確に説明するために、以下、実施形態および従来技術で使用される図面について簡単に説明する。以下の図面は、本願の一部の実施形態にすぎず、当業者は、これら図面に基づいて、創造的な努力を全く必要とすることなく他の図面を同様に得ることができることは明らかである。

本願の実施形態に係る、音声キャリアのテキストを迅速に挿入する方法を示す概略フローチャートである。本願の実施形態に係る、音声キャリアファイルのプレビューインタフェースを示す概略図である。図１に示す方法に基づく実施形態を示す概略フローチャートである。図１に示す方法に基づく別の実施形態を示す概略フローチャートである。図１に示す方法に基づくさらに別の実施形態を示す概略フローチャートである。本願の実施形態に係る、音声キャリアのテキストを迅速に挿入する装置を示す概略構造図である。図６に示す装置に基づく実施形態を示す概略構造図である。図６に示す装置に基づく別の実施形態を示す概略構造図である。本願の実施形態に係る、電子デバイスを示す概略構造図である。

本願の目的、技術的解決策ならびに利点をより明確にするために、以下で、本願について、添付の図面および実施形態を参照してより詳細に説明する。記載する実施形態は、本願の実施形態の全てではなく、一部に過ぎないことは明らかである。本願の実施形態に基づいて、創造的な労力を全く必要とすることなく当業者にて得られるその他のすべての実施形態は、本願の保護範囲に含まれる。

本願の実施形態は、作業効率を向上できる、音声キャリアのテキストを迅速に挿入する方法および装置を開示する。

本願の実施形態は、音声キャリアのテキストを迅速に挿入する方法であって、音声取得命令をユーザから得るステップと、音声取得命令に従って関心のある音声を得るステップと、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識するステップと、第１の文書編集ソフトウェアで、そのテキストを編集対象文書に追加するステップとを含む方法を開示する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストを自動的に認識して挿入することが分かる。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業でコピーしてペーストする従来技術、または関心のある音声に対応するテキストを手作業でタイプして挿入する従来技術と比較して、本実施形態は、作業効率を向上させる。

図１は、本願の本実施形態に係る、音声キャリアのテキストを迅速に挿入する方法を示すフローチャートである。この方法は、以下のステップを含む。

ステップ１０１、編集対象文書を開く。

本願の本実施形態では、既に開いている文書がない場合、第１の文書編集ソフトウェアを使用して、文書を編集対象文書として開くことができる。既に開いている文書がある場合は、ステップ１０１を実行する必要はない。

本願の本実施形態は、端末デバイスのプロセッサにて実行され、この端末は、コンピュータ、携帯電話、タブレットコンピュータ、および電子文書を編集できるデバイスなどを含む。

第１の文書編集ソフトウェアは、ＫｉｎｇｓｏｆｔｏｆｆｉｃｅソフトウェアのＷＰＳＯｆｆｉｃｅなど、電子文書を編集するために端末デバイスにインストールされているソフトウェアである。本願の本実施形態の各ステップが、第１の文書編集ソフトウェアで完了されたり、ステップ１０２からステップ１０３が他のソフトウェアにて実施されたりする。

本願の本実施形態の第１の文書編集ソフトウェアは、音声抽出機能と音声認識機能とを含み得る。例えば、第１の文書編集ソフトウェアは、音声抽出プログラムと一体化されることもあり、選択した間隔の音声を音声抽出プログラムでの抽出もできる。また、第１の文書編集ソフトウェアは、音声認識プログラムとも一体化でき、音声に対応するテキストを音声認識プログラムでも認識できる。

ステップ１０２、ユーザから音声取得命令を得る。

本願の本実施形態では、既存の音声を選択、既存の音声を抽出、オーディオ入力デバイスを使用して音声を記録するなど、音声を取得する複数の方法を提供できる。それに応じて、音声取得命令は、記憶されている音声キャリアファイルから関心のある音声として１つまたは複数の音声キャリアファイルを選択する選択命令、関心のある音声として音声キャリアファイルから音声セグメントを抽出する抽出命令、あるいは関心のある音声として音声を記録する記録命令であり得る。

本願の本実施形態は、第１の文書編集ソフトウェアにユーザ選択ウィンドウを予め確立し、上述の複数の音声取得方法のオプションをユーザが選択できるように提供し、次いで、ユーザにて行われる音声取得方法のオプション上でのクリック動作を取得できる。

なお、本願の本実施形態におけるステップ１０１およびステップ１０２は、順序が固定されていないことにも留意されたい。すなわち、本願の本実施形態は、第１の文書編集ソフトウェアを使用して編集対象文書を開いた後に、ユーザから音声取得命令を取得でき、このケースは、通常は、編集対象文書が最初に編集され、その後に関心のある音声が取得されるシナリオに当てはまる。これに加えて、第１の文書編集ソフトウェアを使用してユーザからの音声取得命令を取得した後に、編集対象文書を開くこともでき、このケースは、通常は、関心のある音声を含むキャリアが既知であり、関心のある音声に対応するテキストを最初に取得する必要があるシナリオに当てはまる。このシナリオでは、複数の編集対象文書を開いて、関心のある音声に対応するテキストを、その複数の編集対象文書に挿入できる。本願の本実施形態におけるステップ１０１とステップ１０２の順序は、ユーザの使用習慣または特定の使用シナリオによって決まる。

ステップ１０３、音声取得命令に従って関心のある音声を得る。

いくつかの場合には、関心のある音声は、既存の電子キャリア中に存在または端末デバイスに記憶された電子キャリア中に存在することがあり、この電子キャリアは、端末デバイス内に存在する音楽、映像、または記録などの音声キャリアファイルであり得る。関心のある音声を含む既存の電子キャリアについて、音声取得命令は、関心のある音声として会議の記録ファイルを選択するなど、関心のある音声として既存の音声キャリアファイルを直接取得する、既存の音声を選択する命令とできる。音声取得命令は、関心のある音声として動画内の音声を抽出するなど、関心のある音声として既存の音声キャリアファイルの部分的セグメントを抽出する、既存の音声を抽出する命令でもある。

他の場合には、関心のある音声は、存在しない電子キャリア中に存在する、あるいは屋外で放送される音声またはテレビジョンで再生されるテレビジョン番組中の音声など、端末デバイスに記憶されていない電子キャリア中に存在することがある。この場合には、ユーザは、関心のある音声の電子キャリアを取得できない、または取得することが容易ではない。したがって、本実施形態によれば、この状況では、音声取得命令は、オーディオ入力デバイスを使用して音声を記録する命令であることがあり、関心のある音声は、マイクロフォンなど、様々なオーディオ入力デバイスにて記録できる。例えば、マイクロフォンを使用して、テレビジョンで再生されているテレビジョン番組の音声をも記録できる。

本願の本実施形態における関心のある音声は、さらに幅広いソースからのものであり、したがって不変性が高まっていることが分かる。

ステップ１０４、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。

例えば、第１の文書編集ソフトウェアに一体化された音声認識プログラムを使用して、関心のある音声に対応するテキストを認識でき、ここで、この音声認識プログラムは、音声に対応するテキストを認識する既存の様々なプログラムであり得る。本願の本実施形態では、プログラムインタフェースを第１の文書編集ソフトウェアに事前設定して、複数の音声認識プログラムの置換を容易にできる。

ステップ１０５、テキストを編集対象文書中に移動させる。

ステップ１０５では、第１の文書編集ソフトウェアでテキストを編集対象文書に追加できる。

本願の本実施形態では、認識したテキストを編集対象文書に追加するが、編集対象文書中の事前設定された固定位置、または無作為の位置にも追加できるし、あるいはユーザが設定した編集対象文書中の挿入位置にも追加できる。

このテキスト追加方法では、音声認識中にテキストを追加できる。すなわち、ある単語が認識されたら、その単語が直ちに編集対象文書に追加される。この同期追加方法は、認識された単語をユーザが可能な限り早く使用または編集するために有利である。または、本願の本実施形態では、関心のある音声に対応する全ての単語が認識された後に、テキストが全体として追加される。この全体追加方法は、関心のある音声に対応するテキストの完全性を維持するために有利であり、関心のある音声に対応するテキストの全内容を使用および編集することにより適している。

テキストを編集対象文書に追加する具体的な追加方法は、スライド、スクロール、およびビートなど、複数の方法の可能性がある。本願の本実施形態は、テキストを追加する具体的な方法を限定するものではない。本願の本実施形態におけるテキストを編集対象文書に追加する具体的な方法は、コピー、ペースト、およびドラッグなどの手作業で移動させる動作の代わりに、関心のある音声に対応する認識されたテキストの編集対象文書への自動挿入を実現できる。

したがって、本願の本実施形態は、認識されたテキストをユーザが編集対象文書に手作業でコピーしてペーストすることを防止でき、自動挿入を実現でき、したがって作業効率を向上できる。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する方法では、最初に編集対象文書を開くことが分かる。次に、ユーザからの音声取得命令を得る。次いで、音声取得命令に従って、関心のある音声を得る。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを、編集対象文書に追加する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、関心のある音声を取得でき、関心のある音声に対応するテキストを認識して、編集対象文書に追加して、関心のある音声に対応するテキストの認識、および編集対象文書への自動挿入を実現できる。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、テキストを自動的に認識して挿入する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業でコピーしてペーストする従来技術、または関心のある音声に対応するテキストを手作業でタイプして挿入する従来技術と比較して、本本実施形態は、作業効率を向上させる。

以下は、本願の本実施形態の実施プロセスの一例である。図２は、本願の本実施形態に係る音声キャリアファイルのプレビューインタフェースを示す概略図である。具体的には、ユーザは、文書編集ソフトウェアを使用して文書を編集する場合、音声キャリアファイルも聞いている。図２に示す音声キャリアファイルのプレビューインタフェースの概略図に示すように、この音声の一部は、図２の間隔ＡＢの音声を指している、関心のある音声と仮定する。ユーザは、この関心のある音声に対応するテキストを編集対象文書に挿入しようとしている。従来技術の何らかの解決策を使用する場合には、最初に音声キャリアファイルに対応するテキスト全体を認識するために音声認識ソフトウェアまたはプログラムが必要であり、その後、ユーザが、認識されたテキスト内の間隔ＡＢの音声に対応するテキストを検索し、最後に、対応するテキストを編集対象文書に手作業でコピーしてペーストする。このプロセス中には、文書編集ソフトウェア、音声認識ソフトウェアまたはプログラムを開く必要があり、音声キャリアファイルに対応するテキストがすべて認識された後に、ユーザが必要なテキストを手作業で選択してコピーするため、作業効率が低い。従来技術の他の解決策を使用する場合にも、ユーザは間隔ＡＢの音声に対応するテキストを取得するために手作業で単語をタイプする必要があり、作業効率が低い。

本願の本実施形態の方法によれば、第１の文書編集ソフトウェアが文書を編集する構成とされた場合に、ユーザからの音声取得命令を取得できる。例えば、第１の文書編集ソフトウェアで複数のオプションをユーザに提供することもでき、これらの複数のオプションが、記憶されたファイルを選択することで関心のある音声を取得、音声ファイルを抽出することで関心のある音声を取得、またはオーディオ入力デバイスにて関心のある音声を記録するなど、関心のある音声を取得する複数の方法に対応することがある。様々なオプション上でのユーザのクリック動作に従って、ユーザにて選択された関心のある音声を取得する方法が決定され、ユーザにて選択された関心のある音声を取得する方法に従って関心のある音声が取得される。

音声ファイルを抽出する方法が採用された場合には、音声キャリアファイルは、予め開いていることも、あるいは音声取得命令を受信した後に開かれることもある。第１の文書編集ソフトウェアに一体化された音声抽出プログラムを使用して、音声キャリアファイル内で、間隔ＡＢの音声を関心のある音声として取得する。

具体的に、本願の本実施形態では、ユーザが音声キャリアファイルを聞いている場合に、点Ａにおけるユーザのマウスのクリック動作を最初に取得し、次いで、点Ｂにおけるユーザのマウスのクリック動作を取得する。抽出対象の音声間隔が、ＡとＢとの間の間隔であると決定した後に、第１の文書編集ソフトウェアに一体化された音声抽出プログラムを使用して、その間隔ＡＢの音声を関心のある音声として抽出する。次いで、第１の文書編集ソフトウェアに一体化された音声認識プログラムを使用して、関心のある音声に対応するテキストを認識する。言い換えると、間隔ＡＢの音声に対応するテキストが認識される。最後に、間隔ＡＢの音声に対応する認識されたテキストを、第１の文書編集ソフトウェアで編集対象文書に追加する。本願の本実施形態では、プロセス全体を完了するために第１の文書編集ソフトウェアしか使用せず、音声キャリアファイルの音声の一部について、対応するテキストを自動的に認識し、編集対象文書に挿入でき、それにより作業効率を向上できる。

図３は、図１に示す方法に基づく実施形態を示すフローチャートであり、この方法は、以下のステップを含む。

ステップ３０１、編集対象文書を開く。

本願の本実施形態では、既に開いている文書がない場合に、第１の文書編集ソフトウェアを使用して、文書を編集対象文書として開くことができる。既に開いている文書がある場合には、ステップ３０１を実行する必要はない。

本願の本実施形態は、第１の文書編集ソフトウェアを使用して編集対象文書を開く。具体的には、端末デバイスが、ユーザにて実行される第１の文書編集ソフトウェアのアイコン上でのクリック動作、ユーザにて実行される編集対象文書のアイコン上でのクリック動作、およびユーザからの音声操作命令など、文書を開く命令をユーザから受け取る。端末デバイスのプロセッサは、この文書を開く命令に従って編集対象文書を開く。

例えば、文書を開く命令が、ユーザにて実行される第１の文書編集ソフトウェアのアイコン上でのクリック動作の場合には、これに従って、端末デバイスのプロセッサが、最初に第１の文書編集ソフトウェアを開き、次いで、ユーザにて実行される文書を選択する動作を取得するなど、文書を選択する命令をユーザから受け取り、最後に、文書を編集対象文書として開く。

例えば、文書を開く命令が、ユーザにて実行される編集対象文書のアイコン上でのクリック動作の場合には、これに従って、端末デバイスのプロセッサが、第１の文書編集ソフトウェアを使用して編集対象文書を開く。

例えば、文書を開く命令が、例えば「ファイル１」という名称の文書を開く音声操作命令など、ユーザからの音声操作命令である場合には、これに従って、端末デバイスのプロセッサが、「ファイル１」という名称の文書を発見し、第１の文書編集ソフトウェアを使用して、「ファイル１」という名称の文書を編集対象文書として開くなど行う。

本願の本実施形態に係る編集対象文書を開く方法は、複数であってもよく、また互いに組み合わせることもできるが、本明細書では詳述しない。

ステップ３０２、ユーザから既存の音声を選択する命令を得る。

ステップ３０２は、具体的には、ユーザから選択命令を取得する。

本願の本実施形態では、第１の文書編集ソフトウェアに事前設定されたユーザ選択ウィンドウにオプションを提供して、ユーザが記憶されている音声ファイルを選択することで関心のある音声を取得でき得る。ユーザにて実行されるオプション上でのクリック動作を検出した場合には、ユーザの音声取得命令を取得したと考えられる。このオプションは、第１の編集ソフトウェアのツールメニューバーの選択ウィンドウ、または第１の編集ソフトウェアのツールメニューバーの外部のユーザダイアログウィンドウ内に位置する可能性がある。

なお、本願の本実施形態におけるステップ３０１およびステップ３０２は、順序が固定されていないことに留意されたい。すなわち、本願の本実施形態では、第１の文書編集ソフトウェアを使用して編集対象文書を開いた後に、ユーザからの既存の音声を選択する命令を取得したり、第１の文書編集ソフトウェアを使用してユーザからの既存の音声を選択する命令を取得したりした後に、編集対象文書を開く。この２つの順序は、ユーザの習慣または特定の使用シナリオによって決まる。

ステップ３０３、関心のある音声として既存の音声キャリアを得る。

ステップ３０３は、具体的には、選択命令に従って、記憶されている音声キャリアファイルから１つまたは複数の音声キャリアファイルを関心のある音声として選択することである。

本願の本実施形態では、ユーザの端末デバイスに記憶された音声キャリアを、関心のある音声として選択できる。ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）、ＷＭＡ（Ｍｉｃｒｏｓｏｆｔ社にて導入された新たなオーディオフォーマットであるＷｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ）、Ｍｉｃｒｏｓｏｆｔ社にて開発された音声ファイルフォーマットであるＷＡＶ、ＦＬＡＣ（ＦｒｅｅＬｏｓｓｌｅｓｓＡｕｄｉｏＣｏｄｅｃ）、ＯＧＧ（新たなオーディオ圧縮フォーマットであるＯＧＧＶｏｂｉｓ）、またはＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）など、複数のオーディオフォーマットの音声キャリアファイルを、関心のある音声として選択できる。あるいは、ＡＶＩ（ＡｕｄｉｏＶｉｄｅｏＩｎｔｅｒｌｅａｖｅｄ）、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ）、ＷＭＶ、またはＲＭＶＢ（ＲｅａｌＭｅｄｉａＶａｒｉａｂｌｅＢｉｔｒａｔｅ、ＲＭ）など、複数のビデオフォーマットの音声キャリアファイルを、関心のある音声として選択もできる。様々な音声キャリアファイルは、ユーザのコンピュータ内の動画、ユーザの携帯電話内の記録などである。あるいは、他の端末デバイスに存在する音声キャリアファイルを、インターネット、ローカルエリアネットワーク、またはＢｌｕｅｔｏｏｔｈ（登録商標）などを使用して、関心のある音声として取得もできる。

ステップ３０４、第１の文書編集ソフトウェアで関心のある音声に対応するテキストを認識する。

本願の本実施形態では、第１の文書編集ソフトウェアの音声認識プログラムを使用して、関心のある音声に対応するテキストを認識する。

ステップ３０５、テキストを編集対象文書中の挿入位置に移動させる。

ステップ３０５は、具体的には、第１の文書編集ソフトウェアでテキストを編集対象文書中の挿入位置に追加する。

例えば、端末デバイスが、汎用デスクトップコンピュータなど、マウスを使用する端末デバイスの場合には、得られる挿入位置は、マウスカーソルの位置であり、端末デバイスが、一般に使用されるタッチスクリーン型携帯電話など、タッチスクリーンを使用する端末デバイスの場合には、得られる挿入位置は、タッチスクリーンカーソルの位置である。

本願の本実施形態は、確認プロセスを提供することもできる。例えば、ユーザダイアログウィンドウを提供して、ユーザの誤操作を回避するように、ユーザに挿入位置を確認するように促す。次いで、関心のある音声に対応するテキストを編集対象文書中の挿入位置に追加する。

テキストを追加し、テキストを編集対象文書に移動させる具体的な方法は、ステップ１０５に示す通りにすればよいので、本明細書では繰り返し述べない。

本願の本実施形態では、ステップ３０１の後、すなわちステップ３０１で編集対象文書を開いた後に、挿入位置を得ることもでき、本願の本実施形態では、挿入位置として、マウスカーソルの位置、またはタッチスクリーンカーソルの位置を検出できる。本願の本実施形態は、さらに、ユーザダイアログウィンドウを設定して、ユーザの誤操作を回避するようにユーザに挿入位置を確認するように促すなど、検出後に確認プロセスを提供することもできる。次いで、ステップ３０５で、関心のある音声に対応するテキストを、編集対象文書中の挿入位置に直接追加する。

テキストを編集対象文書中の挿入位置に追加した後に、本願の本実施形態の方法は、ステップ３０６、すなわちテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正するステップをさらに含む。

本願の本実施形態では、関心のある音声に対応するテキストを編集対象文書に追加した後に、編集対象文書中のオリジナルテキストのフォント、フォントサイズ、色、および行間隔のうちの１つまたは複数を含むフォーマットを最初に取得でき、次いで、関心のある音声に対応するテキストのフォーマットを、編集対象文書中のオリジナルテキストのフォーマットに一致するように修正して、ユーザの編集対象文書のテキストフォーマットを一貫させる。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する方法では、既存の音声を選択する命令をユーザから得、次に、関心のある音声として、既存の音声キャリアファイルを得ることが分かる。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、そのテキストを、編集対象文書中の挿入位置に追加し、テキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、既存の音声キャリアファイルを選択でき、音声に対応するテキストを自動的に認識して、編集対応文書中の挿入位置に挿入する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書中の挿入位置への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、認識されたテキストを手作業で選択してコピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本本実施形態は、作業効率を向上させる。

図４は、図１に示す方法に基づく別の実施形態を示すフローチャートであり、この方法は、以下のステップを含む。

ステップ４０１、編集対象文書を開く。

本願の本実施形態では、既に開いている文書がない場合に、第１の文書編集ソフトウェアを使用して、文書を編集対象文書として開くことができる。既に開いている文書がある場合には、ステップ４０１を実行する必要はない。

例えば、文書を開く命令が、例えば「ファイル１」という名称の文書を開く命令などの、ユーザからの音声操作命令である場合には、これに従って、端末デバイスのプロセッサが、「ファイル１」という名称の文書を発見し、第１の文書編集ソフトウェアを使用して、「ファイル１」という名称の文書を編集対象文書として開くなど行う。

本願の本実施形態における編集対象文書を開く方法は、複数であってもよく、また互いに組み合わせることもできるが、本明細書では詳述しない。

ステップ４０２、ユーザから既存の音声を抽出する命令を得る。

ステップ４０２は、具体的には、ユーザから抽出命令を取得することである。

本願の本実施形態では、第１の文書編集ソフトウェアに事前設定されたユーザ選択ウィンドウにオプションを提供して、ユーザが音声セグメントを抽出することで関心のある音声を取得でき得る。ユーザにて実行されるオプション上でのクリック動作を検出した場合には、ユーザの音声取得命令を取得したと考えられる。このオプションは、第１の編集ソフトウェアのツールメニューバーの選択ウィンドウ、または第１の編集ソフトウェアのツールメニューバーの外部のユーザダイアログウィンドウ内に位置する可能性がある。

なお、本願の本実施形態におけるステップ４０１およびステップ４０２は、順序が固定されていないことに留意されたい。すなわち、本願の本実施形態では、第１の文書編集ソフトウェアを使用して編集対象文書を開いた後に、ユーザから既存の音声を抽出する命令を取得したり、第１の文書編集ソフトウェアを使用してユーザから既存の音声を抽出する命令を取得したりした後に、編集対象文書を開く。この２つの順序は、ユーザの習慣または特定の使用シナリオによって決まる。

ステップ４０３、既存の音声キャリアファイルを取得する。

本願の本実施形態では、ユーザの端末デバイスに記憶された音声キャリアファイルを、関心のある音声として選択する、例えば、ユーザのコンピュータ内の動画、またはユーザの携帯電話内の記録など、ＭＰ３またはＲＭＶＢなどのフォーマットの音声キャリアファイルなどの既存のオーディオフォーマットおよびビデオフォーマットの音声キャリアファイルを、関心のある音声として選択できる。インターネット、ローカルエリアネットワーク、またはＢｌｕｅｔｏｏｔｈ（登録商標）などを使用して、他の端末デバイスから選択した既存の音声キャリアファイルを、関心のある音声として取得もできる。

ステップ４０４、音声キャリアファイル中の音声開始点および音声終了点を取得する。

ステップ４０３およびステップ４０４は、具体的には、抽出命令に従って、音声キャリアファイル中の音声開始点および音声終了点を取得する。

本願の本実施形態では、図２に示すように、音声キャリアファイルのプレビューインタフェースを提供できる。音声キャリアファイルのプレビューインタフェースで、ユーザは、音声キャリアファイルをプレビュー、すなわち聞くことができ、本願の本実施形態では、プレビューインタフェースで、ユーザにて選択された音声開始点Ａおよび音声終了点Ｂを取得する。端末デバイスの様々なタイプに応じて、本願の本実施形態では、それに対応する音声開始点および音声終了点を取得する方法を採用する。例えば、マウスを使用する端末デバイスでは、タッチスクリーンカーソルの位置を使用することで、音声キャリアファイル内で音声開始点および音声終了点を決定する。例えば、実行ホストがマウスを使用するデスクトップコンピュータの場合には、ユーザのマウスにて実行される点Ａ上でのクリック動作を取得でき、点Ａを音声開始点として使用し、マウスカーソルの位置にて決定される音声終了点Ｂを取得し、点Ｂを音声終了点として使用する。音声開始点Ａと音声終了点Ｂとの間の間隔内の音声を、関心のある音声として抽出する。

また、タッチスクリーンを使用する端末デバイスでは、タッチスクリーンカーソルの位置を使用することで、音声キャリアファイル内で音声開始点および音声終了点を決定する。例えば、実行ホストが通常はタッチスクリーンを備えるスマートフォンの場合には、ユーザの指またはその他のツールにて実行されるタッチスクリーンの点Ａ上でのクリック動作を最初に取得でき、点Ａを音声開始点として使用し、次いで、ユーザの指またはその他のツールにて実行されるタッチスクリーンの点Ｂ上でのクリック動作を取得でき、その点Ｂを音声終了点として使用し、音声開始点Ａと音声終了点Ｂとの間の間隔内の音声を、関心のある音声として抽出する。

確かに、音声開始点および音声終了点を取得した後に、本願の本実施形態は、確認プロセスをさらに提供し得る。例えば、ユーザダイアログウィンドウを設定して、ユーザの誤操作などを回避するように、ユーザに音声開始点および音声終了点を確認するように促す。

ステップ４０５、音声キャリアファイル中の音声開始点と音声終了点との間の音声セグメントを、関心のある音声として抽出する。

ステップ４０５は、具体的には、音声キャリアファイル中の音声開始点と音声終了点との間の音声セグメントを、関心のある音声として抽出する。

例えば、第１の文書編集ソフトウェアに一体化された音声抽出プログラムを使用して、図２の間隔ＡＢ内の音声を関心のある音声として抽出するなど、音声開始点と音声終了点との間の間隔内の音声を、関心のある音声として抽出できる。

ステップ４０６、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。

例えば、第１の文書編集ソフトウェアに一体化された音声認識プログラムを使用して、関心のある音声に対応するテキストを認識できる。

ステップ４０７、テキストを編集対象文書中の挿入位置に移動させる。

ステップ４０７は、具体的には、第１の文書編集ソフトウェアでテキストを編集対象文書中の挿入位置に追加する。

例えば、端末デバイスが、マウスを使用する端末デバイスの場合には、得られる挿入位置は、編集対象文書中のマウスカーソルの位置であることがあり、端末デバイスが、一般に使用されるタッチスクリーン型携帯電話など、タッチスクリーンを使用する端末デバイスの場合には、得られる挿入位置は、編集対象文書中のタッチスクリーンカーソルの位置である。

本願の本実施形態では、ステップ４０１の後、すなわちステップ４０１で編集対象文書を開いた後に、挿入位置を得ることもでき、本願の本実施形態では、挿入位置として、マウスカーソルの位置、またはタッチスクリーンカーソルの位置を検出できる。本願の本実施形態は、さらに、ユーザダイアログウィンドウを設定して、ユーザの誤操作を回避するようにユーザに挿入位置を確認するように促すなど、検出後に確認プロセスを提供することもできる。次いで、ステップ４０７で、関心のある音声に対応するテキストを、編集対象文書中の挿入位置に直接追加する。

テキストを編集対象文書中の挿入位置に追加した後に、本願の本実施形態の方法は、ステップ４０８、すなわちテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正するステップをさらに含む。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する方法では、既存の音声を抽出する命令をユーザから取得し、次いで、既存の音声キャリアファイルを取得することが分かる。音声キャリアファイル内で、音声開始点および音声終了点を取得し、音声開始点と音声終了点との間の音声セグメントを、関心のある音声として音声キャリアファイルから抽出する。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、そのテキストを、編集対象文書中の挿入位置に追加し、テキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、既存の音声キャリアファイルを選択でき、音声の必要な一部を、関心のある音声として抽出し、その関心のある音声に対応するテキストを自動的に認識し、編集対象文書中の挿入位置に追加する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書中の挿入位置への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業で選択してコピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本本実施形態は、作業効率を向上させる。

図５は、図１に示す方法に基づくさらに別の実施形態を示すフローチャートであり、この方法は、以下のステップを含む。

ステップ５０１、編集対象文書を開く。

本願の本実施形態では、既に開いている文書がない場合に、第１の文書編集ソフトウェアを使用して、文書を編集対象文書として開くことができる。既に開いている文書がある場合には、ステップ５０１を実行する必要はない。

例えば、文書を開く命令が、ユーザにて実行される第１の文書編集ソフトウェアのアイコン上でのクリック動作の場合には、これに従って、端末デバイスのプロセッサが、最初に第１の文書編集ソフトウェアを開き、次いで、ユーザにて実行される文書に対する選択動作を取得するなど、文書を選択する命令をユーザから受け取り、最後に、文書を編集対象文書として開く。

例えば、文書を開く命令が、ユーザにて実行される編集対象文書のアイコン上でのクリック動作の場合には、これに従って、端末デバイスのプロセッサが、第１の文書編集ソフトウェアを使用して、編集対象文書を開く。

例えば、文書を開く命令が、例えば「ファイル１」という名称の文書を開く命令などの、ユーザからの音声操作命令である場合には、これに従って、端末デバイスのプロセッサが、「ファイル１」という名称の文書を発見し、第１の文書編集ソフトウェアを使用して「ファイル１」という名称の文書を編集対象文書などとして開く。

ステップ５０２、オーディオ入力デバイスを使用して音声を記録する命令をユーザから得る。

ステップ５０２は、具体的には、オーディオ入力デバイスを使用して音声を記録し、記録した音声を関心のある音声として使用する。

本願の本実施形態では、第１の文書編集ソフトウェアに事前設定されたユーザ選択ウィンドウにオプションを提供して、ユーザがオーディオ入力デバイスにて音声を記録することを選択することで関心のある音声を取得でき得る。ユーザにて実行されるオプション上でのクリック動作を検出した場合には、ユーザの音声取得命令を取得したと考えられる。このオプションは、第１の編集ソフトウェアのツールメニューバーの選択ウィンドウ、または第１の編集ソフトウェアのツールメニューバーの外部のユーザダイアログウィンドウ内に位置する可能性がある。

なお、本願の本実施形態におけるステップ５０１およびステップ５０２は、順序が固定されていないことにも留意されたい。すなわち、本願の本実施形態では、第１の文書編集ソフトウェアを使用して編集対象文書を取得した後に、オーディオ入力デバイスを用いて音声を記録する命令をユーザから取得したり、オーディオ入力デバイスを用いて音声を記録するユーザからの命令を、第１の文書編集ソフトウェアを用いて取得したりした後に、編集対象文書を開くこともある。この２つの順序は、ユーザの習慣または特定の使用シナリオによって決まる。

ステップ５０３、オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用する。

本願の本実施形態では、ユーザの端末デバイス内のオーディオ入力デバイスを使用して、放送の音声、テレビジョン番組の音声、人の声を記録するなど、音声を、関心のある音声として記録できる。当然に、本願の本実施形態では、インターネット、ローカルエリアネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）を使用して、他のオーディオ入力デバイスに接続して、音声を関心のある音声として記録もできる。本実施形態では、記録される音声の持続時間、フォーマットは、要件に応じて設定でき、記録された音声を聞くための音声プレビューをも提供でき、環境ノイズをフィルタリングしたり、音声の明瞭度を改善したりするなど、様々な音声処理技術を使用して記録した音声を処理できる。

ステップ５０４、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。

ステップ５０５、テキストを編集対象文書中の挿入位置に移動させる。

ステップ５０５は、具体的には、第１の文書編集ソフトウェアでテキストを編集対象文書中の挿入位置に追加する。

例えば、端末デバイスが、マウスを使用する端末デバイスの場合には、得られる挿入位置は、編集対象文書中のマウスカーソルの位置であり、端末デバイスが、タッチスクリーンを使用する端末デバイスの場合には、得られる挿入位置は、編集対象文書中のタッチスクリーンカーソルの位置である。

テキストを追加し、テキストを編集対象文書に移動させる具体的な追加方法は、ステップ１０５に示す通りにすればよいので、本明細書では繰り返し述べない。

本願の本実施形態では、ステップ５０１の後、すなわちステップ５０１で編集対象文書を開いた後に、挿入位置を得ることもでき、本願の本実施形態では、挿入位置として、マウスカーソルの位置、またはタッチスクリーンカーソルの位置を検出できる。本願の本実施形態は、さらに、ユーザダイアログウィンドウを設定して、ユーザの誤操作を回避するようにユーザに挿入位置を確認するように促すなど、検出後に確認プロセスを提供することもできる。次いで、ステップ５０５で、関心のある音声に対応するテキストを、編集対象文書中の挿入位置に直接追加する。

テキストを編集対象文書中の挿入位置に追加した後に、本願の本実施形態の方法は、ステップ５０６、すなわちテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正するステップをさらに含む。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する方法では、オーディオ入力デバイスを用いて音声を記録する命令をユーザから得、次いで、オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用することが分かる。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、そのテキストを、編集対象文書中の挿入位置に追加し、テキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、オーディオ入力デバイスを使用して音声を記録でき、記録した音声を、関心のある音声として使用する。関心のある音声に対応するテキストを自動的に認識し、編集対象文書中の挿入位置に挿入する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書中の挿入位置への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業で選択してコピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本実施形態は、作業効率を向上させる。

図６は、本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する装置を示す概略構造図であり、この装置は、
編集対象文書を開く構成とされた開モジュール６０１と、
ユーザから音声取得命令を得る構成とされた命令取得モジュール６０２と、
音声取得命令に従って関心のある音声を得る構成とされた音声取得モジュール６０３と、
第１の文書編集ソフトウェアで関心のある音声に対応するテキストを認識する構成とされた認識モジュール６０４と、
上記テキストを編集対象文書に移動させる構成とされたテキスト移動モジュール６０５と、を含む。

テキスト移動モジュール６０５は、具体的には、第１の文書編集ソフトウェアでテキストを編集対象文書に追加する構成とされる。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する装置では、最初に編集対象文書を開くことが分かる。次に、ユーザからの音声取得命令を得る。音声取得命令に従って、関心のある音声を得る。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを編集対象文書に追加する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、関心のある音声を取得でき、関心のある音声に対応するテキストを認識して、編集対象文書に追加して、関心のある音声に対応するテキストの認識、および編集対象文書への自動挿入を実現できる。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、認識されたテキストの自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、認識されたテキストを手作業でコピーしてペーストする従来技術と異なり、本本実施形態は、作業効率を向上させる。

なお、本願の実施形態の装置は、音声キャリアのテキストを迅速に挿入する方法を実施する装置であり、音声キャリアのテキストを迅速に挿入する方法の全ての実施形態がこの装置に適用可能であり、両者は、同一または同様の有利な効果をもたらし得ることに留意されたい。

図６に基づき、図３に示す方法に対応する好ましい実施形態として、図７は、図６に示す装置に基づく実施形態を示す構造図であり、この実施形態は、
具体的には、選択命令に従って、記憶されている音声キャリアファイルから１つまたは複数の音声キャリアファイルを、関心のある音声として選択する構成とされた音声取得モジュール７０３を含み、本願の本実施形態では、音声取得命令は、選択命令である。

本願の本実施形態では、テキスト移動モジュール７０５は、具体的には、
テキストを編集対象文書中の挿入位置に追加する構成とされ、挿入位置は、編集対象文書中のマウスカーソルの位置、または編集対象文書中のタッチスクリーンカーソルの位置である。

本願の本実施形態の装置は、
テキストを編集対象文書に追加した後に、そのテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正する構成とされたフォーマット修正モジュール７０６をさらに含み、フォーマットは、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する装置では、最初に、第１の文書編集ソフトウェアで編集対象文書を開き、次に、ユーザから既存の音声を選択する命令を得、次いで、既存の音声キャリアファイルを関心のある音声として得ることが分かる。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを編集対象文書中の挿入位置に追加し、テキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、既存の音声キャリアファイルを選択でき、その音声に対応するテキストを自動的に認識して、編集対象文書中の挿入位置に挿入する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業で選択してコピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本実施形態は、作業効率を向上させる。

図６に基づき、図４に示す方法に対応する好ましい実施形態として、図８は、図６に示す装置に基づく別の実施形態を示す構造図であり、この実施形態は、
音声取得モジュール８０３を含み、本願の本実施形態では、音声取得命令は、抽出命令であり、この音声取得モジュール８０３は、
既存の音声キャリアファイルを取得する構成とされたファイル取得サブモジュール８０３１と、
音声キャリアファイル中の音声開始点および音声終了点を取得する構成とされた間隔取得サブモジュール８０３２と、
音声キャリアファイル中の音声開始点と音声終了点との間の音声セグメントを関心のある音声として抽出する構成とされた抽出サブモジュール８０３３と、を含む。

間隔取得サブモジュール８０３２は、具体的には、抽出命令に従って、音声キャリアファイル中の音声開始点および音声終了点を取得する構成とされる。

本願の本実施形態では、間隔取得サブモジュール８０３２は、具体的には、
マウスカーソルの位置に従って音声キャリアファイル中の音声開始点および音声終了点を決定、または
タッチスクリーンカーソルの位置に従って音声キャリアファイル中の音声開始点および音声終了点を決定する構成とされる。

本願の本実施形態では、テキスト移動モジュール８０５は、具体的には、
テキストを編集対象文書中の挿入位置に追加する構成とされ、この挿入位置は、編集対象文書中のマウスカーソルの位置、または編集対象文書中のタッチスクリーンカーソルの位置である。

本願の本実施形態は、
テキストが編集対象文書に追加された後に、そのテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正する構成とされたフォーマット修正モジュール８０６をさらに含み、ここで、フォーマットは、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する装置では、最初に、第１の文書編集ソフトウェアで編集対象文書を開き、次に、ユーザから既存の音声を抽出する命令を得、次いで、既存の音声キャリアファイルを得ることが分かる。音声キャリアファイル中で音声開始点および音声終了点を取得し、音声開始点と音声終了点との間の音声セグメントを、音声キャリア中で関心のある音声として抽出する。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを、編集対象文書中の挿入位置に追加し、テキストのフォーマットを、編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、既存の音声キャリアファイルを選択でき、音声の必要な一部分を、関心のある音声として抽出し、その関心のある音声に対応するテキストを自動的に認識し、編集対象文書中の挿入位置に追加する。本願の本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書中の挿入位置への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業で選択してコピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本実施形態は、作業効率を向上させる。

図６に基づき、図５に示す方法に対応する好ましい実施形態として、本願の本実施形態による装置は、
音声取得モジュールを含み、本願の本実施形態では、音声取得命令は、記録命令であり、音声取得モジュールは、具体的には、
オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用する構成とされる。

本願の本実施形態では、テキスト追加モジュールは、具体的には、
テキストを編集対象文書中の挿入位置に追加する構成とされ、ここで、挿入位置は、マウスカーソルの位置、またはタッチスクリーンカーソルの位置である。

本願の本実施形態は、
テキストを編集対象文書に追加した後に、そのテキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正する構成とされたフォーマット修正モジュールをさらに含み、フォーマットは、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む。

本願の本実施形態にて提供される音声キャリアのテキストを迅速に挿入する装置は、最初に、第１の文書編集ソフトウェアで編集対象文書を開き、次に、オーディオ入力デバイスを用いて音声を記録する命令をユーザから得、次いで、オーディオ入力デバイスを用いて音声を記録し、記録した音声を関心のある音声として使用することが分かる。次いで、第１の文書編集ソフトウェアで、関心のある音声に対応するテキストを認識する。最後に、このテキストを、編集対象文書中の挿入位置に追加し、テキストのフォーマットを編集対象文書中のテキストのフォーマットに合わせて修正する。本願の本実施形態では、第１の文書編集ソフトウェアで文書を編集する場合に、オーディオ入力デバイスを使用して音声を記録でき、記録した音声を、関心のある音声として使用する。関心のある音声に対応するテキストを、自動的に認識し、編集対象文書中の挿入位置に挿入する。本願の本本実施形態では、第１の文書編集ソフトウェアのみを使用して、関心のある音声に対応するテキストの編集対象文書への自動挿入を実現する。複数のソフトウェアおよびプログラムを起動する必要があり、関心のある音声に対応する認識されたテキストを手作業で選択し、コピーし、編集対象文書中の挿入位置にペーストする従来技術と異なり、本実施形態は、作業効率を向上させる。

本願の本実施形態は、さらに、図９に示すように、プロセッサ９０１およびメモリ９０２を含む電子デバイスを開示する。

メモリ９０２は、コンピュータプログラムを記憶する構成とされる。

プロセッサ９０１は、メモリ９０２に記憶されたプログラムを実行した場合に、音声キャリアのテキストを迅速に挿入する上記の方法のうちのいずれかを実施する構成とされる。

本願の本実施形態は、さらに、コンピュータ可読ストレージ媒体を開示し、コンピュータ可読ストレージ媒体は、コンピュータプログラムを記憶し、コンピュータプログラムは、プロセッサにて実行された場合に、音声キャリアのテキストを迅速に挿入する上記の方法のうちのいずれかを実施する。

本願の本実施形態は、また、実行された場合に音声キャリアのテキストを迅速に挿入する上記の方法のうちのいずれかを実施する実行可能プログラムコードも開示する。

「第１の」、「第２の」などの本明細書における関係語は、１つの実体または動作を別の実体または動作と区別するためにのみ用いられており、これらの実体または動作の間に任意の実際の関係または順序が存在することをあることを必ずしも必要とする、または意味するものではないことに留意されたい。さらに、「含む」、「備える」という用語、あるいはそれらの任意の変形には、一連の要素を備えたプロセス、方法、物品またはデバイスが、列挙されているこれらの要素だけでなく、明確には列挙されていない他の要素、あるいはこれらのプロセス、方法、物品またはデバイスに固有の要素を同様に備えるよう、非排他的な包含をカバーするものとして意図されている。さらに限定なしに、「１つ備える（ｃｏｍｐｒｉｓｅ（ｓ）ａ）」または「１つ含む（ｉｎｃｌｕｄｅ（ｓ）ａ）」という文章で定義される要素は、それらの要素を含むプロセス、方法、物品、またはデバイスに、同じ要素がその他にも存在することを排除しない。

本明細書の様々な実施形態を、互いに関連付けて説明した。それらの様々な実施形態の間で、同一または同様の部分は互いに参照できる。各実施形態は、他の実施形態との相違点に注目して説明した。具体的には、図６〜図８に示す認識したテキストを迅速に挿入する方法の実施形態、図９に示す電子デバイス実施形態、上述したコンピュータ可読ストレージ媒体の実施形態、および上述した実行可能プログラムコードの実施形態は、図１〜図５に示す音声キャリアのテキストを迅速に挿入する方法の実施形態と基本的に同様であるので、説明が比較的簡略であり、関連する部分については、図１から図５に示す音声キャリアのテキストを迅速に挿入する方法の実施形態の説明を参照すればよい。

上述した実施形態は、本願の単なる好ましい実施形態にすぎず、本願を限定するためのものではない。本願の趣旨および原理内で行われる任意の修正、等価な置換、改良などは、本願の保護範囲に含まれる。

Claims

音声キャリアのテキストを迅速に挿入する方法であって、
音声取得命令をユーザから得るステップと、
前記音声取得命令に従って関心のある音声を得るステップと、
第１の文書編集ソフトウェアで、前記関心のある音声に対応するテキストを認識するステップと、
前記第１の文書編集ソフトウェアで前記テキストを編集対象文書に追加するステップと、を含む、方法。
前記音声取得命令が、選択命令であり、
前記音声取得命令に従って関心のある音声を得るステップが、
前記選択命令に従って、前記関心のある音声として、記憶されている音声キャリアファイルから１つまたは複数の音声キャリアファイルを選択するステップ、を含む、
請求項１に記載の方法。
前記音声取得命令が、抽出命令であり、
前記音声取得命令に従って関心のある音声を得るステップが、
前記抽出命令に従って、音声キャリアファイル中の音声開始点および音声終了点を取得するステップと、
前記音声キャリアファイル中の前記音声開始点と前記音声終了点との間の音声セグメントを、前記関心のある音声として抽出するステップと、を含む、
請求項１に記載の方法。
前記抽出命令に従って、音声キャリアファイル中の音声開始点および音声終了点を取得するステップが、
マウスカーソルの位置を用いて、前記音声キャリアファイル中の前記音声開始点および前記音声終了点を決定するステップ、または
タッチスクリーンカーソルの位置を用いて、前記音声キャリアファイル中の前記音声開始点および前記音声終了点を決定するステップ、
を含む、請求項３に記載の方法。
前記音声取得命令が、記録命令であり、
前記音声取得命令に従って関心のある音声を得るステップが、
オーディオ入力デバイスを用いて音声を記録し、前記記録した音声を前記関心のある音声として使用するステップ、を含む、
請求項１に記載の方法。
前記第１の文書編集ソフトウェアにおいて前記テキストを編集対象文書に追加するステップが、
前記テキストを前記編集対象文書中の挿入位置に追加するステップを含み、
前記挿入位置が、マウスカーソルの位置、またはタッチスクリーンカーソルの位置である、
請求項１に記載の方法。
前記第１の文書編集ソフトウェアで前記テキストを前記編集対象文書に追加した後に、
前記テキストのフォーマットを、前記編集対象文書中のテキストのフォーマットに合わせて修正するステップをさらに含み、前記フォーマットが、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む、
請求項６に記載の方法。
音声キャリアのテキストを迅速に挿入する装置であって、
音声取得命令をユーザから得る構成とされた命令取得モジュールと、
前記音声取得命令に従って関心のある音声を得る構成とされた音声取得モジュールと、
第１の文書編集ソフトウェアで前記関心のある音声に対応するテキストを認識する構成とされた認識モジュールと、
前記第１の文書編集ソフトウェアで前記テキストを編集対象文書に追加する構成とされたテキスト移動モジュールと、を含む、装置。
前記音声取得命令が、選択命令であり、前記音声取得モジュールが、特に、前記選択命令に従って、前記関心のある音声として、記憶されている音声キャリアファイルから１つまたは複数の音声キャリアファイルを選択する構成とされる、
請求項８に記載の装置。
前記音声取得命令が、抽出命令であり、前記音声取得モジュールが、
前記抽出命令に従って、音声キャリアファイル中の音声開始点および音声終了点を取得する構成とされた間隔取得サブモジュールと、
前記音声キャリアファイル中の前記音声開始点と前記音声終了点との間の音声セグメントを、前記関心のある音声として抽出する構成とされた抽出サブモジュールと、を含む、
請求項８に記載の装置。
前記間隔取得サブモジュールが、特に、
マウスカーソルの位置を用いて、前記音声キャリアファイル中の前記音声開始点および前記音声終了点を決定、または
タッチスクリーンカーソルの位置を用いて、前記音声キャリアファイル中の前記音声開始点および前記音声終了点を決定する構成とされる、
請求項１０に記載の装置。
前記音声取得命令が、記録命令であり、前記音声取得モジュールが、特に、
オーディオ入力デバイスを用いて音声を記録し、前記記録した音声を前記関心のある音声として使用する構成とされる、
請求項８に記載の装置。
前記テキスト移動モジュールが、特に、
前記テキストを前記編集対象文書中の挿入位置に追加する構成とされ、前記挿入位置が、マウスカーソルの位置、またはタッチスクリーンカーソルの位置である、
請求項８に記載の装置。
前記デバイスが、
前記テキストを前記編集対象文書に追加した後に、前記テキストのフォーマットを前記編集対象文書中のテキストのフォーマットに合わせて修正する構成とされたフォーマット修正モジュールをさらに含み、前記フォーマットが、フォント、フォントサイズ、および行間隔のうちの１つまたは複数を含む、
請求項１３に記載の装置。
プロセッサと、メモリとを含み、
前記メモリが、コンピュータプログラムを記憶する構成とされ、
前記プロセッサが、前記メモリに記憶された前記プログラムを実行した場合に、請求項１から７のいずれか一項に記載の方法のステップを実施する構成とされる、電子デバイス。
コンピュータプログラムを記憶し、前記コンピュータプログラムがプロセッサにて実行された場合に、請求項１から７のいずれか一項に記載の方法のステップを実施する、コンピュータ可読ストレージ媒体。
実行された場合に、請求項１から７のいずれか一項に記載の方法のステップを実施する構成とされた、実行可能プログラムコード。