JP2023102137A

JP2023102137A - システム、通信端末、及び方法

Info

Publication number: JP2023102137A
Application number: JP2022002529A
Authority: JP
Inventors: 靖大天野; Yasuhiro Amano
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-24
Anticipated expiration: 2042-01-11
Also published as: JP7236570B1

Abstract

【課題】音声の文字起こしにおける字幕校正の内容学習の仕組みを備えるシステム、通信端末及び方法を提供する。【解決手段】システムは、文字起こしサーバ及び通信端末を備える。文字起こしサーバは、音声データを取得するデータ取得部と、機械学習により生成された学習モデルにデータ取得部が取得した音声データを入力して文字起こし結果を取得する文字起こし部と、文字起こし部が取得した文字起こし結果を通信端末に送信する文字起こし結果送信部と、校正結果に基づいて学習モデルを更新するモデル更新部と、を有する。通信端末は、文字起こし結果を表示部に表示させるよう制御する表示制御部と、表示部に表示された文字起こし結果に対する校正結果を取得する校正結果取得部と、校正結果を文字起こしサーバに送信する校正結果送信部と、を有する。【選択図】図２

Description

本発明は、システム、通信端末、及び方法に関する。

特許文献１には、ＡＶデータの編集を行うユーザが、ＡＶデータに含まれる音声のデータを、テキストのデータとしてＡＶデータに重畳させて表示させる操作を容易に行うことができるようにする技術について記載されている。
［先行技術文献］
［特許文献］
［特許文献１］特開２０２１－９３７１８号公報

本発明の一実施態様によれば、システムが提供される。システムは、文字起こしサーバ、及び通信端末を備えてよい。文字起こしサーバは、音声データを取得するデータ取得部を有してよい。文字起こしサーバは、音声データを入力とし、音声データを文字化した文字起こし結果を出力とする学習モデルに、データ取得部が取得した音声データを入力して、文字起こし結果を取得する文字起こし部を有してよい。文字起こしサーバは、文字起こし部が取得した文字起こし結果を通信端末に送信する文字起こし結果送信部を有してよい。通信端末は、文字起こし結果を表示部に表示させるよう制御する表示制御部を有してよい。通信端末は、表示部に表示された文字起こし結果に対する校正結果を取得する校正結果取得部を有してよい。通信端末は、校正結果を文字起こしサーバに送信する校正結果送信部を有してよい。文字起こしサーバは、校正結果に基づいて学習モデルを更新するモデル更新部を有してよい。

上記データ取得部は、動画データに含まれる上記音声データを取得してよい。上記文字起こし結果送信部は、上記動画データ及び上記文字起こし結果を上記通信端末に送信してよい。上記表示制御部は、上記文字起こし結果を上記動画データとともに上記表示部に表示させるよう制御してよい。上記表示制御部は、上記文字起こし結果を字幕として上記動画データとともに上記表示部に表示させるよう制御してよい。上記校正結果取得部は、上記字幕として表示された上記文字起こし結果に対する上記校正結果を取得してよい。

上記校正結果送信部は、校正後の上記文字起こし結果を含む上記校正結果を上記文字起こしサーバに送信してよい。上記文字起こしサーバは、校正前の上記文字起こし結果と校正後の上記文字起こし結果との差分が予め定められた条件を満たす場合に、上記校正結果を、機械学習に用いる学習用データとして記憶する学習用データ記憶部を有してよい。上記モデル更新部は、上記学習用データ記憶部に記憶されている上記校正結果に基づいて上記学習モデルを更新してよい。上記学習用データ記憶部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との差分を示す差分値が予め定められた閾値より低い場合に、上記校正結果を、上記機械学習に用いる上記学習用データとして記憶してよい。上記学習用データ記憶部は、校正前の上記文字起こし結果に対して、内容が追加されていないと判定した場合に、上記校正結果を、機械学習に用いる学習用データとして記憶してよい。上記校正結果送信部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との上記差分が予め定められた条件を満たす場合に、上記校正結果を上記文字起こしサーバに送信し、上記条件を満たさない場合、上記校正結果を上記文字起こしサーバに送信しなくてもよい。

上記校正結果取得部は、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との差分を検出し、上記差分を示す上記校正結果を取得してよい。上記通信端末は、上記表示部に表示された上記文字起こし結果に対する校正が完了したことを判定する完了判定部を有してよい。上記校正結果取得部は、上記完了判定部によって上記校正が完了したと判定されたことに応じて、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との上記差分を検出してよい。上記データ取得部は、動画データに含まれる上記音声データを取得してよい。上記文字起こし結果送信部は、上記動画データ及び上記文字起こし結果を上記通信端末に送信してよい。上記表示制御部は、上記文字起こし結果を字幕として上記動画データとともに上記表示部に表示させるよう制御してよい。上記完了判定部は、上記通信端末において校正された上記文字起こし結果を含む上記動画データのエンコードが開始されたことに応じて、上記校正が完了したと判定してよい。上記完了判定部は、上記表示部に表示された上記文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、上記校正が完了したと判定してよい。上記完了判定部は、上記通信端末において上記文字起こし結果のデータが上書き保存されたことに応じて、上記校正が完了したと判定してよい。

上記文字起こしサーバは、上記文字起こし部が取得した上記文字起こし結果と、上記学習モデルに入力した上記音声データとを対応付けて記憶する文字起こし内容記憶部を有してよい。上記モデル更新部は、上記文字起こし結果に対する上記校正結果と、上記文字起こし結果に対応する上記音声データとに基づいて、上記学習モデルを更新してよい。

本発明の一実施態様によれば、通信端末が提供される。通信端末は、文字起こしサーバから受信した、音声データを文字化した文字起こし結果を表示部に表示させるよう制御する表示制御部を備えてよい。上記通信端末は、上記表示部に表示された上記文字起こし結果と、校正された上記文字起こし結果との差分を検出し、上記差分を示す校正結果を取得する校正結果取得部を備えてよい。上記通信端末は、上記校正結果を上記文字起こしサーバに送信する校正結果送信部を備えてよい。

上記表示制御部は、上記文字起こしサーバから受信した、動画データに含まれる上記音声データを文字化した上記文字起こし結果を字幕として、上記動画データとともに上記表示部に表示させてよい。上記校正結果取得部は、字幕として表示された上記文字起こし結果と、校正された上記文字起こし結果との上記差分を示す校正結果を取得してよい。

上記校正結果送信部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との上記差分が予め定められた条件を満たす場合に、上記校正結果を上記文字起こしサーバに送信してよい。上記条件を満たさない場合、上記校正結果を上記文字起こしサーバに送信せずによい。

上記通信端末は、上記表示部に表示された上記文字起こし結果に対する校正が完了したことを判定する完了判定部を有してよい。上記校正結果取得部は、上記完了判定部によって上記校正が完了したと判定されたことに応じて、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との上記差分を検出してよい。

本発明の一実施態様によれば、コンピュータを、上記通信端末として機能させるためのプログラムが提供される。

本発明の一実施態様によれば、コンピュータを、上記通信端末として実行されるための方法が提供される。方法は、文字起こしサーバから、音声データを文字化した文字起こし結果を受信する受信段階を備えてよい。方法は、文字起こし結果を通信端末の表示部に表示させるよう制御する表示制御段階を備えてよい。方法は、表示部に表示された文字起こし結果と、校正された文字起こし結果との差分を検出し、差分を示す校正結果を取得する校正結果取得段階を備えてよい。方法は、校正結果を文字起こしサーバに送信する校正結果送信段階を備えてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

システム１の一例を概略的に示す。システム１による処理の流れの一例を概略的に示す。通信端末２０による校正結果取得処理の流れの一例を概略的に示す。文字起こしサーバ１０による学習モデル更新処理の流れの一例を概略的に示す。文字起こしサーバ１０の機能構成の一例を概略的に示す。通信端末２０の機能構成の一例を概略的に示す。学習用データテーブル６００の一例を概略的に示す。校正作業画面７００の一例を概略的に示す。文字起こしサーバ１０、又は通信端末２０として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。

例えば、映像編集ソフトにおいて、入力された動画の音声について、例えばＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）により自動で文字起こしをし、動画内に字幕（キャプション）を挿入する機能が知られている。文字起こしとは、例えば、音声データを元に、その内容を文字化するものである。この機能では、動画に挿入された字幕について、編集者が校正を行い、問題がある箇所については字幕を編集する。

しかし、このような動画内のキャプションを校正するような作業を行うのは、映像業界関係者や、Ｙｏｕｔｕｂｅｒ（登録商標）等の一般の動画編集ソフトの使用者で、人間の手で校正される機会は、かなり限定されている。このため、文字起こしＡＩが利用される場合に、一般の使用者による校正データで、文字起こしＡＩの学習機会を得ることが難しい。また、文字起こしＡＩの学習機会が得られることがあっても、文字起こしＡＩの教師データへのフィードバック等は、校正者以外の手を煩わせることがある。

これに対して、本実施形態に係るシステムは、音声の文字起こしにおける、字幕校正の内容学習の仕組みを提供する。例えば、システムは、音声の文字起こしＡＩと、映像編集ソフトの字幕編集機能とに対して、校正内容の差分、及び確定タイミング検出機能、及びＡＩ学習への教師データへの入力機能を追加し、自動的な文字起こしＡＩの学習の仕組みを提供する。このため、文字起こしＡＩの利用者は、意識せずに文字起こしＡＩの精度を向上させることができ、ＡＩによる文字起こしの校正箇所が減ることにより、将来の校正作業の効率化を図ることができる。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、システム１の一例を概略的に示す。システム１は、文字起こしサーバ１０、及び通信端末２０を備える。文字起こしサーバ１０と通信端末２０は、ネットワーク４０を介して接続されてよい。通信端末２０は、複数存在してもよい。

システム１は、文字起こしサーバ１０が、音声データを学習モデルにより文字起こしし、通信端末２０が、文字起こしに対するユーザ２２の校正を受け付け、文字起こしサーバ１０が、校正の結果を学習モデルにフィールドバックする機能を備える。

ネットワーク４０は、インターネットであってよい。ネットワーク４０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってもよい。ネットワーク４０は、移動体通信ネットワークであってもよい。移動体通信ネットワークは、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）通信方式、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）通信方式、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）通信方式、及び６Ｇ（６ｔｈＧｅｎｅｒａｔｉｏｎ）通信方式以降の通信方式のいずれに準拠していてもよい。ネットワーク４０は、移動体通信ネットワーク、ＬＡＮ、及びインターネットのうちの複数を含んでもよく、すべてを含んでもよい。

文字起こしサーバ１０は、例えば、動画データを取得し、当該動画データと、当該動画データに含まれる音声データを文字化した文字起こし結果とを通信端末２０に送信する。文字起こしサーバ１０は、例えば、ネットワーク４０を介して動画データを取得する。文字起こしサーバ１０は、任意の装置から動画データを受信してよい。文字起こしサーバ１０は、可搬型の記憶媒体から動画データを読み出してもよい。文字起こしサーバ１０は、文字起こしサーバ１０において生成された動画データと、当該動画データに含まれる音声データを文字化した文字起こし結果とを通信端末２０に送信してもよい。

文字起こしサーバ１０は、例えば、音声データを取得し、音声データと、当該音声データを文字化した文字起こし結果とを通信端末２０に送信する。文字起こしサーバ１０は、例えば、ネットワーク４０を介して音声データを取得する。文字起こしサーバ１０は、任意の装置から音声データを受信してよい。文字起こしサーバ１０は、可搬型の記憶媒体から音声データを読み出してもよい。文字起こしサーバ１０は、文字起こしサーバ１０において生成された音声データと、当該音声データを文字化した文字起こし結果とを通信端末２０に送信してもよい。

文字起こしサーバ１０は、音声データを入力とし、当該音声データを文字化した文字起こし結果を出力とする学習モデルを用いて、文字起こしをしてよい。文字起こしサーバ１０は、学習モデルを予め記憶しておく。文字起こしサーバ１０は、学習モデルを生成して、記憶してよい。文字起こしサーバ１０は、他の装置から学習モデルを受信して、記憶してもよい。

学習モデルは、公知の任意の手法を用いて生成されてよい。例えば、学習モデルは、音声データと、音声データの内容を示すテキストデータとを教師データとした機械学習によって生成される。学習モデルは、教師なし学習によって生成されてもよい。学習モデルは、強化学習によって生成されてもよい。

通信端末２０は、表示機能及び音声出力機能を有していれば、どのような端末であってもよい。通信端末２０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、及びタブレット端末等であってよい。通信端末２０は、例えば、文字起こしサーバ１０から受信した動画データ又は音声データと、文字起こし結果とを、ユーザ２２に向けて出力する。

通信端末２０は、例えば、文字起こし結果を字幕として動画データとともに通信端末２０の表示部に表示する。ユーザ２２は、動画データを閲覧しながら、字幕として表示されている文字起こし結果を校正する。また、通信端末２０は、例えば、音声データを音声出力しつつ、文字起こし結果を表示部に表示する。ユーザ２２は、音声データを聴きながら、文字起こし結果を校正する。なお、状況によっては、通信端末２０が、文字起こし結果のみをユーザ２２に向けて出力し、ユーザ２２が文字起こし結果のみを閲覧して文字起こし結果を校正することもあり得る。通信端末２０は、文字起こし結果に対する校正結果を取得して、文字起こしサーバ１０に送信する。

通信端末２０が、校正結果を取得して文字起こしサーバ１０に送信するタイミングは、ユーザ２２によって指示されてよい。例えば、ユーザ２２は、校正作業が完了したタイミングで、通信端末２０に対して指示をする。

通信端末２０は、校正が完了したことを自動的に判定してもよい。例えば、文字起こし結果を字幕として動画データとともに表示し、ユーザ２２が字幕として表示されている文字起こし結果を校正する場合において、通信端末２０は、動画データのエンコードが開始されたことに応じて、校正が完了したと判定する。このように、通信端末２０が自動的に判定することによって、ユーザ２２の負荷を低減することができる。また、映像編集ソフトで字幕の校正を行うユーザ２２に特に意識させることなく、校正結果を収集可能にできる。通信端末２０は、文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、校正が完了したと判定してもよい。通信端末２０は、文字起こし結果のデータが上書き保存されたことに応じて、校正が完了したと判定してもよい。これらにより、ユーザ２２による校正が完了した蓋然性が高い状態になった後、校正結果を取得して文字起こしサーバ１０に送信することができ、例えば、ユーザ２２によって行われた校正の内容にミスがあり、すぐに訂正されたような場合や、同じ字幕について、短時間に何度も校正されたような場合であっても、最終的な校正結果を文字起こしサーバ１０に送信することができる。

文字起こしサーバ１０は、自身が学習モデルを生成した場合も、他の装置から学習モデルを受信した場合も、学習モデルを更新する機能を有する。文字起こしサーバ１０は、通信端末２０から受信した校正結果に基づいて、学習モデルを更新する。

例えば、文字起こしサーバ１０は、音声データと、当該音声データを学習モデルに入力して出力された文字起こし結果とを対応付けて記憶しておく。文字起こしサーバ１０は、複数の音声データ及び文字起こし結果を記憶しておく。そして、文字起こしサーバ１０は、それぞれの文字起こし結果について、校正された場合に、音声データに対応付けて記憶する文字起こし結果を、校正後の文字起こし結果に置き換えて、再学習を実行する。なお、これは一例であって、音声データに対応する文字起こし結果が校正された場合に、次に同じ音声データが入力されたときに、校正後の文字起こし結果を出力するように調整できれば、どのような再学習方法を用いてもよい。

文字起こしサーバ１０は、校正後の文字起こし結果が、校正前の文字起こし結果とかけ離れた内容である場合には、当該校正後の文字起こし結果を、再学習に用いるデータから除外するようにしてもよい。例えば、文字起こしサーバ１０は、校正前後の文字起こし結果の差分を示す差分値が予め定められた閾値より低い場合に、校正結果を企画学習に用いる学習用データとして記憶し、閾値より低くない場合には、学習用データとして記憶しない。

例えば、ユーザ２２による校正作業において、実際の音声データとは異なる内容や、実際の音声データに加えて、説明を付した内容を、字幕として入力する場合がある。このような場合に、校正結果を用いて学習モデルを更新してしまうと、精度が低下してしまい得るが、それを防止することができる。

本実施形態に係るシステム１は、例示したように、機械学習による学習モデルを使用して音声データの文字起こしを行った文字起こし結果に対する校正作業において、校正結果の確定タイミングについて、予め定められた条件を満たした場合に、ユーザ２２による校正結果を取得し、予め定められた条件を満たした場合に、校正結果を機械学習の学習用データとして採用する。これにより、ユーザ２２によって行われた校正結果を、最適化された内容で自動的に取得し、学習用データとして取得し、人の手を煩わせずに学習モデルを更新することができる。ユーザ２２に意識させることなく、自動的に、学習に必要なデータを収集し、学習モデルを更新する仕組みを実現することができるので、文字起こし技術の向上に貢献することができる。

図２は、システム１による処理の流れの一例を概略的に示す。ここでは、文字起こしサーバ１０が、校正対象の動画データを取得した状態を開始状態として説明する。

ステップ（ステップをＳと省略して記載する場合がある。）３０２では、文字起こしサーバ１０が、動画データから音声データを取得する。Ｓ３０４では、文字起こしサーバ１０が、Ｓ３０２で取得した音声データを、学習モデルに入力することで文字起こしをする。

Ｓ３０６では、文字起こしサーバ１０が、Ｓ３０４の結果である文字起こし結果を、通信端末２０へ送信する。文字起こしサーバ１０は、文字起こし結果とともに動画データを送信する。

Ｓ３０８では、通信端末２０が、文字起こしサーバ１０から受信した文字起こし結果を、校正作業を行うユーザ２２に向けて出力する。通信端末２０は、文字起こし結果を動画データとともに出力する。Ｓ３１０では、通信端末２０が、Ｓ３０８で校正作業を行われたユーザの校正結果を取得する。この校正結果取得処理については、詳細を後述する。

Ｓ３１２では、通信端末２０が、Ｓ３１０で取得した校正結果を、文字起こしサーバ１０へ送信する。Ｓ３１４では、文字起こしサーバ１０が、受信した校正結果を元に、学習モデル更新処理を行う。この学習モデル更新処理については、詳細を後述する。

図３は、通信端末２０による校正結果取得処理の流れの一例を概略的に示す。ここでは、図２におけるＳ３１０の状態を開始状態として説明する。

Ｓ３３０では、通信端末２０が、ユーザ２２による文字起こしの校正中の動画データに対してエンコードが開始されたか否かを判定し、開始された場合、Ｓ３３２へ進み、開始されていない場合、Ｓ３３４へ進む。Ｓ３３２では、通信端末２０が、蓄積されたユーザ２２による校正結果をまとめて取得する。

Ｓ３３４では、通信端末２０が、ユーザ２２が文字起こしの校正を開始してから、予め定められた時間が経過したか否かを判定し、経過した場合、Ｓ３３２へ進み、経過していない場合、Ｓ３３６へ進む。

Ｓ３３６では、通信端末２０が、ユーザ２２が文字起こし校正を開始してから、校正対象のファイルが上書き保存されたか否かを判定し、上書き保存がされている場合、Ｓ３３２へ進み、上書き保存がされていない場合、Ｓ３３０へ戻る。

図４は、文字起こしサーバ１０による学習モデル更新処理の流れの一例を概略的に示す。ここでは、図２におけるＳ３１４の状態を開始状態として説明する。

Ｓ３５０では、文字起こしサーバ１０が、Ｓ３３２で取得した校正結果のうちの、一の校正後の文字起こし結果について、校正前後の差分を示す差分値を取得する。一つの文字起こし結果は、例えば、文字起こし結果が字幕である場合に、字幕１つ分であってよい。また、一つの文字起こし結果は、１文であってもよい。また、一つの文字起こし結果は、文節単位等の、任意の単位であってもよい。

校正前の文字起こしデータは、校正結果に含まれてよい。また、校正結果に、校正後の文字起こしデータと校正前の文字起こしデータとの差分を示す差分値が含まれてもよい。文字起こしサーバ１０は、予め記憶していた校正前の文字起こしデータと、校正結果に含まれる文字起こしデータとの差分を示す差分値を算出してもよい。

差分値とは、校正前の文字起こしデータと、校正後の文字起こしデータとの違いを表すパラメータであり、例えば、校正前の文字起こしデータと、校正後の文字起こしデータとの文字数の差が大きいほど、校正された文字数が多いほど、大きくなる。逆に、校正前の文字起こしデータと、校正後の文字起こしデータとの文字数の差が小さい場合や、校正された文字数が少ないほど、小さくなる。

Ｓ３５２では、文字起こしサーバ１０が、Ｓ３５０で取得した差分値が予め定められた閾値より低いか否かを判定し、閾値より低い場合、Ｓ３５４へ進み、閾値より低くない場合、Ｓ３５６へ進む。

但し、校正前の文字起こしデータと、校正後の文字起こしデータとの違いが全くなく、例えば差分値が０になるような場合は、Ｓ３５６へ進む。校正作業を行うようなユーザが、校正した内容を、元に戻したような場合も考えられるためである。Ｓ３５４では、文字起こしサーバ１０が、Ｓ３５０で取得した校正後の文字起こし結果と音声データと対応付けてを、学習用データとして記憶する。

Ｓ３５６では、文字起こしサーバ１０が、校正結果に含まれるすべての文字起こし結果についての判定が終了したか否かを判定し、終了した場合、処理を終了し、終了していない場合、Ｓ３５０へ戻り、校正結果のうちの次の文字起こし結果の差分値を取得する。

図５は、文字起こしサーバ１０の機能構成の一例を概略的に示す。文字起こしサーバ１０は、データ取得部１００、文字起こし部１０４、文字起こし結果送信部１１０、内容記憶部１１２、学習用データ記憶部１１４、モデル更新部１１８、及び校正結果受信部１２０を備える。なお、文字起こしサーバ１０が、これらの全てを備えることは必須とは限らない。

データ取得部１００は、音声データ１０２を取得する。データ取得部１００は、動画データに含まれる音声データ１０２を取得してよい。

文字起こし部１０４は、データ取得部１００が取得した音声データ１０２に対して文字起こしを実行する。文字起こし部１０４は、音声データ１０２を入力とし、音声データ１０２を文字化した文字起こし結果１０６を出力とする学習モデルに、音声データ取得部１００が取得した音声データ１０２を入力して、文字起こし結果１０６を取得してよい。

文字起こし結果送信部１１０は、文字起こし部１０４が取得した文字起こし結果１０６を通信端末２０に送信する。文字起こし結果送信部１１０は、動画データ及び文字起こし結果１０６を通信端末２０に送信してよい。文字起こし結果送信部１１０は、音声データ１０２及び文字起こし結果１０６を通信端末２０に送信してよい。

内容記憶部１１２は、文字起こし部１０４が取得した文字起こし結果１０６と、学習モデルに入力した音声データ１０２とを対応付けて記憶する。内容記憶部１１２は、複数の文字起こし結果１０６及び音声データ１０２をそれぞれ対応付けて記憶する。

校正結果受信部１２０は、通信端末２０から校正後の文字起こし結果１０６を含む校正結果２０８を受信する。校正結果２０８は、文字起こし結果送信部１１０が送信した文字起こし結果１０６に対して、ユーザ２２が校正した結果である。

学習用データ記憶部１１４は、学習モデルを更新するために用いる学習用データを記憶する。学習用データ記憶部１１４は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分が予め定められた条件を満たす場合に、校正結果２０８を、学習用データとして記憶する。学習用データ記憶部１１４は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分が予め定められた条件を満たさない場合には、校正結果２０８を学習用データとして記憶しない。

当該条件は、校正後の文字起こしデータが、校正前の文字起こしデータとかけ離れた内容でない場合に満たされるものであってよい。例えば、学習用データ記憶部１１４は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分を示す差分値が予め定められた閾値より低い場合に、校正結果２０８を、学習用データとして記憶し、閾値より低くない場合、校正結果２０８を学習用データとして記憶しない。また、例えば、学習用データ記憶部１１４は、校正前の文字起こし結果１０６に対して、内容が追加されていないと判定した場合に、校正結果２０８を、学習用データとして記憶し、内容が追加されていると判定した場合、校正結果２０８を学習用データとして記憶しない。学習用データ記憶部１１４は、例えば、校正前の文字起こし結果１０６に対して、カッコ書きが追加されている場合、内容が追加されていると判定する。

モデル更新部１１８は、学習用データ記憶部１１４に学習用データとして記憶されている校正結果２０８に基づいて学習モデルを更新する。モデル更新部１１８は、文字起こし結果１０６に対する校正結果２０８と、当該文字起こし結果１０６に対応する音声データ１０２とに基づいて、学習モデルを更新してよい。モデル更新部１１８は、校正前後の文字起こし結果１０６と、文字起こし結果１０６に対応する音声データ１０２とに基づいて、学習モデルを更新してよい。

図６は、通信端末２０の機能構成の一例を概略的に示す。通信端末２０は、文字起こし結果受信部２００、表示部２０２、表示制御部２０４、校正結果取得部２０６、校正結果送信部２１０、及び完了判定部２１２を備える。なお、通信端末２０がこれらの全てを備えることは必須とは限らない。

文字起こし結果受信部２００は、文字起こしサーバ１０から文字起こし結果１０６を受信する。文字起こし結果受信部２００は、文字起こしサーバ１０から、文字起こし結果１０６とともに動画データを受信してよい。文字起こし結果受信部２００は、文字起こしサーバ１０から、文字起こし結果１０６とともに音声データを受信してよい。

表示制御部２０４は、文字起こし結果１０６を表示部２０２に表示させるよう制御する。文字起こし結果１０６の表示は、音声データ１０２の再生を伴ってもよい。表示制御部２０４は、文字起こし結果１０６を動画データとともに表示部２０２に表示させるよう制御してよい。表示制御部２０４は、文字起こし結果１０６を字幕として動画データとともに表示部２０２に表示させるよう制御してよい。

校正結果取得部２０６は、表示部２０２に表示された文字起こし結果１０６に対する校正結果２０８を取得する。校正結果取得部２０６は、字幕として表示された文字起こし結果１０６に対する校正結果２０８を取得してよい。校正結果取得部２０６は、校正前の文字起こし結果１０６と、校正後の文字起こし結果１０６との差分を検出し、差分を示す校正結果２０８を取得してよい。

校正結果２０８は、校正後の文字起こし結果１０６を含んでよい。校正結果２０８は、校正前の文字起こし結果１０６を含んでよい。校正結果２０８は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分を含んでよい。校正結果２０８は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分を示す差分値を含んでよい。校正結果２０８は、校正結果に関するその他のデータを含んでもよい。

校正結果送信部２１０は、校正結果取得部２０６が取得した校正結果２０８を、文字起こしサーバ１０に送信する。校正結果送信部２１０は、校正後の文字起こし結果１０６を含む校正結果２０８を文字起こしサーバ１０に送信してよい。

校正結果送信部２１０は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分が予め定められた条件を満たす場合に、校正結果２０８を文字起こしサーバ１０に送信し、条件を満たさない場合、校正結果２０８を文字起こしサーバ１０に送信しなくてよい。例えば、校正結果送信部２１０は、校正前の文字起こし結果１０６と校正後の文字起こし結果１０６との差分を示す差分値が予め定められた閾値より低い場合に、校正結果２０８を文字起こしサーバ１０に送信し、閾値より低くない場合、校正結果２０８を文字起こしサーバ１０に送信しない。また、例えば、校正結果送信部２１０は、校正前の文字起こし結果１０６に対して、内容が追加されていないと判定した場合に、校正結果２０８を文字起こしサーバ１０に送信し、追加されていると判定した場合に、校正結果２０８を文字起こしサーバ１０に送信しない。

完了判定部２１２は、表示部２０２に表示された文字起こし結果１０６に対する校正が完了したことを判定する。例えば、文字起こし結果受信部２００が文字起こし結果１０６とともに動画データを受信し、表示制御部２０４が、文字起こし結果を字幕として動画データとともに表示部２０２に表示させた場合において、完了判定部２１２は、通信端末２０において、校正された文字起こし結果１０６を含む動画データのエンコードが開始されたことに応じて、校正が完了したと判定してよい。

完了判定部２１２は、表示部２０２に表示された文字起こし結果１０６に対する校正が開始されてから予め定められた時間が経過したことに応じて、校正が完了したと判定してよい。完了判定部２１２は、通信端末２０において文字起こし結果１０６のデータが上書き保存されたことに応じて、校正が完了したと判定してよい。

校正結果取得部２０６は、完了判定部２１２によって校正が完了したと判定されたことに応じて、校正前の文字起こし結果１０６と、校正後の文字起こし結果１０６との差分を検出してよい。

図７は、学習用データテーブル６００の一例を概略的に示す。学習用データテーブル６００には、音声データと、学習用データとして記憶された、音声データの文字起こし結果を校正した校正結果とが対応付けて登録されてよい。学習用データテーブル６００には、校正前の文字起こしデータが更に登録されてもよい。図７に示す例において、学習用データテーブル６００は、履歴番号欄６０２、音声データ欄６０４、及び校正結果欄６０６を有する。

履歴番号欄６０２は、学習用データテーブル６００のデータを一意に識別するインデックス用の番号を含む。音声データ欄６０４は、ユーザ２２が校正作業を行った対象の音声データを保存した音声ファイルのファイル名を含む。音声データは、文字起こしが行われた音声データのうち、学習前の学習モデルによる校正前の文字起こしデータでは、文字起こしに問題があり、ユーザにより何らかの校正作業を行われ、校正結果が存在するものである。例えば、履歴番号「１」の「２０２１１２１１０１００.ｗａｖ」は、ユーザの校正作業の対象となった実際のファイル名を表す。

校正結果欄６０６は、校正結果を含む。校正結果欄６０６は、校正後の文字起こし結果１０６を含んでよい。校正結果は、ユーザ２２によって校正された箇所のみを含んでもよい。例えば、履歴番号「１」の校正結果欄６０６は、「２０２１１２１１０１００.ｗａｖ」に含まれる音声を、学習モデルにより文字起こしした結果に対する、ユーザ２２の校正結果が「よりよい明日を」というものであることを示す。

図８は、校正作業画面７００の一例を概略的に示す。校正作業画面７００は、校正作業を行うユーザ２２が、校正対象が動画データの字幕である場合に使用する映像編集用ソフトの画面表示例である。校正作業画面７００は、動画ウインドウ７０２、字幕ウインドウ７０４、校正入力ウインドウ７０６、及びプログレスバー７０８を有する。

動画ウインドウ７０２は、動画データを表示する。動画データの表示に合わせて、音声データが音声出力される。字幕ウインドウ７０４は、編集中の動画データのシーンに対する字幕を表示する。表示される字幕は、その時点で最新のものであり、例えば校正前の文字起こし結果１０６に対して、既にユーザによる校正を受け付けていた場合は、校正後の文字起こし結果１０６が表示される。

また、動画ウインドウ７０２と字幕ウインドウ７０４とは、校正対象の動画データのエンコード前では、動画データには字幕が含まれず、動画データと、文字起こし結果１０６とは、別のデータとして保存されていてもよい。

校正入力ウインドウ７０６は、校正を行うユーザ２２が、字幕ウインドウ７０４に表示されている内容に対して、校正を行いたい場合に、文字が入力されるウインドウである。校正入力ウインドウ７０６は、例えば、動画ウインドウ７０２が動画を再生している状態で、校正を行うユーザ２２の入力を受け付けた場合に、動画ウインドウ７０２の再生を停止し、校正入力を受け付けるような動作をしてもよい。

校正入力ウインドウ７０６は、例えば校正を行うユーザ２２の校正入力を受け付けて、決定ボタンや、エンターキーが入力されることで編集中のシーンに対する校正を確定し、字幕ウインドウ７０４に表示される字幕の内容を更新し、動画ウインドウ７０２の動画の再生を再開してもよい。

プログレスバー７０８は、現在編集中の動画内における表示中のシーンの位置を、動画の再生開始からの時間で表示している。例えばプログレスバー７０８においては、再生開始から３０分１１秒のシーンを表示していることを表す。プログレスバー７０８は、例えば、校正を行うユーザの入力を受け付けて、自在に動画の再生シーンを変更できるような機能を備えてもよい。なお、校正作業画面７００は、動画ウインドウ７０２に動画を表示せず、音声データ１０２のみを再生する態様であってもよい。

図９は、文字起こしサーバ１０、又は通信端末２０として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、及びグラフィックコントローラ１２１６を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、記憶装置１２２４、ＤＶＤドライブ、及びＩＣカードドライブのような入出力ユニットを含み、それらは入出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。ＤＶＤドライブは、ＤＶＤ－ＲＯＭドライブ及びＤＶＤ－ＲＡＭドライブ等であってよい。記憶装置１２２４は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ１２００はまた、ＲＯＭ１２３０及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ１２４０を介して入出力コントローラ１２２０に接続されている。

ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に記憶されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４内に提供されるフレームバッファ等又はそれ自体の中に、ＣＰＵ１２１２によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス１２１８上に表示されるようにする。

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。記憶装置１２２４は、コンピュータ１２００内のＣＰＵ１２１２によって使用されるプログラム及びデータを記憶する。ＤＶＤドライブは、プログラム又はデータをＤＶＤ－ＲＯＭ等から読み取り、記憶装置１２２４に提供する。ＩＣカードドライブは、プログラム及びデータをＩＣカードから読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、及び／又はコンピュータ１２００のハードウェアに依存するプログラムを記憶する。入出力チップ１２４０はまた、様々な入出力ユニットをＵＳＢポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ１２２０に接続してよい。

プログラムは、ＤＶＤ－ＲＯＭ又はＩＣカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置１２２４、ＲＡＭ１２１４、又はＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ１２００の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００及び外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御の下、ＲＡＭ１２１４、記憶装置１２２４、ＤＶＤ－ＲＯＭ、又はＩＣカードのような記録媒体内に提供される送信バッファ領域に記憶された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。

また、ＣＰＵ１２１２は、記憶装置１２２４、ＤＶＤドライブ（ＤＶＤ－ＲＯＭ）、ＩＣカード等のような外部記録媒体に記憶されたファイル又はデータベースの全部又は必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ１２１２は次に、処理されたデータを外部記録媒体にライトバックしてよい。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に記憶され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に記憶される場合、ＣＰＵ１２１２は、当該複数のエントリの中から、第１の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に記憶された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ１２００上又はコンピュータ１２００近傍のコンピュータ可読記憶媒体に記憶されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に記憶されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び／又はコンピュータ可読記憶媒体上に記憶されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び／又はアナログハードウェア回路を含んでよく、集積回路（ＩＣ）及び／又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、及びプログラマブルロジックアレイ（ＰＬＡ）等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を記憶可能な任意の有形なデバイスを含んでよく、その結果、そこに記憶される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピーディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１システム、１０文字起こしサーバ、２０通信端末、２２ユーザ、４０ネットワーク、１００データ取得部、１０２音声データ、１０４文字起こし部、１０６文字起こし結果、１１０文字起こし結果送信部、１１２内容記憶部、１１４学習用データ記憶部、１１８モデル更新部、１２０校正結果受信部、２００文字起こし結果受信部、２０２表示部、２０４表示制御部、２０６校正結果取得部、２０８校正結果、２１０校正結果送信部、２１２完了判定部、６００学習用データテーブル、６０２履歴番号欄、６０４音声データ欄、６０６校正結果欄、７００校正作業画面、７０２動画ウインドウ、７０４字幕ウインドウ、７０６校正入力ウインドウ、７０８プログレスバー、１２１２ＣＰＵ、１２１４ＲＡＭ、１２１６グラフィックコントローラ、１２１８ディスプレイデバイス、１２２０入出力コントローラ、１２２２通信インタフェース、１２２４記憶装置、１２３０ＲＯＭ、１２４０入出力チップ

Claims

文字起こしサーバ及び通信端末
を備え、
前記文字起こしサーバは、
音声データを取得するデータ取得部と、
前記音声データを入力とし、前記音声データを文字化した文字起こし結果を出力とする学習モデルに、前記データ取得部が取得した前記音声データを入力して、前記文字起こし結果を取得する文字起こし部と、
前記文字起こし部が取得した前記文字起こし結果を前記通信端末に送信する文字起こし結果送信部と
を有し、
前記通信端末は、
前記文字起こし結果を表示部に表示させるよう制御する表示制御部と、
前記表示部に表示された前記文字起こし結果に対する校正結果を取得する校正結果取得部と、
前記校正結果を前記文字起こしサーバに送信する校正結果送信部と
を有し、
前記文字起こしサーバは、
前記校正結果に基づいて前記学習モデルを更新するモデル更新部
を有する、システム。
前記データ取得部は、動画データに含まれる前記音声データを取得し、
前記文字起こし結果送信部は、前記動画データ及び前記文字起こし結果を前記通信端末に送信し、
前記表示制御部は、前記文字起こし結果を前記動画データとともに前記表示部に表示させるよう制御する、請求項１に記載のシステム。
前記表示制御部は、前記文字起こし結果を字幕として前記動画データとともに前記表示部に表示させるよう制御し、
前記校正結果取得部は、前記字幕として表示された前記文字起こし結果に対する前記校正結果を取得する、請求項２に記載のシステム。
前記校正結果送信部は、校正後の前記文字起こし結果を含む前記校正結果を前記文字起こしサーバに送信し、
前記文字起こしサーバは、
校正前の前記文字起こし結果と校正後の前記文字起こし結果との差分が予め定められた条件を満たす場合に、前記校正結果を、機械学習に用いる学習用データとして記憶する学習用データ記憶部
を更に有し、
前記モデル更新部は、前記学習用データ記憶部に記憶されている前記校正結果に基づいて前記学習モデルを更新する、請求項１から３のいずれか一項に記載のシステム。
前記学習用データ記憶部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との差分を示す差分値が予め定められた閾値より低い場合に、前記校正結果を、前記機械学習に用いる前記学習用データとして記憶する、請求項４に記載のシステム。
前記学習用データ記憶部は、校正前の前記文字起こし結果に対して、内容が追加されていないと判定した場合に、前記校正結果を、機械学習に用いる学習用データとして記憶する、請求項４又は５に記載のシステム。
前記校正結果送信部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との前記差分が予め定められた条件を満たす場合に、前記校正結果を前記文字起こしサーバに送信し、前記条件を満たさない場合、前記校正結果を前記文字起こしサーバに送信しない、請求項４に記載のシステム。
前記校正結果取得部は、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との差分を検出し、前記差分を示す前記校正結果を取得する、請求項１から７のいずれか一項に記載のシステム。
前記通信端末は、
前記表示部に表示された前記文字起こし結果に対する校正が完了したことを判定する完了判定部
を更に有し、
前記校正結果取得部は、前記完了判定部によって前記校正が完了したと判定されたことに応じて、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との前記差分を検出する、請求項８に記載のシステム。
前記データ取得部は、動画データに含まれる前記音声データを取得し、
前記文字起こし結果送信部は、前記動画データ及び前記文字起こし結果を前記通信端末に送信し、
前記表示制御部は、前記文字起こし結果を字幕として前記動画データとともに前記表示部に表示させるよう制御し、
前記完了判定部は、前記通信端末において、校正された前記文字起こし結果を含む前記動画データのエンコードが開始されたことに応じて、前記校正が完了したと判定する、請求項９に記載のシステム。
前記完了判定部は、前記表示部に表示された前記文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、前記校正が完了したと判定する、請求項９又は１０に記載のシステム。
前記完了判定部は、前記通信端末において前記文字起こし結果のデータが上書き保存されたことに応じて、前記校正が完了したと判定する、請求項９から１１のいずれか一項に記載のシステム。
前記文字起こしサーバは、
前記文字起こし部が取得した前記文字起こし結果と、前記学習モデルに入力した前記音声データとを対応付けて記憶する内容記憶部
を有し、
前記モデル更新部は、前記文字起こし結果に対する前記校正結果と、前記文字起こし結果に対応する前記音声データとに基づいて、前記学習モデルを更新する、請求項１から１２のいずれか一項に記載のシステム。
文字起こしサーバから受信した、音声データを文字化した文字起こし結果を表示部に表示させるよう制御する表示制御部と、
前記表示部に表示された前記文字起こし結果と、校正された前記文字起こし結果との差分を検出し、前記差分を示す校正結果を取得する校正結果取得部と、
前記校正結果を前記文字起こしサーバに送信する校正結果送信部と
を備える通信端末。
前記表示制御部は、前記文字起こしサーバから受信した、動画データに含まれる前記音声データを文字化した前記文字起こし結果を字幕として、前記動画データとともに前記表示部に表示させ、
前記校正結果取得部は、字幕として表示された前記文字起こし結果と、校正された前記文字起こし結果との前記差分を示す校正結果を取得する、請求項１４に記載の通信端末。
前記校正結果送信部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との前記差分が予め定められた条件を満たす場合に、前記校正結果を前記文字起こしサーバに送信し、前記条件を満たさない場合、前記校正結果を前記文字起こしサーバに送信しない、請求項１４又は１５に記載の通信端末。
前記表示部に表示された前記文字起こし結果に対する校正が完了したことを判定する完了判定部
を更に有し、
前記校正結果取得部は、前記完了判定部によって前記校正が完了したと判定されたことに応じて、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との前記差分を検出する、請求項１４から１６のいずれか一項に記載の通信端末。
コンピュータを、請求項１４から１７のいずれか一項に記載の通信端末として機能させるためのプログラム。
通信端末によって実行される方法であって、
文字起こしサーバから、音声データを文字化した文字起こし結果を受信する受信段階と、
前記文字起こし結果を前記通信端末の表示部に表示させるよう制御する表示制御段階と、
前記表示部に表示された前記文字起こし結果と、校正された前記文字起こし結果との差分を検出し、前記差分を示す校正結果を取得する校正結果取得段階と、
前記校正結果を前記文字起こしサーバに送信する校正結果送信段階と
を備える方法。