JP2023102137A - システム、通信端末、及び方法 - Google Patents

システム、通信端末、及び方法 Download PDF

Info

Publication number
JP2023102137A
JP2023102137A JP2022002529A JP2022002529A JP2023102137A JP 2023102137 A JP2023102137 A JP 2023102137A JP 2022002529 A JP2022002529 A JP 2022002529A JP 2022002529 A JP2022002529 A JP 2022002529A JP 2023102137 A JP2023102137 A JP 2023102137A
Authority
JP
Japan
Prior art keywords
result
transcription
proofreading
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022002529A
Other languages
English (en)
Other versions
JP7236570B1 (ja
Inventor
靖大 天野
Yasuhiro Amano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022002529A priority Critical patent/JP7236570B1/ja
Application granted granted Critical
Publication of JP7236570B1 publication Critical patent/JP7236570B1/ja
Publication of JP2023102137A publication Critical patent/JP2023102137A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声の文字起こしにおける字幕校正の内容学習の仕組みを備えるシステム、通信端末及び方法を提供する。【解決手段】システムは、文字起こしサーバ及び通信端末を備える。文字起こしサーバは、音声データを取得するデータ取得部と、機械学習により生成された学習モデルにデータ取得部が取得した音声データを入力して文字起こし結果を取得する文字起こし部と、文字起こし部が取得した文字起こし結果を通信端末に送信する文字起こし結果送信部と、校正結果に基づいて学習モデルを更新するモデル更新部と、を有する。通信端末は、文字起こし結果を表示部に表示させるよう制御する表示制御部と、表示部に表示された文字起こし結果に対する校正結果を取得する校正結果取得部と、校正結果を文字起こしサーバに送信する校正結果送信部と、を有する。【選択図】図2

Description

本発明は、システム、通信端末、及び方法に関する。
特許文献1には、AVデータの編集を行うユーザが、AVデータに含まれる音声のデータを、テキストのデータとしてAVデータに重畳させて表示させる操作を容易に行うことができるようにする技術について記載されている。
[先行技術文献]
[特許文献]
[特許文献1]特開2021-93718号公報
本発明の一実施態様によれば、システムが提供される。システムは、文字起こしサーバ、及び通信端末を備えてよい。文字起こしサーバは、音声データを取得するデータ取得部を有してよい。文字起こしサーバは、音声データを入力とし、音声データを文字化した文字起こし結果を出力とする学習モデルに、データ取得部が取得した音声データを入力して、文字起こし結果を取得する文字起こし部を有してよい。文字起こしサーバは、文字起こし部が取得した文字起こし結果を通信端末に送信する文字起こし結果送信部を有してよい。通信端末は、文字起こし結果を表示部に表示させるよう制御する表示制御部を有してよい。通信端末は、表示部に表示された文字起こし結果に対する校正結果を取得する校正結果取得部を有してよい。通信端末は、校正結果を文字起こしサーバに送信する校正結果送信部を有してよい。文字起こしサーバは、校正結果に基づいて学習モデルを更新するモデル更新部を有してよい。
上記データ取得部は、動画データに含まれる上記音声データを取得してよい。上記文字起こし結果送信部は、上記動画データ及び上記文字起こし結果を上記通信端末に送信してよい。上記表示制御部は、上記文字起こし結果を上記動画データとともに上記表示部に表示させるよう制御してよい。上記表示制御部は、上記文字起こし結果を字幕として上記動画データとともに上記表示部に表示させるよう制御してよい。上記校正結果取得部は、上記字幕として表示された上記文字起こし結果に対する上記校正結果を取得してよい。
上記校正結果送信部は、校正後の上記文字起こし結果を含む上記校正結果を上記文字起こしサーバに送信してよい。上記文字起こしサーバは、校正前の上記文字起こし結果と校正後の上記文字起こし結果との差分が予め定められた条件を満たす場合に、上記校正結果を、機械学習に用いる学習用データとして記憶する学習用データ記憶部を有してよい。上記モデル更新部は、上記学習用データ記憶部に記憶されている上記校正結果に基づいて上記学習モデルを更新してよい。上記学習用データ記憶部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との差分を示す差分値が予め定められた閾値より低い場合に、上記校正結果を、上記機械学習に用いる上記学習用データとして記憶してよい。上記学習用データ記憶部は、校正前の上記文字起こし結果に対して、内容が追加されていないと判定した場合に、上記校正結果を、機械学習に用いる学習用データとして記憶してよい。上記校正結果送信部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との上記差分が予め定められた条件を満たす場合に、上記校正結果を上記文字起こしサーバに送信し、上記条件を満たさない場合、上記校正結果を上記文字起こしサーバに送信しなくてもよい。
上記校正結果取得部は、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との差分を検出し、上記差分を示す上記校正結果を取得してよい。上記通信端末は、上記表示部に表示された上記文字起こし結果に対する校正が完了したことを判定する完了判定部を有してよい。上記校正結果取得部は、上記完了判定部によって上記校正が完了したと判定されたことに応じて、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との上記差分を検出してよい。上記データ取得部は、動画データに含まれる上記音声データを取得してよい。上記文字起こし結果送信部は、上記動画データ及び上記文字起こし結果を上記通信端末に送信してよい。上記表示制御部は、上記文字起こし結果を字幕として上記動画データとともに上記表示部に表示させるよう制御してよい。上記完了判定部は、上記通信端末において校正された上記文字起こし結果を含む上記動画データのエンコードが開始されたことに応じて、上記校正が完了したと判定してよい。上記完了判定部は、上記表示部に表示された上記文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、上記校正が完了したと判定してよい。上記完了判定部は、上記通信端末において上記文字起こし結果のデータが上書き保存されたことに応じて、上記校正が完了したと判定してよい。
上記文字起こしサーバは、上記文字起こし部が取得した上記文字起こし結果と、上記学習モデルに入力した上記音声データとを対応付けて記憶する文字起こし内容記憶部を有してよい。上記モデル更新部は、上記文字起こし結果に対する上記校正結果と、上記文字起こし結果に対応する上記音声データとに基づいて、上記学習モデルを更新してよい。
本発明の一実施態様によれば、通信端末が提供される。通信端末は、文字起こしサーバから受信した、音声データを文字化した文字起こし結果を表示部に表示させるよう制御する表示制御部を備えてよい。上記通信端末は、上記表示部に表示された上記文字起こし結果と、校正された上記文字起こし結果との差分を検出し、上記差分を示す校正結果を取得する校正結果取得部を備えてよい。上記通信端末は、上記校正結果を上記文字起こしサーバに送信する校正結果送信部を備えてよい。
上記表示制御部は、上記文字起こしサーバから受信した、動画データに含まれる上記音声データを文字化した上記文字起こし結果を字幕として、上記動画データとともに上記表示部に表示させてよい。上記校正結果取得部は、字幕として表示された上記文字起こし結果と、校正された上記文字起こし結果との上記差分を示す校正結果を取得してよい。
上記校正結果送信部は、校正前の上記文字起こし結果と校正後の上記文字起こし結果との上記差分が予め定められた条件を満たす場合に、上記校正結果を上記文字起こしサーバに送信してよい。上記条件を満たさない場合、上記校正結果を上記文字起こしサーバに送信せずによい。
上記通信端末は、上記表示部に表示された上記文字起こし結果に対する校正が完了したことを判定する完了判定部を有してよい。上記校正結果取得部は、上記完了判定部によって上記校正が完了したと判定されたことに応じて、校正前の上記文字起こし結果と、校正後の上記文字起こし結果との上記差分を検出してよい。
本発明の一実施態様によれば、コンピュータを、上記通信端末として機能させるためのプログラムが提供される。
本発明の一実施態様によれば、コンピュータを、上記通信端末として実行されるための方法が提供される。方法は、文字起こしサーバから、音声データを文字化した文字起こし結果を受信する受信段階を備えてよい。方法は、文字起こし結果を通信端末の表示部に表示させるよう制御する表示制御段階を備えてよい。方法は、表示部に表示された文字起こし結果と、校正された文字起こし結果との差分を検出し、差分を示す校正結果を取得する校正結果取得段階を備えてよい。方法は、校正結果を文字起こしサーバに送信する校正結果送信段階を備えてよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
システム1の一例を概略的に示す。 システム1による処理の流れの一例を概略的に示す。 通信端末20による校正結果取得処理の流れの一例を概略的に示す。 文字起こしサーバ10による学習モデル更新処理の流れの一例を概略的に示す。 文字起こしサーバ10の機能構成の一例を概略的に示す。 通信端末20の機能構成の一例を概略的に示す。 学習用データテーブル600の一例を概略的に示す。 校正作業画面700の一例を概略的に示す。 文字起こしサーバ10、又は通信端末20として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。
例えば、映像編集ソフトにおいて、入力された動画の音声について、例えばAI(Artificial Intelligence)により自動で文字起こしをし、動画内に字幕(キャプション)を挿入する機能が知られている。文字起こしとは、例えば、音声データを元に、その内容を文字化するものである。この機能では、動画に挿入された字幕について、編集者が校正を行い、問題がある箇所については字幕を編集する。
しかし、このような動画内のキャプションを校正するような作業を行うのは、映像業界関係者や、Youtuber(登録商標)等の一般の動画編集ソフトの使用者で、人間の手で校正される機会は、かなり限定されている。このため、文字起こしAIが利用される場合に、一般の使用者による校正データで、文字起こしAIの学習機会を得ることが難しい。また、文字起こしAIの学習機会が得られることがあっても、文字起こしAIの教師データへのフィードバック等は、校正者以外の手を煩わせることがある。
これに対して、本実施形態に係るシステムは、音声の文字起こしにおける、字幕校正の内容学習の仕組みを提供する。例えば、システムは、音声の文字起こしAIと、映像編集ソフトの字幕編集機能とに対して、校正内容の差分、及び確定タイミング検出機能、及びAI学習への教師データへの入力機能を追加し、自動的な文字起こしAIの学習の仕組みを提供する。このため、文字起こしAIの利用者は、意識せずに文字起こしAIの精度を向上させることができ、AIによる文字起こしの校正箇所が減ることにより、将来の校正作業の効率化を図ることができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、システム1の一例を概略的に示す。システム1は、文字起こしサーバ10、及び通信端末20を備える。文字起こしサーバ10と通信端末20は、ネットワーク40を介して接続されてよい。通信端末20は、複数存在してもよい。
システム1は、文字起こしサーバ10が、音声データを学習モデルにより文字起こしし、通信端末20が、文字起こしに対するユーザ22の校正を受け付け、文字起こしサーバ10が、校正の結果を学習モデルにフィールドバックする機能を備える。
ネットワーク40は、インターネットであってよい。ネットワーク40は、LAN(Local Area Network)であってもよい。ネットワーク40は、移動体通信ネットワークであってもよい。移動体通信ネットワークは、3G(3rd Generation)通信方式、LTE(Long Term Evolution)通信方式、5G(5th Generation)通信方式、及び6G(6th Generation)通信方式以降の通信方式のいずれに準拠していてもよい。ネットワーク40は、移動体通信ネットワーク、LAN、及びインターネットのうちの複数を含んでもよく、すべてを含んでもよい。
文字起こしサーバ10は、例えば、動画データを取得し、当該動画データと、当該動画データに含まれる音声データを文字化した文字起こし結果とを通信端末20に送信する。文字起こしサーバ10は、例えば、ネットワーク40を介して動画データを取得する。文字起こしサーバ10は、任意の装置から動画データを受信してよい。文字起こしサーバ10は、可搬型の記憶媒体から動画データを読み出してもよい。文字起こしサーバ10は、文字起こしサーバ10において生成された動画データと、当該動画データに含まれる音声データを文字化した文字起こし結果とを通信端末20に送信してもよい。
文字起こしサーバ10は、例えば、音声データを取得し、音声データと、当該音声データを文字化した文字起こし結果とを通信端末20に送信する。文字起こしサーバ10は、例えば、ネットワーク40を介して音声データを取得する。文字起こしサーバ10は、任意の装置から音声データを受信してよい。文字起こしサーバ10は、可搬型の記憶媒体から音声データを読み出してもよい。文字起こしサーバ10は、文字起こしサーバ10において生成された音声データと、当該音声データを文字化した文字起こし結果とを通信端末20に送信してもよい。
文字起こしサーバ10は、音声データを入力とし、当該音声データを文字化した文字起こし結果を出力とする学習モデルを用いて、文字起こしをしてよい。文字起こしサーバ10は、学習モデルを予め記憶しておく。文字起こしサーバ10は、学習モデルを生成して、記憶してよい。文字起こしサーバ10は、他の装置から学習モデルを受信して、記憶してもよい。
学習モデルは、公知の任意の手法を用いて生成されてよい。例えば、学習モデルは、音声データと、音声データの内容を示すテキストデータとを教師データとした機械学習によって生成される。学習モデルは、教師なし学習によって生成されてもよい。学習モデルは、強化学習によって生成されてもよい。
通信端末20は、表示機能及び音声出力機能を有していれば、どのような端末であってもよい。通信端末20は、例えば、PC(Personal Computer)、スマートフォン、及びタブレット端末等であってよい。通信端末20は、例えば、文字起こしサーバ10から受信した動画データ又は音声データと、文字起こし結果とを、ユーザ22に向けて出力する。
通信端末20は、例えば、文字起こし結果を字幕として動画データとともに通信端末20の表示部に表示する。ユーザ22は、動画データを閲覧しながら、字幕として表示されている文字起こし結果を校正する。また、通信端末20は、例えば、音声データを音声出力しつつ、文字起こし結果を表示部に表示する。ユーザ22は、音声データを聴きながら、文字起こし結果を校正する。なお、状況によっては、通信端末20が、文字起こし結果のみをユーザ22に向けて出力し、ユーザ22が文字起こし結果のみを閲覧して文字起こし結果を校正することもあり得る。通信端末20は、文字起こし結果に対する校正結果を取得して、文字起こしサーバ10に送信する。
通信端末20が、校正結果を取得して文字起こしサーバ10に送信するタイミングは、ユーザ22によって指示されてよい。例えば、ユーザ22は、校正作業が完了したタイミングで、通信端末20に対して指示をする。
通信端末20は、校正が完了したことを自動的に判定してもよい。例えば、文字起こし結果を字幕として動画データとともに表示し、ユーザ22が字幕として表示されている文字起こし結果を校正する場合において、通信端末20は、動画データのエンコードが開始されたことに応じて、校正が完了したと判定する。このように、通信端末20が自動的に判定することによって、ユーザ22の負荷を低減することができる。また、映像編集ソフトで字幕の校正を行うユーザ22に特に意識させることなく、校正結果を収集可能にできる。通信端末20は、文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、校正が完了したと判定してもよい。通信端末20は、文字起こし結果のデータが上書き保存されたことに応じて、校正が完了したと判定してもよい。これらにより、ユーザ22による校正が完了した蓋然性が高い状態になった後、校正結果を取得して文字起こしサーバ10に送信することができ、例えば、ユーザ22によって行われた校正の内容にミスがあり、すぐに訂正されたような場合や、同じ字幕について、短時間に何度も校正されたような場合であっても、最終的な校正結果を文字起こしサーバ10に送信することができる。
文字起こしサーバ10は、自身が学習モデルを生成した場合も、他の装置から学習モデルを受信した場合も、学習モデルを更新する機能を有する。文字起こしサーバ10は、通信端末20から受信した校正結果に基づいて、学習モデルを更新する。
例えば、文字起こしサーバ10は、音声データと、当該音声データを学習モデルに入力して出力された文字起こし結果とを対応付けて記憶しておく。文字起こしサーバ10は、複数の音声データ及び文字起こし結果を記憶しておく。そして、文字起こしサーバ10は、それぞれの文字起こし結果について、校正された場合に、音声データに対応付けて記憶する文字起こし結果を、校正後の文字起こし結果に置き換えて、再学習を実行する。なお、これは一例であって、音声データに対応する文字起こし結果が校正された場合に、次に同じ音声データが入力されたときに、校正後の文字起こし結果を出力するように調整できれば、どのような再学習方法を用いてもよい。
文字起こしサーバ10は、校正後の文字起こし結果が、校正前の文字起こし結果とかけ離れた内容である場合には、当該校正後の文字起こし結果を、再学習に用いるデータから除外するようにしてもよい。例えば、文字起こしサーバ10は、校正前後の文字起こし結果の差分を示す差分値が予め定められた閾値より低い場合に、校正結果を企画学習に用いる学習用データとして記憶し、閾値より低くない場合には、学習用データとして記憶しない。
例えば、ユーザ22による校正作業において、実際の音声データとは異なる内容や、実際の音声データに加えて、説明を付した内容を、字幕として入力する場合がある。このような場合に、校正結果を用いて学習モデルを更新してしまうと、精度が低下してしまい得るが、それを防止することができる。
本実施形態に係るシステム1は、例示したように、機械学習による学習モデルを使用して音声データの文字起こしを行った文字起こし結果に対する校正作業において、校正結果の確定タイミングについて、予め定められた条件を満たした場合に、ユーザ22による校正結果を取得し、予め定められた条件を満たした場合に、校正結果を機械学習の学習用データとして採用する。これにより、ユーザ22によって行われた校正結果を、最適化された内容で自動的に取得し、学習用データとして取得し、人の手を煩わせずに学習モデルを更新することができる。ユーザ22に意識させることなく、自動的に、学習に必要なデータを収集し、学習モデルを更新する仕組みを実現することができるので、文字起こし技術の向上に貢献することができる。
図2は、システム1による処理の流れの一例を概略的に示す。ここでは、文字起こしサーバ10が、校正対象の動画データを取得した状態を開始状態として説明する。
ステップ(ステップをSと省略して記載する場合がある。)302では、文字起こしサーバ10が、動画データから音声データを取得する。S304では、文字起こしサーバ10が、S302で取得した音声データを、学習モデルに入力することで文字起こしをする。
S306では、文字起こしサーバ10が、S304の結果である文字起こし結果を、通信端末20へ送信する。文字起こしサーバ10は、文字起こし結果とともに動画データを送信する。
S308では、通信端末20が、文字起こしサーバ10から受信した文字起こし結果を、校正作業を行うユーザ22に向けて出力する。通信端末20は、文字起こし結果を動画データとともに出力する。S310では、通信端末20が、S308で校正作業を行われたユーザの校正結果を取得する。この校正結果取得処理については、詳細を後述する。
S312では、通信端末20が、S310で取得した校正結果を、文字起こしサーバ10へ送信する。S314では、文字起こしサーバ10が、受信した校正結果を元に、学習モデル更新処理を行う。この学習モデル更新処理については、詳細を後述する。
図3は、通信端末20による校正結果取得処理の流れの一例を概略的に示す。ここでは、図2におけるS310の状態を開始状態として説明する。
S330では、通信端末20が、ユーザ22による文字起こしの校正中の動画データに対してエンコードが開始されたか否かを判定し、開始された場合、S332へ進み、開始されていない場合、S334へ進む。S332では、通信端末20が、蓄積されたユーザ22による校正結果をまとめて取得する。
S334では、通信端末20が、ユーザ22が文字起こしの校正を開始してから、予め定められた時間が経過したか否かを判定し、経過した場合、S332へ進み、経過していない場合、S336へ進む。
S336では、通信端末20が、ユーザ22が文字起こし校正を開始してから、校正対象のファイルが上書き保存されたか否かを判定し、上書き保存がされている場合、S332へ進み、上書き保存がされていない場合、S330へ戻る。
図4は、文字起こしサーバ10による学習モデル更新処理の流れの一例を概略的に示す。ここでは、図2におけるS314の状態を開始状態として説明する。
S350では、文字起こしサーバ10が、S332で取得した校正結果のうちの、一の校正後の文字起こし結果について、校正前後の差分を示す差分値を取得する。一つの文字起こし結果は、例えば、文字起こし結果が字幕である場合に、字幕1つ分であってよい。また、一つの文字起こし結果は、1文であってもよい。また、一つの文字起こし結果は、文節単位等の、任意の単位であってもよい。
校正前の文字起こしデータは、校正結果に含まれてよい。また、校正結果に、校正後の文字起こしデータと校正前の文字起こしデータとの差分を示す差分値が含まれてもよい。文字起こしサーバ10は、予め記憶していた校正前の文字起こしデータと、校正結果に含まれる文字起こしデータとの差分を示す差分値を算出してもよい。
差分値とは、校正前の文字起こしデータと、校正後の文字起こしデータとの違いを表すパラメータであり、例えば、校正前の文字起こしデータと、校正後の文字起こしデータとの文字数の差が大きいほど、校正された文字数が多いほど、大きくなる。逆に、校正前の文字起こしデータと、校正後の文字起こしデータとの文字数の差が小さい場合や、校正された文字数が少ないほど、小さくなる。
S352では、文字起こしサーバ10が、S350で取得した差分値が予め定められた閾値より低いか否かを判定し、閾値より低い場合、S354へ進み、閾値より低くない場合、S356へ進む。
但し、校正前の文字起こしデータと、校正後の文字起こしデータとの違いが全くなく、例えば差分値が0になるような場合は、S356へ進む。校正作業を行うようなユーザが、校正した内容を、元に戻したような場合も考えられるためである。S354では、文字起こしサーバ10が、S350で取得した校正後の文字起こし結果と音声データと対応付けてを、学習用データとして記憶する。
S356では、文字起こしサーバ10が、校正結果に含まれるすべての文字起こし結果についての判定が終了したか否かを判定し、終了した場合、処理を終了し、終了していない場合、S350へ戻り、校正結果のうちの次の文字起こし結果の差分値を取得する。
図5は、文字起こしサーバ10の機能構成の一例を概略的に示す。文字起こしサーバ10は、データ取得部100、文字起こし部104、文字起こし結果送信部110、内容記憶部112、学習用データ記憶部114、モデル更新部118、及び校正結果受信部120を備える。なお、文字起こしサーバ10が、これらの全てを備えることは必須とは限らない。
データ取得部100は、音声データ102を取得する。データ取得部100は、動画データに含まれる音声データ102を取得してよい。
文字起こし部104は、データ取得部100が取得した音声データ102に対して文字起こしを実行する。文字起こし部104は、音声データ102を入力とし、音声データ102を文字化した文字起こし結果106を出力とする学習モデルに、音声データ取得部100が取得した音声データ102を入力して、文字起こし結果106を取得してよい。
文字起こし結果送信部110は、文字起こし部104が取得した文字起こし結果106を通信端末20に送信する。文字起こし結果送信部110は、動画データ及び文字起こし結果106を通信端末20に送信してよい。文字起こし結果送信部110は、音声データ102及び文字起こし結果106を通信端末20に送信してよい。
内容記憶部112は、文字起こし部104が取得した文字起こし結果106と、学習モデルに入力した音声データ102とを対応付けて記憶する。内容記憶部112は、複数の文字起こし結果106及び音声データ102をそれぞれ対応付けて記憶する。
校正結果受信部120は、通信端末20から校正後の文字起こし結果106を含む校正結果208を受信する。校正結果208は、文字起こし結果送信部110が送信した文字起こし結果106に対して、ユーザ22が校正した結果である。
学習用データ記憶部114は、学習モデルを更新するために用いる学習用データを記憶する。学習用データ記憶部114は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分が予め定められた条件を満たす場合に、校正結果208を、学習用データとして記憶する。学習用データ記憶部114は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分が予め定められた条件を満たさない場合には、校正結果208を学習用データとして記憶しない。
当該条件は、校正後の文字起こしデータが、校正前の文字起こしデータとかけ離れた内容でない場合に満たされるものであってよい。例えば、学習用データ記憶部114は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分を示す差分値が予め定められた閾値より低い場合に、校正結果208を、学習用データとして記憶し、閾値より低くない場合、校正結果208を学習用データとして記憶しない。また、例えば、学習用データ記憶部114は、校正前の文字起こし結果106に対して、内容が追加されていないと判定した場合に、校正結果208を、学習用データとして記憶し、内容が追加されていると判定した場合、校正結果208を学習用データとして記憶しない。学習用データ記憶部114は、例えば、校正前の文字起こし結果106に対して、カッコ書きが追加されている場合、内容が追加されていると判定する。
モデル更新部118は、学習用データ記憶部114に学習用データとして記憶されている校正結果208に基づいて学習モデルを更新する。モデル更新部118は、文字起こし結果106に対する校正結果208と、当該文字起こし結果106に対応する音声データ102とに基づいて、学習モデルを更新してよい。モデル更新部118は、校正前後の文字起こし結果106と、文字起こし結果106に対応する音声データ102とに基づいて、学習モデルを更新してよい。
図6は、通信端末20の機能構成の一例を概略的に示す。通信端末20は、文字起こし結果受信部200、表示部202、表示制御部204、校正結果取得部206、校正結果送信部210、及び完了判定部212を備える。なお、通信端末20がこれらの全てを備えることは必須とは限らない。
文字起こし結果受信部200は、文字起こしサーバ10から文字起こし結果106を受信する。文字起こし結果受信部200は、文字起こしサーバ10から、文字起こし結果106とともに動画データを受信してよい。文字起こし結果受信部200は、文字起こしサーバ10から、文字起こし結果106とともに音声データを受信してよい。
表示制御部204は、文字起こし結果106を表示部202に表示させるよう制御する。文字起こし結果106の表示は、音声データ102の再生を伴ってもよい。表示制御部204は、文字起こし結果106を動画データとともに表示部202に表示させるよう制御してよい。表示制御部204は、文字起こし結果106を字幕として動画データとともに表示部202に表示させるよう制御してよい。
校正結果取得部206は、表示部202に表示された文字起こし結果106に対する校正結果208を取得する。校正結果取得部206は、字幕として表示された文字起こし結果106に対する校正結果208を取得してよい。校正結果取得部206は、校正前の文字起こし結果106と、校正後の文字起こし結果106との差分を検出し、差分を示す校正結果208を取得してよい。
校正結果208は、校正後の文字起こし結果106を含んでよい。校正結果208は、校正前の文字起こし結果106を含んでよい。校正結果208は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分を含んでよい。校正結果208は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分を示す差分値を含んでよい。校正結果208は、校正結果に関するその他のデータを含んでもよい。
校正結果送信部210は、校正結果取得部206が取得した校正結果208を、文字起こしサーバ10に送信する。校正結果送信部210は、校正後の文字起こし結果106を含む校正結果208を文字起こしサーバ10に送信してよい。
校正結果送信部210は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分が予め定められた条件を満たす場合に、校正結果208を文字起こしサーバ10に送信し、条件を満たさない場合、校正結果208を文字起こしサーバ10に送信しなくてよい。例えば、校正結果送信部210は、校正前の文字起こし結果106と校正後の文字起こし結果106との差分を示す差分値が予め定められた閾値より低い場合に、校正結果208を文字起こしサーバ10に送信し、閾値より低くない場合、校正結果208を文字起こしサーバ10に送信しない。また、例えば、校正結果送信部210は、校正前の文字起こし結果106に対して、内容が追加されていないと判定した場合に、校正結果208を文字起こしサーバ10に送信し、追加されていると判定した場合に、校正結果208を文字起こしサーバ10に送信しない。
完了判定部212は、表示部202に表示された文字起こし結果106に対する校正が完了したことを判定する。例えば、文字起こし結果受信部200が文字起こし結果106とともに動画データを受信し、表示制御部204が、文字起こし結果を字幕として動画データとともに表示部202に表示させた場合において、完了判定部212は、通信端末20において、校正された文字起こし結果106を含む動画データのエンコードが開始されたことに応じて、校正が完了したと判定してよい。
完了判定部212は、表示部202に表示された文字起こし結果106に対する校正が開始されてから予め定められた時間が経過したことに応じて、校正が完了したと判定してよい。完了判定部212は、通信端末20において文字起こし結果106のデータが上書き保存されたことに応じて、校正が完了したと判定してよい。
校正結果取得部206は、完了判定部212によって校正が完了したと判定されたことに応じて、校正前の文字起こし結果106と、校正後の文字起こし結果106との差分を検出してよい。
図7は、学習用データテーブル600の一例を概略的に示す。学習用データテーブル600には、音声データと、学習用データとして記憶された、音声データの文字起こし結果を校正した校正結果とが対応付けて登録されてよい。学習用データテーブル600には、校正前の文字起こしデータが更に登録されてもよい。図7に示す例において、学習用データテーブル600は、履歴番号欄602、音声データ欄604、及び校正結果欄606を有する。
履歴番号欄602は、学習用データテーブル600のデータを一意に識別するインデックス用の番号を含む。音声データ欄604は、ユーザ22が校正作業を行った対象の音声データを保存した音声ファイルのファイル名を含む。音声データは、文字起こしが行われた音声データのうち、学習前の学習モデルによる校正前の文字起こしデータでは、文字起こしに問題があり、ユーザにより何らかの校正作業を行われ、校正結果が存在するものである。例えば、履歴番号「1」の「202112110100.wav」は、ユーザの校正作業の対象となった実際のファイル名を表す。
校正結果欄606は、校正結果を含む。校正結果欄606は、校正後の文字起こし結果106を含んでよい。校正結果は、ユーザ22によって校正された箇所のみを含んでもよい。例えば、履歴番号「1」の校正結果欄606は、「202112110100.wav」に含まれる音声を、学習モデルにより文字起こしした結果に対する、ユーザ22の校正結果が「よりよい明日を」というものであることを示す。
図8は、校正作業画面700の一例を概略的に示す。校正作業画面700は、校正作業を行うユーザ22が、校正対象が動画データの字幕である場合に使用する映像編集用ソフトの画面表示例である。校正作業画面700は、動画ウインドウ702、字幕ウインドウ704、校正入力ウインドウ706、及びプログレスバー708を有する。
動画ウインドウ702は、動画データを表示する。動画データの表示に合わせて、音声データが音声出力される。字幕ウインドウ704は、編集中の動画データのシーンに対する字幕を表示する。表示される字幕は、その時点で最新のものであり、例えば校正前の文字起こし結果106に対して、既にユーザによる校正を受け付けていた場合は、校正後の文字起こし結果106が表示される。
また、動画ウインドウ702と字幕ウインドウ704とは、校正対象の動画データのエンコード前では、動画データには字幕が含まれず、動画データと、文字起こし結果106とは、別のデータとして保存されていてもよい。
校正入力ウインドウ706は、校正を行うユーザ22が、字幕ウインドウ704に表示されている内容に対して、校正を行いたい場合に、文字が入力されるウインドウである。校正入力ウインドウ706は、例えば、動画ウインドウ702が動画を再生している状態で、校正を行うユーザ22の入力を受け付けた場合に、動画ウインドウ702の再生を停止し、校正入力を受け付けるような動作をしてもよい。
校正入力ウインドウ706は、例えば校正を行うユーザ22の校正入力を受け付けて、決定ボタンや、エンターキーが入力されることで編集中のシーンに対する校正を確定し、字幕ウインドウ704に表示される字幕の内容を更新し、動画ウインドウ702の動画の再生を再開してもよい。
プログレスバー708は、現在編集中の動画内における表示中のシーンの位置を、動画の再生開始からの時間で表示している。例えばプログレスバー708においては、再生開始から30分11秒のシーンを表示していることを表す。プログレスバー708は、例えば、校正を行うユーザの入力を受け付けて、自在に動画の再生シーンを変更できるような機能を備えてもよい。なお、校正作業画面700は、動画ウインドウ702に動画を表示せず、音声データ102のみを再生する態様であってもよい。
図9は、文字起こしサーバ10、又は通信端末20として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブは、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
CPU1212は、ROM1230及びRAM1214内に記憶されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを記憶する。DVDドライブは、プログラム又はデータをDVD-ROM等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを記憶する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
プログラムは、DVD-ROM又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM、又はICカードのような記録媒体内に提供される送信バッファ領域に記憶された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU1212は、記憶装置1224、DVDドライブ(DVD-ROM)、ICカード等のような外部記録媒体に記憶されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に記憶され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に記憶される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に記憶された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に記憶されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に記憶されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に記憶されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を記憶可能な任意の有形なデバイスを含んでよく、その結果、そこに記憶される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピーディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
1 システム、10 文字起こしサーバ、20 通信端末、22 ユーザ、40 ネットワーク、100 データ取得部、102 音声データ、104 文字起こし部、106 文字起こし結果、110 文字起こし結果送信部、112 内容記憶部、114 学習用データ記憶部、118 モデル更新部、120 校正結果受信部、200 文字起こし結果受信部、202 表示部、204 表示制御部、206 校正結果取得部、208 校正結果、210 校正結果送信部、212 完了判定部、600 学習用データテーブル、602 履歴番号欄、604 音声データ欄、606 校正結果欄、700 校正作業画面、702 動画ウインドウ、704 字幕ウインドウ、706 校正入力ウインドウ、708 プログレスバー、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1230 ROM、1240 入出力チップ

Claims (19)

  1. 文字起こしサーバ及び通信端末
    を備え、
    前記文字起こしサーバは、
    音声データを取得するデータ取得部と、
    前記音声データを入力とし、前記音声データを文字化した文字起こし結果を出力とする学習モデルに、前記データ取得部が取得した前記音声データを入力して、前記文字起こし結果を取得する文字起こし部と、
    前記文字起こし部が取得した前記文字起こし結果を前記通信端末に送信する文字起こし結果送信部と
    を有し、
    前記通信端末は、
    前記文字起こし結果を表示部に表示させるよう制御する表示制御部と、
    前記表示部に表示された前記文字起こし結果に対する校正結果を取得する校正結果取得部と、
    前記校正結果を前記文字起こしサーバに送信する校正結果送信部と
    を有し、
    前記文字起こしサーバは、
    前記校正結果に基づいて前記学習モデルを更新するモデル更新部
    を有する、システム。
  2. 前記データ取得部は、動画データに含まれる前記音声データを取得し、
    前記文字起こし結果送信部は、前記動画データ及び前記文字起こし結果を前記通信端末に送信し、
    前記表示制御部は、前記文字起こし結果を前記動画データとともに前記表示部に表示させるよう制御する、請求項1に記載のシステム。
  3. 前記表示制御部は、前記文字起こし結果を字幕として前記動画データとともに前記表示部に表示させるよう制御し、
    前記校正結果取得部は、前記字幕として表示された前記文字起こし結果に対する前記校正結果を取得する、請求項2に記載のシステム。
  4. 前記校正結果送信部は、校正後の前記文字起こし結果を含む前記校正結果を前記文字起こしサーバに送信し、
    前記文字起こしサーバは、
    校正前の前記文字起こし結果と校正後の前記文字起こし結果との差分が予め定められた条件を満たす場合に、前記校正結果を、機械学習に用いる学習用データとして記憶する学習用データ記憶部
    を更に有し、
    前記モデル更新部は、前記学習用データ記憶部に記憶されている前記校正結果に基づいて前記学習モデルを更新する、請求項1から3のいずれか一項に記載のシステム。
  5. 前記学習用データ記憶部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との差分を示す差分値が予め定められた閾値より低い場合に、前記校正結果を、前記機械学習に用いる前記学習用データとして記憶する、請求項4に記載のシステム。
  6. 前記学習用データ記憶部は、校正前の前記文字起こし結果に対して、内容が追加されていないと判定した場合に、前記校正結果を、機械学習に用いる学習用データとして記憶する、請求項4又は5に記載のシステム。
  7. 前記校正結果送信部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との前記差分が予め定められた条件を満たす場合に、前記校正結果を前記文字起こしサーバに送信し、前記条件を満たさない場合、前記校正結果を前記文字起こしサーバに送信しない、請求項4に記載のシステム。
  8. 前記校正結果取得部は、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との差分を検出し、前記差分を示す前記校正結果を取得する、請求項1から7のいずれか一項に記載のシステム。
  9. 前記通信端末は、
    前記表示部に表示された前記文字起こし結果に対する校正が完了したことを判定する完了判定部
    を更に有し、
    前記校正結果取得部は、前記完了判定部によって前記校正が完了したと判定されたことに応じて、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との前記差分を検出する、請求項8に記載のシステム。
  10. 前記データ取得部は、動画データに含まれる前記音声データを取得し、
    前記文字起こし結果送信部は、前記動画データ及び前記文字起こし結果を前記通信端末に送信し、
    前記表示制御部は、前記文字起こし結果を字幕として前記動画データとともに前記表示部に表示させるよう制御し、
    前記完了判定部は、前記通信端末において、校正された前記文字起こし結果を含む前記動画データのエンコードが開始されたことに応じて、前記校正が完了したと判定する、請求項9に記載のシステム。
  11. 前記完了判定部は、前記表示部に表示された前記文字起こし結果に対する校正が開始されてから予め定められた時間が経過したことに応じて、前記校正が完了したと判定する、請求項9又は10に記載のシステム。
  12. 前記完了判定部は、前記通信端末において前記文字起こし結果のデータが上書き保存されたことに応じて、前記校正が完了したと判定する、請求項9から11のいずれか一項に記載のシステム。
  13. 前記文字起こしサーバは、
    前記文字起こし部が取得した前記文字起こし結果と、前記学習モデルに入力した前記音声データとを対応付けて記憶する内容記憶部
    を有し、
    前記モデル更新部は、前記文字起こし結果に対する前記校正結果と、前記文字起こし結果に対応する前記音声データとに基づいて、前記学習モデルを更新する、請求項1から12のいずれか一項に記載のシステム。
  14. 文字起こしサーバから受信した、音声データを文字化した文字起こし結果を表示部に表示させるよう制御する表示制御部と、
    前記表示部に表示された前記文字起こし結果と、校正された前記文字起こし結果との差分を検出し、前記差分を示す校正結果を取得する校正結果取得部と、
    前記校正結果を前記文字起こしサーバに送信する校正結果送信部と
    を備える通信端末。
  15. 前記表示制御部は、前記文字起こしサーバから受信した、動画データに含まれる前記音声データを文字化した前記文字起こし結果を字幕として、前記動画データとともに前記表示部に表示させ、
    前記校正結果取得部は、字幕として表示された前記文字起こし結果と、校正された前記文字起こし結果との前記差分を示す校正結果を取得する、請求項14に記載の通信端末。
  16. 前記校正結果送信部は、校正前の前記文字起こし結果と校正後の前記文字起こし結果との前記差分が予め定められた条件を満たす場合に、前記校正結果を前記文字起こしサーバに送信し、前記条件を満たさない場合、前記校正結果を前記文字起こしサーバに送信しない、請求項14又は15に記載の通信端末。
  17. 前記表示部に表示された前記文字起こし結果に対する校正が完了したことを判定する完了判定部
    を更に有し、
    前記校正結果取得部は、前記完了判定部によって前記校正が完了したと判定されたことに応じて、校正前の前記文字起こし結果と、校正後の前記文字起こし結果との前記差分を検出する、請求項14から16のいずれか一項に記載の通信端末。
  18. コンピュータを、請求項14から17のいずれか一項に記載の通信端末として機能させるためのプログラム。
  19. 通信端末によって実行される方法であって、
    文字起こしサーバから、音声データを文字化した文字起こし結果を受信する受信段階と、
    前記文字起こし結果を前記通信端末の表示部に表示させるよう制御する表示制御段階と、
    前記表示部に表示された前記文字起こし結果と、校正された前記文字起こし結果との差分を検出し、前記差分を示す校正結果を取得する校正結果取得段階と、
    前記校正結果を前記文字起こしサーバに送信する校正結果送信段階と
    を備える方法。
JP2022002529A 2022-01-11 2022-01-11 システム、通信端末、及び方法 Active JP7236570B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022002529A JP7236570B1 (ja) 2022-01-11 2022-01-11 システム、通信端末、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022002529A JP7236570B1 (ja) 2022-01-11 2022-01-11 システム、通信端末、及び方法

Publications (2)

Publication Number Publication Date
JP7236570B1 JP7236570B1 (ja) 2023-03-09
JP2023102137A true JP2023102137A (ja) 2023-07-24

Family

ID=85476817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022002529A Active JP7236570B1 (ja) 2022-01-11 2022-01-11 システム、通信端末、及び方法

Country Status (1)

Country Link
JP (1) JP7236570B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284795A (ja) * 1999-03-08 2000-10-13 Internatl Business Mach Corp <Ibm> テキストの挿入と置換を区別するための方法およびシステム
JP2010048890A (ja) * 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
US20140114658A1 (en) * 2006-04-17 2014-04-24 Vovision, Llc Methods and systems for correcting transcribed audio files
JP2014134640A (ja) * 2013-01-09 2014-07-24 Nippon Hoso Kyokai <Nhk> 文字起こし装置およびプログラム
JP6824547B1 (ja) * 2020-06-22 2021-02-03 江崎 徹 アクティブラーニングシステム及びアクティブラーニングプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284795A (ja) * 1999-03-08 2000-10-13 Internatl Business Mach Corp <Ibm> テキストの挿入と置換を区別するための方法およびシステム
US20140114658A1 (en) * 2006-04-17 2014-04-24 Vovision, Llc Methods and systems for correcting transcribed audio files
JP2010048890A (ja) * 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
JP2014134640A (ja) * 2013-01-09 2014-07-24 Nippon Hoso Kyokai <Nhk> 文字起こし装置およびプログラム
JP6824547B1 (ja) * 2020-06-22 2021-02-03 江崎 徹 アクティブラーニングシステム及びアクティブラーニングプログラム

Also Published As

Publication number Publication date
JP7236570B1 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
JP4875752B2 (ja) 編集可能なオーディオストリームにおける音声の認識
CN104246750B (zh) 抄录语音
US8302010B2 (en) Transcript editor
JP2018077870A (ja) 音声認識方法
CN109817210B (zh) 语音写作方法、装置、终端和存储介质
US20190213246A1 (en) Systems and Methods for Using a Program Schedule to Facilitate Modifying Closed-Captioning Text
JP2009047920A (ja) ユーザと音声により対話する装置および方法
US9645985B2 (en) Systems and methods for customizing text in media content
US20190267007A1 (en) Text correction apparatus and text correction method
JP2014222290A (ja) 議事録記録装置、議事録記録方法及びプログラム
WO2009122779A1 (ja) テキストデータ処理装置、方法、プログラムが格納された記録媒体
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
US11967248B2 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal
JP2018112681A (ja) 外国語学習装置
JP5083155B2 (ja) 辞書機能を備えた電子装置およびプログラム
JP7236570B1 (ja) システム、通信端末、及び方法
JP2007041302A (ja) 音声再生装置および音声再生処理プログラム
US20220059095A1 (en) Phrase alternatives representation for automatic speech recognition and methods of use
JP2018146961A (ja) 音声再生装置及び音楽再生プログラム
KR100383061B1 (ko) 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법
JP2008009221A (ja) 音声再生制御装置及び音声再生制御プログラム
JP4591481B2 (ja) 表示制御装置および表示制御処理プログラム
US20070067168A1 (en) Method and device for transcribing an audio signal
EP4000703A1 (en) Apparatus and method for analysis of audio recordings
JP7481863B2 (ja) 音声認識誤り修正支援装置、プログラムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230227

R150 Certificate of patent or registration of utility model

Ref document number: 7236570

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150