JP2019148681A - テキスト修正装置、テキスト修正方法およびテキスト修正プログラム - Google Patents

テキスト修正装置、テキスト修正方法およびテキスト修正プログラム Download PDF

Info

Publication number
JP2019148681A
JP2019148681A JP2018032888A JP2018032888A JP2019148681A JP 2019148681 A JP2019148681 A JP 2019148681A JP 2018032888 A JP2018032888 A JP 2018032888A JP 2018032888 A JP2018032888 A JP 2018032888A JP 2019148681 A JP2019148681 A JP 2019148681A
Authority
JP
Japan
Prior art keywords
text
correction
unit
morpheme
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018032888A
Other languages
English (en)
Other versions
JP2019148681A5 (ja
Inventor
聡 三小田
Satoshi Mikota
聡 三小田
康佑 家村
Kosuke Iemura
康佑 家村
忍武 時田
Shinobu Tokita
忍武 時田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018032888A priority Critical patent/JP2019148681A/ja
Priority to US16/279,023 priority patent/US20190267007A1/en
Publication of JP2019148681A publication Critical patent/JP2019148681A/ja
Publication of JP2019148681A5 publication Critical patent/JP2019148681A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声の書き起こし結果の修正の作業量を軽減することを目的とする。【解決手段】テキスト修正装置は、音声データに基づいて認識された文章データを複数のテキスト単位に分割する分割部と、分割された前記複数のテキスト単位のうち、何れかのテキスト単位の指定が入力装置を介して入力された場合、指定されたテキスト単位を修正対象として特定する特定部と、前記指定されたテキスト単位を修正可能な状態で表示装置に表示する表示制御部と、前記指定されたテキスト単位に対する修正を前記文章データに反映する修正部と、を含む。【選択図】図1

Description

本発明は、テキスト修正装置、テキスト修正方法およびテキスト修正プログラムに関する。
音声データをテキスト化する作業は、書き起こし等と称される。音声データを書き起こしする手法としては、手動による書き起こしの手法と、音声認識による自動書き起こしの手法とがある。
手動による書き起こしは、コンピュータを操作する作業者が、再生中の音声を聞きながら、キーボード等の入力装置を用いて、音声に対応する文字を入力し、当該入力装置からの入力に基づいてコンピュータがテキスト化する作業である。音声認識による自動書き起こしは、コンピュータが、音声データを音声認識することで、自動で音声をテキスト化する処理である。
関連する技術として、不要語を含まない書き起こしテキストから不要語を含む文法モデルを生成し、その文法モデルを用いて実際の音声を音声認識する技術が提案されている(例えば、特許文献1を参照)。また、下記の特許文献2、特許文献3の技術も提案されている。
特開2018−4947号公報 特開平9−190436号公報 特開2009−217665号公報
手動による書き起こしの場合、操作者によるタイプミスや漢字の変換誤り等により、本来の意味とは異なる誤った単語を含むテキストデータが生成される場合がある。音声認識による自動書き起こしの場合、音声データの音声認識が行なわれた結果、単語が誤って認識されることがある。この場合も、誤った単語を含むテキストデータが生成される。誤った単語は、修正される必要がある。
誤った単語の修正作業は、コンピュータを操作する作業者が、キーボードを用いて、行なう。1つの文章には、複数の単語が含まれる。作業者は、キーボードを用いて、誤った単語の箇所まで、カーソルを移動する操作を行い、誤った単語を削除し、正しい単語に修正する作業を行う。複数の単語が誤っている場合、該作業が、複数回行なわれる。
また、1回の音声の再生では、単語が聞き取りにくい場合がある。この場合、作業者が、修正対象の単語に対応する音声を繰り返し再生する操作を行い、単語の修正作業を行なう。以上のように、音声の書き起こし結果を修正する場合、修正作業が煩雑になる。
1つの側面として、本発明は、音声の書き起こし結果の修正の作業量を軽減することを目的とする。
1つの態様では、テキスト修正装置は、音声データに基づいて認識された文章データを複数のテキスト単位に分割する分割部と、分割された前記複数のテキスト単位のうち、何れかのテキスト単位の指定が入力装置を介して入力された場合、指定されたテキスト単位を修正対象として特定する特定部と、前記指定されたテキスト単位を修正可能な状態で表示装置に表示する表示制御部と、前記指定されたテキスト単位に対する修正を前記文章データに反映する修正部と、を含む。
1つの側面によれば、音声の書き起こし結果の修正の作業量を軽減することができる。
テキスト修正装置の一例を示す図である。 ディスプレイに表示される画面例を示す図(その1)である。 ディスプレイに表示される画面例を示す図(その2)である。 文章データが指定された場合の流れの一例を示すフローチャートである。 部品テーブルの一例を示す図である。 第1の例におけるキー押下時の処理の流れを示すフローチャート(その1)である。 第1の例におけるキー押下時の処理の流れを示すフローチャート(その2)である。 第2の例におけるキー押下時の処理の流れを示すフローチャート(その1)である。 タイマイベントハンドラ処理の流れの一例を示すフローチャートである。 時間テーブルの一例を示す図である。 第2の例におけるキー押下時の処理の流れを示すフローチャート(その2)である。 学習済みモデルによる推定の一例を示す図である。 ディスプレイに表示される画面例を示す図(その3)である。 ディスプレイに表示される画面例を示す図(その4)である。 第3の例におけるキー押下時の処理の流れを示すフローチャート(その1)である。 第3の例におけるキー押下時の処理の流れを示すフローチャート(その2)である。 ディスプレイに表示される画面例を示す図(その5)である。 ディスプレイに表示される画面例を示す図(その6)である。 第2の実施形態の処理の流れの一例を示すフローチャートである。 修正モード処理の流れの一例を示すフローチャートである。 テキスト修正支援装置のハードウェア構成の一例を示す図である。 ディスプレイに表示される画面例を示す図(その7)である。
<第1の実施形態>
図1を参照して、第1の実施形態のテキスト修正装置について、説明する。テキスト修正装置1は、音声データに基づく文章データに含まれる単語等の修正や編集等に用いられる装置である。
例えば、テキスト修正装置1は、音声データを含む動画データのうち音声の字幕を修正する際に用いられる。テキスト修正装置1は、テレビジョンの放送における字幕の修正等に用いられてもよい。テキスト修正装置1は、例えば、パーソナルコンピュータであり、コンピュータの一例である。
テキスト修正装置1には、キーボード2とディスプレイ3とスピーカ4とが接続されている。第1の実施形態および第2の実施形態において、テキスト修正装置1に対する入力は、キーボード2等の入力装置により行なわれるものとする。
以下、テキスト修正装置1は、音声データを音声認識して、音声データをテキスト化するものとして説明する。また、テキスト修正装置1を操作する作業者(以下、ユーザと称する)が、音声データの音声を聞きながら、キーボード2に、音声に対応する文字を入力することで、テキスト修正装置1が、音声データをテキスト化してもよい。
例えば、ユーザが、音声データが録音されたテープの音声を聞きながら、キーボード2等の入力装置に対し、音声に対応する文字を入力することで、テキスト修正装置1が、音声データをテキスト化してもよい。また、会議等の会話を、ユーザが聞きながら、キーボード2に、音声に対応する文字を入力することで、テキスト修正装置1が、音声データをテキスト化してもよい。
音声認識によりテキスト化された文章データと、ユーザがキーボード2を用いて文字を入力してテキスト化された文章データとは、何れも、音声データに基づく文章データである。該文章データは、テキストデータである。
テキスト修正装置1は、制御部11と記憶部12と通信部13とを含む。制御部11は処理部20と動画再生部21と音声認識部22と形態素解析部23と形態素特定部24と表示制御部25と修正部26とタイマイベントハンドラ27と修正候補推定部28と音声再生制御部29とを含む。
記憶部12は、音声データを含む動画データや音声データに基づく文章データ、テーブル等の情報を記憶している。通信部13は、ネットワークを介して、外部のサーバ等と通信を行う。
処理部20は、各種の処理を行なう。動画再生部21は、記憶部12に記憶されている動画データを再生する制御を行う。該制御により、ディスプレイ3の画面に動画が再生され、スピーカ4から音声が流れる。音声認識部22は、動画データのうち音声部分の音声認識を行い、音声をテキスト化する。テキスト化された文章データは、記憶部12に記憶される。これにより、動画データのうち音声部分の書き起こしが行なわれる。
形態素解析部23は、文章データを解析して、文章データを複数の形態素に分割する。形態素は、テキスト単位の一例である。文章データは、単語や語句等に分割されてもよい。この場合、単語や語句等がテキスト単位に対応する。
形態素特定部24は、複数の形態素のうち、ユーザの操作により指定された修正対象の形態素を特定する。形態素特定部24は、特定部の一例である。
表示制御部25は、表示装置であるディスプレイ3の画面の表示制御を行う。修正部26は、テキスト修正装置1を操作するユーザが、キーボード2等の入力装置に入力した修正内容に基づいて、形態素に対する修正を反映する。
タイマイベントハンドラ27は、テキスト修正装置1に実装されるインターバルタイマがカウントする一定時間ごとに、イベントに関する処理を行なう。
修正候補推定部28は、過去の複数の文章データを入力とした機械学習により得られる学習済みモデルに基づいて、文章データに含まれる複数の形態素のうち、修正対象の形態素についての修正候補を推定する。音声再生制御部29は、スピーカ4から流れる形態素の音声等の再生速度を制御する。
図2および図3は、第1の実施形態において、表示装置であるディスプレイ3に表示される画面例を示す。図2は、文章データの修正前の画面例であり、図3は、文章データの修正後の画面例である。画面30は、ディスプレイ3に表示される画面である。画面30は、文章データ表示領域31と動画表示領域32とテキスト表示領域33とテキスト修正領域34とを含む。
文章データ表示領域31には、複数の文章データが選択可能に表示される。例えば、1つの動画データの音声データがテキスト化されると、複数の文章データが生成される。以下、1つの文章データは、句点から句点までの文字列であるものとするが、1つの文章データには、句点から句点までの1つの文字列が複数含まれていてもよい。図2では、「当社のDプランニングは、最新美術を使っています。」という文章が選択されているものとする。
動画表示領域32は、動画再生部21が動画データを表示する領域であり、該動画表示領域32において動画が再生される。テキスト表示領域33は、音声認識部22が、再生中の動画データのうち音声部分を音声認識して、テキスト化した文章データ(書き起こされた文章)を表示する領域である。該テキスト表示領域33は、例えば、字幕である。
テキスト修正領域34は、文章データに含まれる形態素を修正するための領域である。テキスト修正領域34には、テキスト表示領域33と同じ文章データが表示される。テキスト修正領域34に表示されている文章データは、修正をすることができる。
テキスト修正領域34は、ガイド表示領域34Gを含む。ガイド表示領域34Gには、文章データを形態素解析して得られる各形態素のそれぞれに対応するショートカットキーが表示される。該ショートカットキーは、形態素を特定する特定情報の一例である。
図2において、文章データ「当社のDプランニングは、最新美術を使っています。」は、「当社」から「います」までの10個の形態素に分割される。「当社」には、ショートカットキー「A」が対応付けられ、「います」には、ショートカットキー「J」が対応付けられる。表示制御部25は、各形態素のそれぞれに対応付けて、ディスプレイ3のテキスト修正領域34に、ショートカットキーを表示する。
各形態素は、通常モードと修正モードとの何れかに切り替わる。通常モードは、形態素の修正が有効でないモードである。修正モードは、形態素の修正が有効なモードである。
図2において、「Dプランニング」は「ディープラーニング」の誤りであり、「美術」は「技術」の誤りであるとする。該誤りは、音声認識部22の音声認識の誤りに起因する。ユーザによるキーボード2を用いた入力の場合、上記誤りは、キーの操作ミスや誤変換等に起因する。
通常モードにおいて、テキスト修正装置1を操作するユーザが、キーボード2を用いて、形態素「D」の誤りを修正する場合、キー「C」を入力する。キー「C」が入力されると、キーボード2は、キー「C」の入力を示す信号をテキスト修正装置1に出力する。
テキスト修正装置1の処理部20は、上記信号に基づいて、キー「C」が入力されたことを検出する。該検出に応じて、形態素特定部24は、ショートカットキー「C」に対応する形態素「D」が修正対象として指定されたことを特定する。
上記のキー「C」入力されたことの検出に応じて、ショートカットキー「C」に対応する形態素「D」が、通常モードから修正モードに切り替わる。これにより、形態素「D」の修正が有効になる。
この際、表示制御部25は、ショートカットキー「C」に対応する形態素「D」を、強調表示する。これにより、形態素「D」が選択された状態になり、修正対象となる形態素を視覚的に提示できる。図2の例では、選択された箇所が、網掛けで示されている。
以下、表示制御部25は、修正対象の形態素を強調表示(色の変更や背景色の変更等)するものとして説明するが、表示制御部25は、修正対象を任意の表示態様に変更してもよい。
指定された形態素が通常モードから修正モードに切り替わる際、修正対象の形態素(入力されたキーに対応する形態素)は上書きモードとして、切り替わってもよい。修正モードが、上書きモードになることで、誤っている形態素を削除する作業が省かれるため、書き起こし結果の修正の作業量が少なくなる。
上述したように、形態素「D」が選択されている。ユーザが、キーボード2を用いて、「ディー」を入力すると、テキスト修正装置1は、該入力を受け付ける。これにより、修正部26は、形態素「D」という文字を「ディー」という文字に修正する。
形態素「プランニング」は、正しくは「プラーニング」である。ユーザは、形態素「プランニング」を修正する場合、キー「D」を入力して、修正対象の形態素「プランニング」を指定してもよいが、特殊操作キーを入力して、形態素「プランニング」を指定してもよい。該特殊操作キーは、例えば、Tabキーである。
例えば、形態素「D」と形態素「プランニング」とは連続している。この場合、形態素「D」が修正された後、次の形態素を指定するTabキーの入力が検出されると、形態素特定部24は、形態素「プランニング」が修正対象として指定されたことを特定する。
従って、ショートカットキー「C」に対応する形態素「D」が選択されている状態で、Tabキーの入力をテキスト修正装置1が受け付けると、表示制御部25は、次の形態素「プランニング」を修正対象として、強調表示する制御を行う。
ユーザが、キーボード2を用いて、「プラーニング」を入力すると、テキスト修正装置1は、該入力を受け付ける。これにより、修正部26は、形態素「プランニング」という文字を「プラーニング」という文字に修正する。
上述したように、「美術」は「技術」の誤りである。通常モードにおいて、ユーザが、ショートカットキー「G」に対応するキーボード2のキー「G」を入力すると、キー「G」が入力されたことが検出される。
表示制御部25は、ショートカットキー「G」に対応する形態素「美術」を修正対象として強調表示する。これにより、形態素「美術」の修正が可能になる。ユーザが、キーボード2を用いて、「技術」を入力すると、テキスト修正装置1は、該入力を受け付ける。これにより、修正部26は、形態素「美術」という文字を「技術」という文字に修正する。
以上の修正により、図3に示されるように、修正前の文章データ「当社のDプランニングは、最新美術を使っています。」は、正しい文章データ「当社のディープランニングは、最新技術を使っています。」に修正される。
上述したように、テキスト修正領域34において、各形態素のそれぞれにショートカットキーが対応付けられて表示される。各ショートカットキーは、キーボード2のキーに対応している。表示されている文章データのうち、誤っている形態素に対応するショートカットキーのキー入力が検出されると、形態素特定部24は、入力されたキーに応じて、修正対象の形態素を特定する。
キーボード2のカーソルキーを操作して、文章データの1文字ずつ修正する場合、修正箇所まで、カーソルを移動する操作が必要になり、修正作業が煩雑になる。
第1の実施形態では、上述したように、修正対象の形態素を、ショートカットキーにより特定することができるため、テキスト修正領域34に表示されている文章データ(書き起こし結果)の修正の作業量が軽減する。
次に、図4を参照して、文章データが指定された場合の処理の流れについて説明する。上述したように、画面30のうち、文章データ表示領域31には、複数の文章データが表示されている。
ユーザが、キーボード2を用いて、文章データ表示領域31に含まれる複数の文章データのうち何れかを指定する操作を行うと、該操作が検出される。該操作の検出に応じて、形態素解析部23は、指定された文章データを、記憶部12から取得する(ステップS1)。
形態素解析部23は、ステップS1で取得された文章データを解析して、複数の形態素に分割する(ステップS2)。表示制御部25は、ステップS2で分割された形態素の数に応じて、UI(User Interface)部品を生成する。UI部品は、各形態素を表示し、形態素の文字列を修正するための部品である。UI部品は、例えば、テキストボックスである。
表示制御部25は、各UI部品に、アルファベット記号を付与する(ステップS3)。上述の例の場合、表示制御部25は、「当社の」という形態素のUI部品に、「A」というアルファベット記号を付与する。
UI部品の数が多い場合(アルファベットの種類数を超えた場合)、各UI部品に、「AA」等のように、複数のアルファベット記号が付与されてもよいし、「A0」等のように、アルファベットと数字との組み合わせが付与されてもよい。
表示制御部25は、文章データの各形態素のUI部品、およびUI部品に対応付けられたアルファベット記号を、テキスト修正領域34に表示する(ステップS4)。ステップS4の処理が終了すると、キーボード2からのキー入力の待ち状態に移行する。
図5は、部品テーブルの一例を示す。部品テーブルは、番号と形態素とアルファベット記号とUI部品との項目を含む。番号ごとに、形態素とアルファベット記号とUI部品とが対応付けられる。部品テーブルは、記憶部12に記憶される。
形態素解析部23は、分割された複数の形態素に、アルファベット記号およびUI部品を対応付けて、部品テーブルに記録する。部品テーブルのUI部品は、UI部品を識別するための情報である。形態素解析部23は、各形態素のそれぞれに異なるアルファベット記号およびUI部品を対応付ける。
表示制御部25は、ディスプレイ3の画面30に各UI部品を表示する際に、部品テーブルを参照する。そして、表示制御部25は、テキスト修正領域34の各形態素にそれぞれ対応するように、ガイド表示領域34Gに、対応するアルファベット記号を表示する。
次に、図6および図7を参照して、第1の例におけるキー入力時の処理について説明する。キー入力時の段階では、上述したように、文章データが指定されており、キーボード2からのキー入力の待ち状態になっている。
上記のキー入力の待ち状態においては、文章データの各形態素のUI部品は、通常モードになっている。ユーザが、キーボード2の何れかのキーを入力すると、何れのキーが入力されたかについての情報(入力キーの情報)が取得される(ステップS11)。
処理部20は、修正モードフラグがONになっているかを判定する(ステップS12)。修正モードフラグがONである場合、何れかの形態素のUI部品が修正モードになっている。
ステップS12でNOの場合、何れの形態素に対応するUI部品も修正モードになっていない。処理部20は、ステップS11で取得された入力キーの情報に基づいて、入力キーに対応するUI部品があるかを判定する(ステップS13)。
例えば、上述した例の場合、キーボード2のうち、ショートカットキー「A」から「J」のキーが入力された場合、ステップS13でYESとなる。この場合、ショートカットキーのキー入力に応じて、形態素特定部24は、修正対象の形態素を特定する。
ステップS13でYESの場合、処理部20は、対応するUI部品を修正可能状態に変更する(ステップS14)。これにより、指定された形態素は、修正可能な状態になる。上述した例では、「G」のキーが入力された場合、ショートカットキー「G」に対応する形態素「技術」のUI部品「部品G」が修正可能な状態に変更される。
そして、処理部20は、修正モードフラグをONに設定する(ステップS15)。これにより、指定された形態素に対応するUI部品が、通常モードから修正モードに移行する。UI部品が修正モードに移行することで、対応する形態素の修正が可能になる。
ステップS13でNOの場合、入力キーに対応するUI部品がないため、ステップS14およびS15の処理は実行されない。ステップS13でNOの場合、またはステップS15の処理が終了後、キーボード2からのキー入力の待ち状態に移行する。
ステップS12でYESの場合、修正モードフラグはONになっており、何れかの形態素のUI部品が修正モードになっている。この場合、処理は、「A」から、図7のステップS6に移行する。
図7を参照して、「A」以降の処理について説明する。処理部20は、ステップS11で取得された入力キーの情報に基づいて、修正モード中に入力されたキー(入力キー)が特殊操作キーであるかを判定する(ステップS16)。
特殊操作キーは、予め設定されている。第1の実施形態では、修正内容確定、キャンセル、次の形態素選択、挿入および削除の5つの特殊操作キーが、予め設定されている。5つの特殊操作キーには、それぞれ、異なるキーが割り当てられている。
上述した例では、次の形態素を選択するための特殊操作キーには、Tabキーが割り当てられている。他の特殊操作キーにも、それぞれ独自のキーが割り当てられている。特殊操作キーの数は、任意の数であってもよい。
ステップS16でNOの場合、入力キーは、何れの特殊操作キーにも該当しない。この場合、処理は「B」に移行し、図6に示されるように、処理は終了する。ステップS16でNOとなる場合、指定された形態素のUI部品が修正モードであり、且つ入力キーが特殊操作キーに該当しない。
上記の場合、入力キーは、ユーザがキーボード2に入力したキーは、形態素を修正するためのキーであることが想定される。これにより、修正モードであるUI部品の文字が修正される。修正モードフラグがONの状態で、特殊操作キーでないキーが入力されていくと、文字の修正が行われていく。
ステップS16でYESであり、且つ入力キーが修正内容確定に割り当てられたキーである場合、処理部20は、指定された形態素に対応するUI部品を、修正モードから通常モードに変更する(ステップS20)。
修正内容確定に割り当てられた特殊操作キーが入力された場合、既に指定された形態素(指定された形態素のUI部品)に対する修正が行われている。修正部26は、指定された形態素に対する修正を反映する(ステップS21)。処理部20は、修正モードフラグをOFFに設定する(ステップS22)。その後、処理は、「B」に移行する。
ステップS16でYESであり、且つ入力キーがキャンセルに割り当てられたキーである場合、処理部20は、修正モードフラグをOFFに設定する(ステップS22)。その後、処理は、「B」に移行する。
ステップS16でYESであり、且つ入力キーが次の形態素選択に割り当てられたキーである場合、処理部20は、指定された形態素に対応するUI部品を通常モードに変更する(ステップS24)。
修正部26は、指定された形態素に対する修正を反映する(ステップS25)。例えば、指定された形態素が「D」である場合、上述したように、形態素「D」は、「ディー」に修正される。該修正が反映されることにより、テキスト修正領域34に表示されていた形態素「D」は「ディー」として表示される。
処理部20は、指定された形態素の次のUI部品を修正可能状態に変更する(ステップS26)。例えば、指定された形態素の次の形態素は「プランニング」であり、該形態素「プランニング」のUI部品が修正可能状態に変更される。
ステップS16でYESであり、且つ入力キーが挿入に割り当てられたキーである場合、処理部20は、指定された形態素に対応するUI部品を通常モードに変更する(ステップS27)。
処理部20は、指定された形態素に対応するUI部品の次にUI部品を新規に追加する(ステップS28)。これにより、テキスト修正領域34の表示内容が変化し、部品テーブルの内容も変化する。そして、処理部20は、追加された形態素に対応するUI部品を修正可能状態に変更する(ステップS29)。
ステップS16でYESであり、且つ入力キーが削除に割り当てられたキーである場合、処理部20は、指定された形態素に対応するUI部品を削除する(ステップS30)。修正部26は、指定された形態素に対する修正(削除)を反映する(ステップS31)。
これにより、テキスト修正領域34に表示されていたUI部品(指定された形態素のUI部品)は削除される。処理部20は、修正モードフラグをOFFに設定する(ステップS32)。これにより、修正モードから通常モードに移行する。その後、処理は、「B」に移行する。
図6および図7の処理は、キーボード2のキーが入力されるごとに行なわれる。テキスト修正領域34に表示されている複数の形態素のうち何れかが指定されると、修正対象の形態素が特定され、対応するUI部品が修正可能状態に変更される。これにより、複数の形態素のうち、修正対象の形態素の修正を行うことができる。
そして、特殊操作キーが入力されると、入力された特殊操作キーに対応する処理が行なわれる。
例えば、形態素「美術」が「技術」に修正された後に、次の形態素選択に割り当てられた特殊操作キーのキー入力が検出されると、形態素特定部24は、ショートカットキーGに対応する形態素が修正対象であると特定する。修正部26は、キーボード2に対する入力に応じて、修正内容を反映する。これにより、テキスト修正領域34におけるショートカットキーGに対応する形態素の修正が確定し、修正後の形態素「技術」が表示される。
次に、図8および図9を参照して、第2の例におけるキー押下時の処理の流れについて説明する。第2の例の処理は、第1の例の処理に、指定された形態素、または該形態素を含む連続した複数の形態素に対応する音声を再生する処理を追加したものである。
図8のフローチャートにおいて、ステップS11〜S15は、上述した第1の例と同様であるため、説明を省略する。ステップS15の処理後、一定時間ごとにイベントを発生させるためにインターバルタイマを有効化する(ステップS15−1)。
図9のフローチャートを参照して、タイマイベントハンドラ処理の流れを説明する。タイマイベントハンドラ処理が行われる際には、修正対象の形態素が指定されており、且つ指定された形態素のUI部品が修正可能な状態になっている。
タイマイベントハンドラ27は、記憶部12に記憶されている時間テーブルを参照して、指定された形態素の開始時刻を取得する(ステップS41)。
図10は、時間テーブルの一例を示す。時間テーブルは、記憶部12に記憶されており、番号と形態素とアルファベット記号とUI部品と開始時刻と終了時刻と間隔との項目を含む。
番号と形態素とアルファベット記号とUI部品とは、上述した部品テーブルと同様である。開始時刻は、動画データに含まれる音声のうち、対応する形態素の音声の開始時刻を示す。終了時刻は、動画データに含まれる音声のうち、対応する形態素の音声の終了時刻を示す。間隔は、開始時刻から終了時刻までの間隔を示す。
図9に示されるように、タイマイベントハンドラ27は、音声再生開始時刻を、ステップS41で取得した再生時刻に設定する(ステップS42)。これにより、音声再生時刻が、指定された形態素の音声の開始時刻に設定される。
音声再生制御部29は、時間テーブルの終了時刻を参照して、動画データに含まれる音声を、ステップS42で設定された音声再生開始時刻から、指定された形態素の終了時刻まで再生する制御を行う(ステップS43)。これにより、スピーカ4から、指定された形態素の音声が流れる。この際、動画データが再生されてもよい。
テキスト修正装置1には、一定期間ごとにタイマイベントハンドラ27を呼び出すためのインターバルタイマが実装されており、タイマイベントハンドラ27は、一定期間ごとに、呼び出されて、図9に示される処理が行なわれる。これにより、指定された形態素の音声が、繰り返し、スピーカ4から流れる。
図11は、図8の「A」から「B」までの処理の流れを示すフローチャートである。ステップS20〜S32は、上述した第1の例と同様であるため、説明を省略する。修正モードフラグがONになっている状態で、修正内容確定の特殊操作キーの入力が検出されると、インターバルタイマが無効化される(ステップS33−1)。
タイマイベントハンドラ27は、ステップS33−1タイマが無効化されると呼び出されなくなる。
上述したタイマイベントハンドラ処理が行なわれることにより、指定された形態素に対応する音声が繰り返し再生される。ユーザは、キーボード2を用いて、指定された形態素の修正を行う。ユーザが形態素の修正を行っている間、修正対象の形態素の音声が、スピーカ4から流れることにより、ユーザは、形態素の音声を把握し易くなる。
修正内容が確定すると、指定された形態素の音声をスピーカ4から繰り返して流す必要がなくなる。このため、ステップS33−1で、インターバルタイマが無効化される。
指定された形態素がキャンセルされる場合、指定された形態素の音声をスピーカ4から繰り返して流す必要がなくなる。このため、ステップS23の後、インターバルタイマが無効化される(ステップS33−2)。
指定された形態素が削除される場合、指定された形態素の音声をスピーカ4から繰り返して流す必要がなくなる。このため、ステップS32の後、インターバルタイマが無効化される(ステップS33−3)。
上述した例では、指定された形態素に対応する音声が繰り返し再生されるが、指定された形態素を含む連続した複数の形態素が再生されてもよい。例えば、タイマイベントハンドラ27は、指定された形態素、および該形態素を含む前後の所定数の形態素の音声を再生させるように制御を行ってもよい。
この場合、タイマイベントハンドラ27は、時間テーブルを参照して、指定された形態素の前後所定数の形態素について、最も早い開始時刻と最も遅い終了時刻とを特定する。音声再生制御部29は、上記最も早い開始時刻から最も遅い終了時刻までの複数の形態素の音声を、スピーカ4から流させる制御を行う。これにより、指定された形態素、および該形態素を含む前後の所定数の形態素の音声が、スピーカ4から流れる。
指定された形態素の音声だけでなく、前後の所定数の形態素の音声が、スピーカ4から流れることにより、ユーザは、指定された形態素を含む文脈を認識することができる。例えば、指定された形態素の音声だけがスピーカ4から流れる場合、「美術」という音声だけが繰り返し流れる。
一方、指定された形態素の音声だけでなく、前後の形態素の音声が流れる場合、「最新美術を」という音声が繰り返し流れる。ユーザは、スピーカ4から流れる「最新美術を」という音声を聞くことで、「美術」という形態素が、正しくは「技術」であることを、把握しやすくなる。
音声再生制御部29は、文章データの全体を再生させる制御を行ってもよいし、文章データの文頭から指定された形態素までの複数の形態素を再生させる制御を行ってもよい。音声再生制御部29が再生させる対象の形態素の数は任意であってよい。
また、音声再生制御部29は、指定された形態素を、通常速度より低速に再生してもよい。例えば、指定された形態素「美術」という音声が、低速にスピーカ4から流れることで、ユーザは、形態素「美術」を聞き取り易くなる。
次に、第3の例におけるキー押下時の処理について説明する。第3の例は、指定された形態素の修正候補を提示する例である。修正候補は、修正候補推定部28が、過去の文章データを入力として機械学習が行なわれた学習済みモデルに基づいて、推定を行なう。
機械学習としては、例えば、Sequence-to-Sequenceが利用されてもよい。Sequence-to-Sequenceは、RNN(Recurrent Neural Network)を活用した機械学習の一種であり、単語の並び順の推定に適している。学習済みモデルは、Sequence-to-Sequence以外の任意の機械学習により生成されるものであってもよい。
例えば、テキスト修正装置1の外部のデータベース(過去の記事データやテレビの字幕データ等)に記憶されている過去の多数の文章データを入力として、Sequence-to-Sequenceによる機械学習が行なわれた学習済みモデルが生成されているとする。
通信部13が、ネットワークを介して、外部の装置やデータベース等から、上記学習済みモデルを取得し、取得された学習済みモデルが記憶部12に記憶されてもよい。また、テキスト修正装置1が、上記機械学習を行い、学習済みモデルを記憶部12に記憶してもよい。
修正候補推定部28は、記憶部12に記憶されているSequence-to-Sequenceにより機械学習が行なわれた学習済みモデルを取得し、該学習済みモデルを用いて、指定された文章データの各形態素の並び順から、指定された形態素の修正候補を推定する。
図12に示されるように、修正候補推定部28は、取得した学習済みモデルを用いて、「は」「最新」「技術」「を」「使って」という並び順が最もあり得ると推定する。その結果、修正候補推定部28は、指定された形態素「美術」の修正候補は「技術」であると推定する。
表示制御部25は、テキスト修正領域34のうち、指定された形態素に対応するように、修正候補を表示する制御を行う。図13の例に示されるように、修正候補「技術」とともに、該修正候補「技術」を指定するための候補選択指示(数字キーの「0」)が表示される。複数の修正候補がある場合には、各修正候補に応じて、異なる修正候補指示(例えば、異なる数字キー)が表示されてもよい。
図13の例の場合、ユーザが、キーボード2のうち、数字キーの「0」を入力すると、該入力が検出され、修正候補「技術」が確定する。図14は、確定後の画面例を示す。第3の例では、指定された形態素について、推定された修正候補が表示される。
これにより、指定された形態素の修正を行う際に、ユーザは、キーボード2を用いて、修正候補を特定する操作を行えばよく、修正内容のキー入力の操作が不要になるため、書き起こし結果の修正の作業量が軽減される。
図15および図16を参照して、第3の例におけるキー入力時の処理の流れについて説明する。図15のフローチャートにおいて、ステップS11〜S15は、上述した第1の例および第2の例と同様であるため、説明を省略する。
ステップS15の処理後、修正候補推定部28は、上記の学習済みモデルを用いて、各形態素の並び順から、指定された形態素の修正候補を推定し、表示制御部25は、修正候補をテキスト修正領域34に表示する制御を行う(ステップS15−2)。
図16のフローチャートにおいて、ステップS20〜S32は、上述した第1の例および第2の例と同様であるため、説明を省略する。
図16のフローチャートにおいて、ステップS26の処理後に、ステップS15−2と同様の処理(修正候補の推定および表示の処理)が行なわれる(ステップS34−1)。また、ステップS29の処理後に、ステップS15−2と同様の処理(修正候補の推定および表示の処理)が行なわれる(ステップS34−2)。
指定された形態素の次の形態素の修正が行われる場合、および挿入された形態素の修正が行われる場合、新たな形態素の修正が行われるため、修正候補が表示されることが好ましい。
一方、修正内容確定の特殊操作キーが入力された場合、キャンセルの特殊操作キーが入力された場合および削除の特殊操作キーが入力された場合には、新たな形態素の修正が行われないため、修正候補を表示する処理は行なわれなくてもよい。
<第2の実施形態>
次に、第2の実施形態について説明する。第2の実施形態におけるテキスト修正装置1の構成は、図1に示した第1の実施形態と同様である。第2の実施形態では、表示制御部25は、動画データに含まれる音声データの再生に応じて、再生中の形態素の所定数前の形態素を操作可能な状態で表示する。
図17に示されるように、画面30のうち、表示制御部25は、テキスト表示領域33に、文章データの文頭から音声再生中の形態素まで表示する。また、表示制御部25は、テキスト修正領域34に、文章データの文頭から音声再生中の形態素まで表示するとともに、音声再生中の形態素の所定数前の形態素の表示態様を変更する。以下、表示態様の変更は、上述したように、テキスト修正領域34に表示されている形態素の強調表示(色の変更や背景色の変更等)であるものとして説明する。
図17の例では、音声再生中の形態素は「使って」であり、該形態素の2つ前(所定数前)の形態素「美術」の表示態様が変更されている。音声再生の進行に伴い、音声再生中の形態素が進み、強調表示される形態素も進む。
図17の例のように、音声再生中の形態素「使って」の2つ前の形態素「美術」が強調表示されている状態で、キーボード2に対する所定の操作が検出されると、形態素特定部24は、修正対象の形態素「美術」を特定する。これにより、形態素「美術」を修正することが可能な状態になる。
例えば、形態素「美術」が強調表示されている際に、所定のキー(例えば、エンターキー)の入力が検出されると、形態素特定部24は、形態素「美術」を修正対象として特定する。これにより、形態素「美術」を修正することが可能な状態になる。形態素「美術」の修正が可能な状態になると、音声再生制御部29は、修正対象の形態素「美術」を繰り返し、且つ低速に再生する制御を行う。
ユーザは、キーボード2を用いて、形態素「美術」を修正する操作を行う。この際、スピーカ4から、形態素「美術」が、繰り返し、且つ低速に流れている。ユーザが、キーボード2を用いて、「技術」と入力したとする。この場合、図18に示されるように、形態素「美術」は「技術」に修正される。
図19および図20は、第2の実施形態の処理の流れを示すフローチャートである。処理部20は、記憶部12に記憶されている分割された各形態素を記憶部12から取得する(ステップS51)。
処理部20は、記憶部12に記憶されている時間テーブルを参照して、各形態素のそれぞれの開始時刻および終了時刻を取得する(ステップS52)。表示制御部25は、ステップS51で取得された各形態素を、順番に連結する(ステップS53)。
処理部20は、時間テーブルを参照して、現在の再生時刻に対応する形態素を特定する(ステップS54)。表示制御部25は、特定された形態素の所定数前の形態素の表示態様を変更する(ステップS55)。
処理部20は、キーボード2に対する所定のキーの入力操作が検出されたかを判定する(ステップS56)。ステップS56でYESの場合、修正モード処理が行われる(ステップS57)。ステップS57でNOの場合、修正モード処理は行われない。
次に、図20を参照して、ステップS57の修正モード処理について説明する。修正モード処理が開始されるときには、修正対象の形態素が形態素特定部24により特定されている。
処理部20は、時間テーブルを参照して、ステップS54で特定された形態素の所定数前の形態素(表示態様が変更されている形態素)の開始時刻を取得する(ステップS61)。
音声再生制御部29は、ステップS61で取得された開始時刻から、表示態様が変更されている形態素の音声を低速で再生する制御を行う。該制御に基づいて、スピーカ4から、上記形態素の音声が流れる。該形態素の音声が低速でスピーカ4から流れることで、ユーザは、修正対象の形態素の音声を聞き取り易くなる。
音声再生制御部29は、強調表示されている形態素だけでなく、該形態素を含む前後の複数の形態素の音声を再生する制御を行ってもよい。この場合、上記形態素を含む連続した複数の形態素の音声がスピーカ4から流れる。
音声再生制御部29は、強調表示されている形態素の音声、または該形態素を含む連続した前後の複数の形態素の音声を通常の速度で再生する制御を行ってもよい。また、表示制御部25は、画面30に再生速度を調整するためのスライダーバーを表示する制御を行ってもよい。
ユーザによるスライダーバーの操作に基づいて、音声再生制御部29は、任意の再生速度で、強調表示されている形態素の音声、または該形態素を含む連続した前後の複数の形態素の音声が再生される。
処理部20は、特殊操作キーの入力があったかを判定する(ステップS63)。ステップS63でNOの場合、処理は、ステップS62に移行する。これにより、強調表示されている形態素の音声、または該形態素を含む連続した前後の複数の形態素の音声が繰り返し再生される。
ステップS63でYESの場合であり、且つ入力キーが修正内容確定に割り当てられたキーである場合、処理部20は、表示態様が変更されている形態素に対応するUI部品を通常モードに変更する(ステップS64)。
修正内容確定に割り当てられた特殊操作キーが入力された場合、強調表示されている形態素の修正が確定するため、修正部26は、指定された形態素に対する修正を反映する(ステップS65)。
ステップS63でYESの場合であり、且つ入力キーがキャンセルに割り当てられたキーである場合、修正がキャンセルされるため、修正モード処理は、終了する。
ステップS66でYESであり、且つ入力キーが削除に割り当てられたキーである場合、処理部20は、強調表示されている形態素に対応するUI部品を削除する(ステップS66)。修正部26は、指定された形態素に対する修正(削除)を反映する(ステップS67)。これにより、テキスト修正領域34に表示されていたUI部品は削除される。
ステップS68でYESであり、且つ入力キーが挿入に割り当てられたキーである場合、処理部20は、強調表示されている形態素に対応するUI部品を通常モードに変更する(ステップS68)。
処理部20は、強調表示されている形態素に対応するUI部品の次にUI部品を新規に追加する(ステップS69)。これにより、テキスト修正領域34の表示内容が変化し、部品テーブルの内容も変化する。そして、処理部20は、追加された形態素に対応するUI部品を修正可能状態に変更する(ステップS70)。
ステップS70の処理が行われた後、修正対象は、新規に追加されたUI部品に移り、処理は、ステップS62に移行する。
<テキスト修正装置のハードウェア構成の一例>
次に、図21の例を参照して、テキスト修正装置1のハードウェア構成の一例を説明する。図21の例に示すように、バス100に対して、プロセッサ111とRandom Access Memory(RAM)112とRead Only Memory(ROM)113とが接続される。また、該バス100に対して、補助記憶装置114と媒体接続部115と通信インタフェース116とが接続される。
プロセッサ111はRAM112に展開されたプログラムを実行する。実行されるプログラムとしては、実施形態における処理を行うテキスト修正プログラムが適用されてもよい。
ROM113はRAM112に展開されるテキスト修正プログラムを記憶する不揮発性の記憶装置である。補助記憶装置114は、種々の情報を記憶する記憶装置であり、例えばハードディスクドライブや半導体メモリ等が適用されてもよい。媒体接続部115は、可搬型記録媒体115Mと接続可能に設けられている。
可搬型記録媒体115Mとしては、可搬型のメモリ(例えば、光学ディスクや半導体メモリ等)が適用されてもよい。この可搬型記録媒体115Mに実施形態の処理を行うテキスト修正プログラムが記録されていてもよい。
制御部11の各部は、与えられたテキスト修正プログラムをプロセッサ111が実行することにより実現されてもよい。記憶部12は、RAM112や補助記憶装置114等により実現されてもよい。通信部13は、通信インタフェース116により実現されてもよい。
RAM112、ROM113、補助記憶装置114および可搬型記録媒体115Mは、何れもコンピュータ読み取り可能な有形の記憶媒体の一例である。これらの有形な記憶媒体は、信号搬送波のような一時的な媒体ではない。
<その他>
テキスト修正装置1は、第1の実施形態の機能と第2の実施形態の機能との両者を有していてもよい。図22は、第1の実施形態と第2の実施形態との両者が適用された場合の画面30の例である。
図22に示されるように、テキスト修正領域34の各形態素にはそれぞれ、ショートカットキーが対応付けられて表示されている。図22の例の場合、音声は、「使って」まで再生されている。
何れかのショートカットキーに対応するキー入力が検出されると、第1の実施形態で説明したように、ショートカットキーに対応する形態素が特定され、特定された形態素の修正が可能になる。
また、音声再生中の形態素「使って」の2つ前の形態素「美術」が強調表示されている状態で、キーボード2に対する所定の入力(エンターキー等の入力)が検出されると、強調表示されている形態素「美術」が修正対象の形態素であると特定される。これにより、修正対象の形態素を修正することが可能な状態になる。
上述した第1の実施形態および第2の実施形態は、以上に述べた形態に限定されるものではなく、第1の実施形態および第2の実施形態の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。
1 テキスト修正装置
2 キーボード
3 ディスプレイ
4 スピーカ
11 制御部
12 記憶部
13 通信部
20 処理部
21 動画再生部
22 音声認識部
23 形態素解析部
24 形態素特定部
25 表示制御部
26 修正部
27 タイマイベントハンドラ
28 修正候補推定部
29 音声再生制御部
111 プロセッサ
112 RAM
113 ROM

Claims (10)

  1. 音声データに基づいて認識された文章データを複数のテキスト単位に分割する分割部と、
    分割された前記複数のテキスト単位のうち、何れかのテキスト単位の指定が入力装置を介して入力された場合、指定されたテキスト単位を修正対象として特定する特定部と、
    前記指定されたテキスト単位を修正可能な状態で表示装置に表示する表示制御部と、
    前記指定されたテキスト単位に対する修正を前記文章データに反映する修正部と、
    を備えるテキスト修正装置。
  2. 前記表示制御部は、前記テキスト単位を特定する特定情報を、前記複数のテキスト単位のそれぞれに対応付けて、前記表示装置に表示し、
    前記特定部は、前記入力装置が複数の前記特定情報のうち何れかの特定情報を指定する操作を検出した場合、検出された特定情報に対応するテキスト単位を修正対象として特定する、
    請求項1記載のテキスト修正装置。
  3. 前記表示制御部は、前記音声データが再生される場合、前記音声データに対応する前記複数のテキスト単位のうち再生中のテキスト単位より所定数前のテキスト単位を操作可能な状態で表示する制御を行い、
    前記所定数前のテキスト単位に対する前記入力装置からの操作が検出されると、前記特定部は、検出された所定数前のテキスト単位を修正対象として特定する、
    請求項1または2記載のテキスト修正装置。
  4. 前記表示制御部は、前記修正対象のテキスト単位の前記表示装置における表示態様を変更する、
    請求項1乃至3のうち何れか1項に記載のテキスト修正装置。
  5. 前記修正部は、前記複数のテキスト単位のうち指定されたテキスト単位を、上書き修正して前記文章データに反映させる、
    請求項1乃至4のうち何れか1項に記載のテキスト修正装置。
  6. 前記テキスト修正装置はさらに、
    過去の複数のテキスト単位の並び順を入力として機械学習が行なわれた学習済みモデルに基づいて、前記文章データの前記複数のテキスト単位から、修正対象のテキスト単位の修正候補を推定する修正候補推定部、を備え、
    前記表示制御部は、前記修正対象のテキスト単位と対応付けて、前記修正候補を前記表示装置に表示する、
    請求項1乃至5のうち何れか1項に記載のテキスト修正装置。
  7. 前記テキスト修正装置はさらに、
    前記複数のテキスト単位のうち前記入力装置からの指定を受け付けたテキスト単位に対応する前記音声データを含む前後の所定数のテキスト単位に対応する音声を繰り返し再生する制御を行う音声再生制御部、
    を備える請求項1乃至6のうち何れか1項に記載のテキスト修正装置。
  8. 前記音声再生制御部は、前記音声を繰り返し再生する制御を行う際に、再生速度を低速にする、
    請求項7記載のテキスト修正装置。
  9. テキスト修正装置によるテキスト修正方法において、
    前記テキスト修正装置が有する分割部が、音声データに基づいて認識された文章データを複数のテキスト単位に分割し、
    前記テキスト修正装置が有する特定部が、分割された前記複数のテキスト単位のうち、何れかのテキスト単位の指定が入力装置を介して入力された場合、指定されたテキスト単位を修正対象として特定し、
    前記テキスト修正装置が有する制御部が、前記指定されたテキスト単位を修正可能な状態で表示装置に表示し、
    前記テキスト修正装置が有する修正部が、前記指定されたテキスト単位に対する修正を前記文章データに反映する、
    テキスト修正方法。
  10. テキスト修正装置のテキスト修正プログラムにおいて、
    前記テキスト修正装置が有する分割部に、音声データに基づいて認識された文章データを複数のテキスト単位に分割させ、
    前記テキスト修正装置が有する特定部に、分割された前記複数のテキスト単位のうち、何れかのテキスト単位の指定が入力装置を介して入力された場合、指定されたテキスト単位を修正対象として特定させ、
    前記テキスト修正装置が有する制御部に、前記指定されたテキスト単位を修正可能な状態で表示装置に表示させ、
    前記テキスト修正装置が有する修正部に、前記指定されたテキスト単位に対する修正を前記文章データに反映させる、
    テキスト修正プログラム。
JP2018032888A 2018-02-27 2018-02-27 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム Pending JP2019148681A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018032888A JP2019148681A (ja) 2018-02-27 2018-02-27 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
US16/279,023 US20190267007A1 (en) 2018-02-27 2019-02-19 Text correction apparatus and text correction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018032888A JP2019148681A (ja) 2018-02-27 2018-02-27 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム

Publications (2)

Publication Number Publication Date
JP2019148681A true JP2019148681A (ja) 2019-09-05
JP2019148681A5 JP2019148681A5 (ja) 2020-03-19

Family

ID=67686098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018032888A Pending JP2019148681A (ja) 2018-02-27 2018-02-27 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム

Country Status (2)

Country Link
US (1) US20190267007A1 (ja)
JP (1) JP2019148681A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021076729A (ja) * 2019-11-11 2021-05-20 株式会社日立製作所 書き起こし支援方法及び書き起こし支援装置
JP2021078060A (ja) * 2019-11-12 2021-05-20 パナソニックIpマネジメント株式会社 字幕修正装置、字幕修正方法、及び、コンピュータプログラム
WO2021205832A1 (ja) * 2020-04-09 2021-10-14 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置
JP2022073807A (ja) * 2020-11-02 2022-05-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
WO2023181099A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 聴音支援装置、聴音支援方法、及びコンピュータ読み取り可能な記録媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021137637A1 (en) * 2020-01-02 2021-07-08 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model
CN113837169B (zh) * 2021-09-29 2023-12-19 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151614A (ja) * 2002-11-01 2004-05-27 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
JP2007257341A (ja) * 2006-03-23 2007-10-04 Sharp Corp 音声データ再生装置および音声データ再生装置のデータ表示方法
JP2012014042A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp 音声入力インタフェース装置及び音声入力方法
JP2014052966A (ja) * 2012-09-10 2014-03-20 Sharp Corp メッセージ送受信端末、メッセージ送受信サーバ、メッセージ送受信システム、メッセージ送受信方法、プログラムおよび記録媒体
JP2015184564A (ja) * 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151614A (ja) * 2002-11-01 2004-05-27 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
JP2007257341A (ja) * 2006-03-23 2007-10-04 Sharp Corp 音声データ再生装置および音声データ再生装置のデータ表示方法
JP2012014042A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp 音声入力インタフェース装置及び音声入力方法
JP2014052966A (ja) * 2012-09-10 2014-03-20 Sharp Corp メッセージ送受信端末、メッセージ送受信サーバ、メッセージ送受信システム、メッセージ送受信方法、プログラムおよび記録媒体
JP2015184564A (ja) * 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021076729A (ja) * 2019-11-11 2021-05-20 株式会社日立製作所 書き起こし支援方法及び書き起こし支援装置
JP7304269B2 (ja) 2019-11-11 2023-07-06 株式会社日立製作所 書き起こし支援方法及び書き起こし支援装置
JP2021078060A (ja) * 2019-11-12 2021-05-20 パナソニックIpマネジメント株式会社 字幕修正装置、字幕修正方法、及び、コンピュータプログラム
WO2021205832A1 (ja) * 2020-04-09 2021-10-14 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置
JP2022073807A (ja) * 2020-11-02 2022-05-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
JP7087041B2 (ja) 2020-11-02 2022-06-20 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
WO2023181099A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 聴音支援装置、聴音支援方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
US20190267007A1 (en) 2019-08-29

Similar Documents

Publication Publication Date Title
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP5917804B2 (ja) アンカーを用いた文書編集
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
JP6242773B2 (ja) 会議情報蓄積装置、方法およびプログラム
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
US20090234648A1 (en) Speech Recogniton System, Speech Recognition Method, and Program
JP2018142059A (ja) 情報処理装置及び情報処理プログラム
JP5025261B2 (ja) 信頼水準の指示により音声認識の結果を訂正するためのシステム
JP4020083B2 (ja) 書き起こしテキスト作成支援システムおよびプログラム
JP2005318583A (ja) テレビジョン・ニュース用オーディオビジュアル作業および対応するテキストのための編集システム
JP6417104B2 (ja) テキスト編集装置、テキスト編集方法、及びプログラム
CN111885416B (zh) 一种音视频的修正方法、装置、介质及计算设备
US20040143673A1 (en) Multimedia linking and synchronization method, presentation and editing apparatus
JP3266959B2 (ja) 電子会議システム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP2006279898A (ja) 情報処理装置及びその方法
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
JP2020017885A (ja) 情報処理装置およびプログラム
JP3816901B2 (ja) ストリームデータの編集方法と編集システム及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200207

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200207

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200207

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200526