JP6949075B2 - 音声認識誤り修正支援装置およびそのプログラム - Google Patents
音声認識誤り修正支援装置およびそのプログラム Download PDFInfo
- Publication number
- JP6949075B2 JP6949075B2 JP2019081066A JP2019081066A JP6949075B2 JP 6949075 B2 JP6949075 B2 JP 6949075B2 JP 2019081066 A JP2019081066 A JP 2019081066A JP 2019081066 A JP2019081066 A JP 2019081066A JP 6949075 B2 JP6949075 B2 JP 6949075B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- voice recognition
- error correction
- voice
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims description 285
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 229960001716 benzalkonium Drugs 0.000 claims 2
- CYDRXTMLKJDRQH-UHFFFAOYSA-N benzododecinium Chemical compound CCCCCCCCCCCC[N+](C)(C)CC1=CC=CC=C1 CYDRXTMLKJDRQH-UHFFFAOYSA-N 0.000 claims 2
- 239000000463 material Substances 0.000 description 162
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Description
また、書き起こし作業を支援する技術として、入力された音声を任意の単位に区切った文(セル)ごとに音声認識処理を施し、作業者が、音声認識処理された認識結果と、これに対応する音声とを比較し、音声認識処理の誤りを修正する技術が開示されている(特許文献2参照)。この技術は、音声認識処理においてセル単位で音声を再生し、作業者がセル単位で認識結果を修正し、セルの修正を一般的なテキストエディタの操作で行う。また、この技術では、作業者は、セルの修正後、セルの先頭から音声を再生して、認識結果を正しく修正したか否かを確認する。
特許文献2で開示されている技術は、セル単位で音声の再生および認識結果の修正を行うため、修正箇所が少なくても、修正箇所の音声と修正結果が合致するか否かを確認するために、セルの先頭から音声を再生する必要がある。そのため、この技術は、セルの途中にある修正対象箇所の音声が再生されるまで、待ち時間が発生してしまうという問題があった。
また、音声認識誤り修正支援装置は、セグメントと認識結果を構成する単語ごとの時間情報とを記憶手段に記憶する。
そして、音声認識誤り修正支援装置は、修正端末が接続されるたびに修正端末に対するプロセスとして複製される編集手段によって、修正端末を介して修正内容を取得し、音声認識の誤りを修正する。
また、編集手段は、編集画面上で指定されたテキスト内における単語の時間情報に基づいて、対応する音声を修正端末に出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容を用いて、記憶手段に記憶されている認識結果を後書き優先(上書き)で更新するとともに、認識結果が後書きされた旨の更新通知を他の編集手段に通知して修正端末に対応する修正内容を反映させる。これによって、作業者は、他の修正端末で修正された修正箇所を認識することが可能になる。
本発明によれば、素材コンテンツを音声認識した認識結果を、修正端末の編集画面上に表示し、任意の単語位置で音声を再生して認識結果を把握することができるとともに、複数の修正端末で修正内容を共有して認識誤りを修正することができる。
また、本発明によれば、複数の修正端末による修正を後書き優先で行うことで、修正端末間で排他制御を行うことなく、修正端末の待ち時間を減らすことができる。
[音声認識誤り修正システムの概要]
最初に、図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1を含んだ音声認識誤り修正システムSの概要について説明する。
音声認識誤り修正システムSは、音声認識誤り修正支援装置1と、複数の修正端末2(2,…,2)と、を備える。
この音声認識誤り修正支援装置1は、素材コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末2において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置1は、複数の修正端末2による修正を逐次反映し、複数の修正端末2で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。
音声認識誤り修正支援装置1と修正端末2とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置1は、同じ素材コンテンツに対して、排他制御を行わずに、複数の修正端末2により音声認識の誤りを修正する。
以下、音声認識誤り修正支援装置1の構成および動作について説明する。
まず、図2を参照して、音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、図2に示すように、素材コンテンツ入力手段10と、音声認識手段11と、認識結果分割手段12と、項目情報抽出手段13と、素材情報記憶手段14と、編集手段15(15,…,15)と、情報削除手段16と、を備える。
素材コンテンツ入力手段10は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段10は、入力した素材コンテンツのうち、音声については、音声認識手段11に出力する。また、素材コンテンツ入力手段10は、入力した素材コンテンツ(映像・音声)を、後記する編集手段15における修正作業に使用するため、素材情報記憶手段14に書き込み記憶する。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを、順次、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
なお、音声認識手段11における音声認識の手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
認識結果分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段12は、音声認識手段11から取得する音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段13は、TF−IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF−IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段13は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
また、項目情報抽出手段13は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
そして、項目情報抽出手段13は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
なお、項目情報抽出手段13は、TF−IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
図3に示すように、素材情報記憶手段14は、音声認識誤りを修正する対象となる素材コンテンツ(映像・音声)Conを記憶する。素材コンテンツ(映像・音声)Conは、素材コンテンツ入力手段10によって、記憶されたものである。
例えば、図4に示すように、音声認識情報Recは、素材コンテンツを識別する識別情報(素材コンテンツ識別情報)に対応付けて、単語wごとに、時間情報tと修正フラグfとを対応付ける。ここで、修正フラグfは、修正端末2によって修正が加えられたか否かを示す情報である(例えば、修正あり“1”、修正なし“0”)。
例えば、図5に示すように、セグメント情報Segは、素材コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報(番号等)ごとに、開始時間tsと、終了時間teと、項目kと、サムネイル画像gとを対応付ける。
ここで、開始時間tsおよび終了時間teは、セグメントの時間区間を示す。項目kは、項目情報抽出手段13が抽出した特徴単語である。サムネイル画像gは、項目情報抽出手段13が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
また、ここでは、素材コンテンツConと、音声認識情報Recおよびセグメント情報Segとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
編集手段15は、図2に示すように、修正対象選択手段150と、編集画面制御手段151と、誤り修正手段152と、映像/音声再生手段153と、修正結果出力手段154と、を備える。
ここで、図6を参照して、素材コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段150は、図6(a)に示すような選択画面30を表示する。
例えば、図6(c)に示すように、現時間設定ボタン302を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中(あるいは、それ以降)の素材コンテンツを修正対象とする。
修正開始ボタン303は、開始時刻および終了時刻を設定した後、修正対象となる素材コンテンツの修正を開始するためのボタンである。
図7は、本日のn日(予め定めた日数)前から本日までの時間を時系列で示したものである。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
修正対象選択手段150は、設定された素材コンテンツのファイル名等の識別情報を、編集画面制御手段151に出力する。
図8に示すように、編集画面制御手段151は、編集画面制御手段151が表示する修正端末2の画面上に表示する。
項目表示欄312は、セグメント内で抽出された項目を表示する領域である。編集画面制御手段151は、素材情報記憶手段14から、当該セグメントに対応する項目(図5の項目k)を読み出して、項目表示欄312に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段151は、項目表示欄312を空欄とする。
スクロールバー表示欄315は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段151は、スクロールバーの上下によって、画面上の項目一覧を更新する。
このように、項目一覧画面31を表示することで、作業者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
この項目一覧画面31Bは、図8で説明した項目一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域317とが表示される。
この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、編集画面制御手段151は、映像/音声再生手段153に当該素材コンテンツの再生を指示する。
編集領域317の編集は、後記する誤り修正手段152によって行われる。なお、編集領域317において任意の単語をマウス等でクリックされることで、編集画面制御手段151は、クリックされた単語の時間に対応する素材コンテンツの再生を映像/音声再生手段153に指示する。
また、編集画面制御手段151は、選択ボタン(図9中、「close」)311の押下により、編集領域317を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、図8の項目一覧画面31に表示を戻す。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
また、誤り修正手段152は、修正内容を、他の修正端末2に対応する編集手段15(別プロセスで起動した編集手段)に対して通知することで、他の修正端末2の編集領域317に反映させる。逆に、他の編集手段15から修正内容を通知された場合、誤り修正手段152は、自身の修正端末2の編集領域317に修正内容を反映させる。
そして、誤り修正手段152は、他の編集手段15に対して修正を行ったことを通知することで、対応する誤り修正手段152が、音声認識情報Rec(図4)を参照して、修正内容を反映させる。あるいは、誤り修正手段152は、変更前の単語と変更後の単語とを通知することとしてもよい。
このとき、誤り修正手段152は、修正が行われた単語を修正が行われていない単語とは異なる色属性(例えば、赤色)で表示する。
これによって、誤り修正手段152は、他の修正端末2で修正された内容を作業者に視認させることができる。
この場合、図10(a)に示すように、修正端末21の作業者は、編集領域317において「京」を「今日」に修正する。また、図10(b)に示すように、修正端末22の作業者は、編集領域317において「ハタ」を「肌」に修正する。
そして、修正端末21,22に対応するそれぞれの誤り修正手段152が、それぞれの修正内容を通知しあうことで、他の修正内容を反映させる。
これによって、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
具体的には、誤り修正手段152は、編集領域317(図9)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段152は、音声の再生を停止する。
例えば、図11の編集領域317において、マウスクリック等で「3月」が選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントに含まれる単語の時間情報(図4の時間情報t)を参照して、対応する素材セグメントの位置から音声を再生するように、映像/音声再生手段153に指示する。なお、このとき、音声に連動して、動画表示領域313Bにおいて、音声再生の時間に対応する映像を再生することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
この修正結果出力手段154は、編集画面制御手段151から出力される修正対象の素材コンテンツに対する修正後の音声認識結果を、素材情報記憶手段14から読み出して、対応する修正端末2に出力する。
時間情報・項目Kには、例えば、セグメントの開始時間tsと、当該セグメントに対応付けられた項目k(図5参照)を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段154は、時間情報には、先頭単語の時間情報t(図4参照)を記載し、項目を空欄とする。
また、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
次に、図13〜図15を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末2に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
まず、図13を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
ステップS2において、音声認識手段11は、ステップS1で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
ここで、素材コンテンツの入力が完了していない場合(ステップS5でNo)、音声認識誤り修正支援装置1は、ステップS1に戻って、素材コンテンツの入力を続ける。
一方、素材コンテンツの入力が完了した場合(ステップS5でYes)、音声認識誤り修正支援装置1は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置1は、図3に示すように、素材情報記憶手段14に、素材コンテンツと、音声認識情報およびセグメント情報とを対応付ける。
次に、図14を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末2との接続が開始された後の編集手段15の動作である。
ステップS11において、修正対象選択手段150は、画面上で、修正対象の素材コンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する(ステップS11でNo)。そして、修正開始ボタンが押下された場合(ステップS11でYes)、修正対象選択手段150は、ステップS12以降の制御を行う編集画面制御手段151に制御を移す。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、編集画面制御手段151は、図9に示すように、選択されたセグメントに対応して編集領域317を表示し、素材情報記憶手段14に記憶されている当該セグメントに対応する認識結果である単語列を編集領域317に展開する。
以上の動作によって、音声認識誤り修正支援装置1は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
次に、図15を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
ステップS23において、誤り修正手段152は、他の編集手段15に修正内容を通知することで、他の編集手段15の誤り修正手段152が、対応する修正端末2に表示する内容を反映する。
以上の動作によって、音声認識誤り修正支援装置1は、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段13は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段153は、音声のみを出力する音声出力手段とすればよい。
また、ここでは、修正対象選択手段150は、素材コンテンツを記憶した日時を基準として、修正対象の素材コンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、素材コンテンツが、放送素材として、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、素材コンテンツを選択することとしてもよい。あるいは、素材コンテンツに当該素材を収録した際のイベント情報が付加されている場合、イベントを指定して、素材コンテンツを選択することとしてもよい。
例えば、図16に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(図2)の音声認識手段11を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段19が単語および時間情報を対応付けて素材情報記憶手段14に記憶するとともに、認識結果分割手段12に通知することとすればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
例えば、図17に示すように、編集画面制御手段151は、項目ごとに、時間情報318,318Bを表示する。これによって、複数表示されている項目の中から、参照したい時間の項目に対して容易にアクセスすることができる。
このとき、編集画面制御手段151は、選択ボタンが「open」の項目については、素材コンテンツの先頭単語の時間情報である開始時間ts(図5参照)を、固定的に時間情報318として表示する。また、編集画面制御手段151は、選択ボタンが「close」の項目については、素材コンテンツの開始時間から映像/音声再生手段153(音声出力手段)が出力する音声の再生時間に対応する時間を、可変的に時間情報318Bとして表示する。
その場合、素材コンテンツ入力手段10は、素材情報記憶手段14の先頭の項目の開始時間ts(図5参照)に、「00:00:00:00」を設定する。そして、素材コンテンツにタイムコードがタグ情報として付加されている場合、例えば、XDCAM(登録商標)等の動画フォーマットの素材コンテンツの場合、素材コンテンツ入力手段10は、タイムコードを素材コンテンツごとに素材情報記憶手段14に記憶する。
また、編集画面制御手段151は、タイムコードが付加されている素材コンテンツについては、図19(b)に示すように、タイムテーブル表示欄314に素材コンテンツの先頭開始時間とタイムコードの時間とを加算した時間を先頭開始時間314aとして表示するとともに、各項目の時間情報318についてもそれぞれの項目の時間情報にタイムコードの時間を加算して表示する。
これによって、発話内容とタイムコードとの対応を明確にすることができる。
例えば、図20に示すように、誤り修正手段152は、マウスの右クリックキー等によって、コンテキストメニュー319を表示する。
コンテキストメニュー319には、機能(コピー等)とショートカットキー(Ctrl+C等)とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段152は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段152は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。
しかし、修正結果出力手段154は、修正時において、任意の文字列を他のデバイスに表示可能な形態で出力することとしてもよい。
例えば、編集画面制御手段151は、編集領域317(図9参照)を編集中に、マウスにより、2次元コード(例えば、QRコード〔登録商標〕)で出力したい文字列を選択し、修正結果出力手段154に2次元コードで文字列を出力することを指示する。
これによって、QRコードを読み込み可能な機器(スマートフォン、タブレット等)はQR読み込み機能によってQRコードを読み込み復号することで、選択文字列を表示することができる。
例えば、スマートフォンの画面には、図21(b)に示すように、選択文字列と、先頭単語(ここでは、「東北」)に対応する時間情報とが表示される。
これによって、修正結果出力手段154は、音声認識結果(書き起こし結果)を、ネットワークに接続されていない機器に伝達することができる。
10 素材コンテンツ入力手段
11 音声認識手段
12 認識結果分割手段
13 項目情報抽出手段
14 素材情報記憶手段(記憶手段)
15 編集手段
150 編集対象選択手段
151 編集画面制御手段
152 誤り修正手段
153 映像/音声再生手段(音声出力手段)
154 修正結果出力手段
19 認識結果入力手段
Claims (9)
- コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末を介して修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果を発話内容の切り替わりごとのセグメントに分割する認識結果分割手段と、
前記セグメントと前記認識結果を構成する単語ごとの時間情報とを記憶する記憶手段と、
前記修正端末が接続されるたびに前記修正端末に対するプロセスとして複製され、前記修正端末を介して修正内容を取得し、音声認識の誤りを修正する編集手段と、を備え、
前記編集手段は、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集画面を表示して前記セグメントの単語列を展開するか、前記編集画面を非表示とするかの制御を行う編集画面制御手段と、
前記編集画面上で指定されたテキスト内における単語の前記時間情報に基づいて、対応する音声を、前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容を用いて、前記記憶手段に記憶されている前記認識結果を後書き優先で更新するとともに、前記認識結果が後書きされた旨の更新通知を他の編集手段に通知して前記修正端末に対応する前記修正内容を反映させる誤り修正手段と、
を備えることを特徴とする音声認識誤り修正支援装置。 - 前記誤り修正手段は、修正を行っていないテキストと異なる色属性で、前記修正内容を表示することを特徴とする請求項1に記載の音声認識誤り修正支援装置。
- 前記編集手段は、修正の対象となるコンテンツを1以上選択する修正対象選択画面を前記修正端末に表示する修正対象選択手段をさらに備え、
前記編集画面制御手段は、前記修正対象選択手段で選択された1以上の修正対象の前記認識結果を含んだ編集画面を前記修正端末に表示することを特徴とする請求項1または請求項2に記載の音声認識誤り修正支援装置。 - 前記編集手段は、前記修正端末からの修正結果の取得指示に対して、前記修正対象選択手段で選択された修正対象の修正結果を前記修正端末に出力する修正結果出力手段をさらに備えることを特徴とする請求項3に記載の音声認識誤り修正支援装置。
- 前記修正結果出力手段は、前記編集画面上で選択された文字列から、前記文字列をテキストとするQRコード(登録商標)を生成し、前記修正端末に表示することを特徴とする請求項4に記載の音声認識誤り修正支援装置。
- 前記時間情報は、前記コンテンツに付加されているタイムコードの情報であることを特徴とする請求項1から請求項5のいずれか一項に記載の音声認識誤り修正支援装置。
- 前記編集画面制御手段は、修正の対象となるコンテンツの認識結果に対応付けて、前記認識結果の先頭単語の時間情報を前記修正端末に表示することを特徴とする請求項1から請求項6のいずれか一項に記載の音声認識誤り修正支援装置。
- 前記編集画面制御手段は、前記音声出力手段が出力する音声の再生時間に対応して、前記修正端末に表示する時間情報を更新することを特徴とする請求項7に記載の音声認識誤り修正支援装置。
- コンピュータを、請求項1から請求項8のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018089633 | 2018-05-08 | ||
JP2018089633 | 2018-05-08 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019197210A JP2019197210A (ja) | 2019-11-14 |
JP2019197210A5 JP2019197210A5 (ja) | 2021-05-20 |
JP6949075B2 true JP6949075B2 (ja) | 2021-10-13 |
Family
ID=68537953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019081066A Active JP6949075B2 (ja) | 2018-05-08 | 2019-04-22 | 音声認識誤り修正支援装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6949075B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229975B (zh) * | 2023-03-17 | 2023-08-18 | 杭州盈禾嘉田科技有限公司 | 智能交互场景下的田间病虫害语音填报系统及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089786A (ja) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | 音声認識結果の修正方法および装置 |
JP3986015B2 (ja) * | 2003-01-27 | 2007-10-03 | 日本放送協会 | 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム |
JP2006330170A (ja) * | 2005-05-24 | 2006-12-07 | Nhk Engineering Services Inc | 記録文書作成支援システム |
WO2010146869A1 (ja) * | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
JP2011076540A (ja) * | 2009-10-01 | 2011-04-14 | King Jim Co Ltd | 文書編集装置及びこれを用いたデータ転送方法 |
JP2014134640A (ja) * | 2013-01-09 | 2014-07-24 | Nippon Hoso Kyokai <Nhk> | 文字起こし装置およびプログラム |
JP6095381B2 (ja) * | 2013-01-25 | 2017-03-15 | キヤノン株式会社 | データ処理装置、データ処理方法及びプログラム |
JP6430137B2 (ja) * | 2014-03-25 | 2018-11-28 | 株式会社アドバンスト・メディア | 音声書起支援システム、サーバ、装置、方法及びプログラム |
-
2019
- 2019-04-22 JP JP2019081066A patent/JP6949075B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019197210A (ja) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080079693A1 (en) | Apparatus for displaying presentation information | |
US20200126583A1 (en) | Discovering highlights in transcribed source material for rapid multimedia production | |
US8930308B1 (en) | Methods and systems of associating metadata with media | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
KR102093938B1 (ko) | 학습자가 선택한 동영상을 학습 콘텐츠로 활용하는 외국어 학습시스템 및 이의 학습 콘텐츠 생성방법 | |
JP6746923B2 (ja) | 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム | |
CN111885416B (zh) | 一种音视频的修正方法、装置、介质及计算设备 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
US10089898B2 (en) | Information processing device, control method therefor, and computer program | |
JP6865701B2 (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
JP2020079982A (ja) | 動画のためのタグ付け装置、方法、およびプログラム | |
CN111885313A (zh) | 一种音视频的修正方法、装置、介质及计算设备 | |
JP5568953B2 (ja) | 情報処理装置、シーン検索方法及びプログラム | |
US20110113357A1 (en) | Manipulating results of a media archive search | |
JP2004266576A (ja) | メディアデータ記憶装置、およびメディアデータ記憶処理プログラム | |
JP2007295218A (ja) | ノンリニア編集装置およびそのプログラム | |
JP6949075B2 (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
US11119727B1 (en) | Digital tutorial generation system | |
US20170004859A1 (en) | User created textbook | |
CN114157823A (zh) | 信息处理装置、信息处理方法以及计算机可读介质 | |
JP2005341182A (ja) | 料理レシピ編集提示システム | |
JP7481863B2 (ja) | 音声認識誤り修正支援装置、プログラムおよび方法 | |
JP2021140084A (ja) | 音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置 | |
JP7176272B2 (ja) | 情報処理装置およびプログラム | |
JP7119857B2 (ja) | 編集プログラム、編集方法および編集装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210407 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210407 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210407 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6949075 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |