JP6949075B2

JP6949075B2 - 音声認識誤り修正支援装置およびそのプログラム

Info

Publication number: JP6949075B2
Application number: JP2019081066A
Authority: JP
Inventors: 三島　剛; 剛三島; 庄衛佐藤; 麻乃一木; 伊藤　均; 均伊藤; 愛子所澤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-05-08
Filing date: 2019-04-22
Publication date: 2021-10-13
Anticipated expiration: 2039-04-22
Also published as: JP2019197210A

Description

本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置およびそのプログラムに関する。

番組取材等で収録した音声素材（映像・音声素材を含む）の音声を文字として利用する場合、音声の書き起こし作業が必須の作業となっている。通常、この作業は、作業者が、収録した素材の音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であっても素材の収録時間に対して約６倍の作業時間がかかるとも言われている。

従来の音声の書き起こし作業を支援する技術として、ライブストリーミングのコンテンツをリアルタイムに音声認識し、不特定多数の複数のユーザが音声認識結果中の誤りに対して正しい文字列を入力する技術が開示されている（特許文献１参照）。
また、書き起こし作業を支援する技術として、入力された音声を任意の単位に区切った文（セル）ごとに音声認識処理を施し、作業者が、音声認識処理された認識結果と、これに対応する音声とを比較し、音声認識処理の誤りを修正する技術が開示されている（特許文献２参照）。この技術は、音声認識処理においてセル単位で音声を再生し、作業者がセル単位で認識結果を修正し、セルの修正を一般的なテキストエディタの操作で行う。また、この技術では、作業者は、セルの修正後、セルの先頭から音声を再生して、認識結果を正しく修正したか否かを確認する。

特開２０１３−２９６８４号公報特開２０１５−１８４５６４号公報

特許文献１で開示されている技術は、書き起こしの対象がライブストリーミングのコンテンツであるため、過去に遡ってコンテンツの内容を確認することができない。そのため、この技術は、音声認識誤りが多い場合、発話内容が不明瞭で何度も聞き直す必要がある場合等、誤りが残存してしまうという問題がある。
特許文献２で開示されている技術は、セル単位で音声の再生および認識結果の修正を行うため、修正箇所が少なくても、修正箇所の音声と修正結果が合致するか否かを確認するために、セルの先頭から音声を再生する必要がある。そのため、この技術は、セルの途中にある修正対象箇所の音声が再生されるまで、待ち時間が発生してしまうという問題があった。

そこで、本発明は、単語単位で音声の再生を可能とし、音声認識の完了済みまたは音声認識中のコンテンツであっても、複数の修正端末での待ち時間を抑えて、迅速に音声認識の誤りを修正することが可能な音声認識誤り修正支援装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末を介して修正する音声認識誤り修正支援装置であって、認識結果分割手段と、記憶手段と、複数の編集手段と、を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。

かかる構成において、音声認識誤り修正支援装置は、認識結果分割手段によって、テキストデータである音声の認識結果を発話内容の切り替わりごとのセグメントに分割する。
また、音声認識誤り修正支援装置は、セグメントと認識結果を構成する単語ごとの時間情報とを記憶手段に記憶する。
そして、音声認識誤り修正支援装置は、修正端末が接続されるたびに修正端末に対するプロセスとして複製される編集手段によって、修正端末を介して修正内容を取得し、音声認識の誤りを修正する。

ここで、編集手段は、編集画面制御手段によって、項目情報とともにセグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、ボタンの選択により、編集画面を表示してセグメントの単語列を展開するか、編集画面を非表示とするかの制御を行う。
また、編集手段は、編集画面上で指定されたテキスト内における単語の時間情報に基づいて、対応する音声を修正端末に出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容を用いて、記憶手段に記憶されている認識結果を後書き優先（上書き）で更新するとともに、認識結果が後書きされた旨の更新通知を他の編集手段に通知して修正端末に対応する修正内容を反映させる。これによって、作業者は、他の修正端末で修正された修正箇所を認識することが可能になる。

また、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、素材コンテンツを音声認識した認識結果を、修正端末の編集画面上に表示し、任意の単語位置で音声を再生して認識結果を把握することができるとともに、複数の修正端末で修正内容を共有して認識誤りを修正することができる。
また、本発明によれば、複数の修正端末による修正を後書き優先で行うことで、修正端末間で排他制御を行うことなく、修正端末の待ち時間を減らすことができる。

本発明の実施形態に係る音声認識誤り修正システムの構成を示すブロック構成図である。本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。素材情報記憶手段が記憶する記憶内容を説明するための説明図である。音声認識情報の内容を説明するための説明図である。セグメント情報の内容を説明するための説明図である。素材コンテンツを選択する画面の例を示す図であって、（ａ）は選択画面例、（ｂ）はリストボックス例、（ｃ）は現時間設定ボタンを押下された際の選択画面例を示す。素材コンテンツを選択する際の開始時刻および終了時刻を説明するための説明図である。素材コンテンツの音声認識結果を分割した項目の一覧を示す項目一覧画面の一例を示す画面構成図である。項目一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。異なる修正端末での編集画面を示し、同じ対象を修正している状態を説明するための説明図である。編集領域における編集作業の一例を説明するための説明図である。修正結果出力手段が生成する修正結果の一例を説明するための説明図である。本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で修正端末に提示するセグメント情報提示動作を示すフローチャートである。本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。項目一覧画面で編集領域に時間情報を表示した例を示す画面構成図である。タイムコードの有無による表示時間の違いを説明するための説明図である。項目一覧画面の一例を示す画面構成図であって、（ａ）はタイムコードがない例、（ｂ）はタイムコードがある場合の例を示す。コンテキストメニューを表示した項目一覧画面の一例を示す画面構成図である。選択文字列を２次元コードで符号化して表示する例を示す画面構成図であって、（ａ）は２次元コードを表示した画面、（ｂ）は符号化された文字列の内容を示す図である。

以下、本発明の実施形態について図面を参照して説明する。
［音声認識誤り修正システムの概要］
最初に、図１を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１を含んだ音声認識誤り修正システムＳの概要について説明する。

音声認識誤り修正システムＳは、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。
音声認識誤り修正システムＳは、音声認識誤り修正支援装置１と、複数の修正端末２（２，…，２）と、を備える。

音声認識誤り修正支援装置１は、素材コンテンツを入力し、当該素材コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末２を介して修正するものである。
この音声認識誤り修正支援装置１は、素材コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末２において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置１は、複数の修正端末２による修正を逐次反映し、複数の修正端末２で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。

修正端末２は、音声認識誤り修正支援装置１が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末２は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置１と修正端末２とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置１は、同じ素材コンテンツに対して、排他制御を行わずに、複数の修正端末２により音声認識の誤りを修正する。

これによって、音声認識誤り修正システムＳは、音声認識中の素材コンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末２によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置１の構成および動作について説明する。

［音声認識誤り修正支援装置の構成］
まず、図２を参照して、音声認識誤り修正支援装置１の構成について説明する。
音声認識誤り修正支援装置１は、図２に示すように、素材コンテンツ入力手段１０と、音声認識手段１１と、認識結果分割手段１２と、項目情報抽出手段１３と、素材情報記憶手段１４と、編集手段１５（１５，…，１５）と、情報削除手段１６と、を備える。

素材コンテンツ入力手段１０は、素材コンテンツを入力するものである。
素材コンテンツ入力手段１０は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段１０は、入力した素材コンテンツのうち、音声については、音声認識手段１１に出力する。また、素材コンテンツ入力手段１０は、入力した素材コンテンツ（映像・音声）を、後記する編集手段１５における修正作業に使用するため、素材情報記憶手段１４に書き込み記憶する。

音声認識手段１１は、素材コンテンツ入力手段１０が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段１１は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段１１は、生成した認識結果の単語と時間情報とを、順次、認識結果分割手段１２に通知するとともに、素材情報記憶手段１４に書き込み記憶する。
なお、音声認識手段１１における音声認識の手法は、例えば、特開２０１０−１７５７６５等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。

認識結果分割手段１２は、音声認識手段１１で認識された認識結果（単語列）を、予め定めた基準で分割するものである。以下、認識結果分割手段１２で生成された分割認識結果のそれぞれのかたまり（単語列）をセグメントとよぶ。
認識結果分割手段１２が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段１２は、音声認識手段１１から取得する音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。

また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段１２は、素材情報記憶手段１４に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。

また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、ＧＰＳ（Global Positioning System）の位置情報（ジオタグ）等がある。この場合、認識結果分割手段１２は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。

認識結果分割手段１２は、音声認識結果を分割したセグメントを、項目情報抽出手段１３に出力する。また、認識結果分割手段１２は、セグメントごとに、単語とその時間情報とを素材情報記憶手段１４に書き込み記憶する。

項目情報抽出手段１３は、認識結果分割手段１２で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段１３は、ＴＦ−ＩＤＦ法（ＴＦ：Term Frequency、単語の出現頻度、ＩＤＦ:Inverse Document Frequency、逆文書頻度）によりセグメントを特徴付ける単語を抽出する。ＴＦ−ＩＤＦは、文書（本実施形態では、セグメント）中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段１３は、セグメントｓ内の単語ｗの出現頻度ｔｆ（ｗ，ｓ）を、以下の式（１）で算出する。

この式（１）で、ｎ_ｗ，ｓは、ある単語ｗのセグメントｓ内での出現回数、Σ_ｔ∈ｓｎ_ｔ，ｓは、セグメントｓ内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段１３は、ある単語ｗの逆文書頻度ｉｄｆ（ｗ）を、以下の式（２）で算出する。

この式（２）で、Ｎは、素材コンテンツ内の全セグメント数、ｄｆ（ｗ）は、ある単語ｗが出現する素材コンテンツのセグメントの数（総セグメント数〔総文書数〕）を示す。
そして、項目情報抽出手段１３は、セグメント内の各単語について、以下の式（３）に示すように、式（１）のｔｆ値と式（２）のｉｄｆ値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。

項目情報抽出手段１３は、抽出した項目を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。
なお、項目情報抽出手段１３は、ＴＦ−ＩＤＦ法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。

また、項目情報抽出手段１３は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段１３は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段１３は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。

素材情報記憶手段（記憶手段）１４は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段１４は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。

ここで、図３〜図５を参照（適宜図２参照）して、素材情報記憶手段１４が記憶する素材情報について具体的に説明する。
図３に示すように、素材情報記憶手段１４は、音声認識誤りを修正する対象となる素材コンテンツ（映像・音声）Ｃｏｎを記憶する。素材コンテンツ（映像・音声）Ｃｏｎは、素材コンテンツ入力手段１０によって、記憶されたものである。

また、図３に示すように、素材情報記憶手段１４は、素材コンテンツＣｏｎごとに、音声認識情報Ｒｅｃとセグメント情報Ｓｅｇとを対応付けて記憶する。なお、素材コンテンツＣｏｎには、当該素材コンテンツＣｏｎの識別情報（ＩＤ等）および時間情報を付加（不図示）しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置１に入力された時間（入力開始時間（年月日時分等））等である。

音声認識情報Ｒｅｃは、音声認識手段１１で認識され、対応付けられた単語および時間情報である。
例えば、図４に示すように、音声認識情報Ｒｅｃは、素材コンテンツを識別する識別情報（素材コンテンツ識別情報）に対応付けて、単語ｗごとに、時間情報tと修正フラグｆとを対応付ける。ここで、修正フラグｆは、修正端末２によって修正が加えられたか否かを示す情報である（例えば、修正あり“１”、修正なし“０”）。

セグメント情報Ｓｅｇは、音声認識情報Ｒｅｃを、認識結果分割手段１２でセグメントに分割した内容を示す情報である。
例えば、図５に示すように、セグメント情報Ｓｅｇは、素材コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報（番号等）ごとに、開始時間ｔｓと、終了時間ｔｅと、項目ｋと、サムネイル画像ｇとを対応付ける。
ここで、開始時間ｔｓおよび終了時間ｔｅは、セグメントの時間区間を示す。項目ｋは、項目情報抽出手段１３が抽出した特徴単語である。サムネイル画像ｇは、項目情報抽出手段１３が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。

なお、図３の例では、素材コンテンツＣｏｎ３については、音声認識がすべて終了しておらず、セグメント情報Ｓｅｇが確定していない状態を示している。
また、ここでは、素材コンテンツＣｏｎと、音声認識情報Ｒｅｃおよびセグメント情報Ｓｅｇとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

編集手段１５は、外部に接続された修正端末２を用いて、作業者が、素材情報記憶手段１４に記憶されている音声認識結果を修正するものである。この編集手段１５は、複数の修正端末２ごとに複数存在する。なお、編集手段１５は、修正端末２に対する１つのプロセスとして動作し、修正端末２が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段１５は、図２に示すように、修正対象選択手段１５０と、編集画面制御手段１５１と、誤り修正手段１５２と、映像／音声再生手段１５３と、修正結果出力手段１５４と、を備える。

修正対象選択手段１５０は、音声認識誤りを修正する対象の素材コンテンツを選択するものである。修正対象選択手段１５０は、修正端末２に修正対象の素材コンテンツを選択する画面を表示し、修正端末２からの選択を受け付ける。
ここで、図６を参照して、素材コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段１５０は、図６（ａ）に示すような選択画面３０を表示する。

選択画面３０は、時間区間を特定することで、修正対象となる素材コンテンツを特定する画面である。選択画面３０は、時間設定領域３０１と、現時間設定ボタン３０２と、修正開始ボタン３０３と、を備える。

時間設定領域３０１は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域３０１は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域３０１は、例えば、図６（ｂ）に示すように、ボタン３０１ａを押下されることで、候補となるリストをスクロールバー３０１ｂ付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となる素材コンテンツが特定される。

現時間設定ボタン３０２は、現在の時刻から現在入力中（あるいは、それ以降）の素材コンテンツを修正対象とするための設定ボタンである。
例えば、図６（ｃ）に示すように、現時間設定ボタン３０２を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中（あるいは、それ以降）の素材コンテンツを修正対象とする。
修正開始ボタン３０３は、開始時刻および終了時刻を設定した後、修正対象となる素材コンテンツの修正を開始するためのボタンである。

ここで、図７を参照して、修正対象選択手段１５０で選択された開始時刻および終了時刻で特定される素材コンテンツの時間区間について説明する。
図７は、本日のｎ日（予め定めた日数）前から本日までの時間を時系列で示したものである。

時間区間Ｔ１は、本日から２日前のある時刻を開始時刻とし、本日から１日前のある時刻を終了時刻としたときの例である。なお、時間区間Ｔ１は、開始時刻については、設定された時刻よりも予め定めた時間ｂｔ（例えば、数十秒〜数分）だけ早い時刻とする。これによって、修正端末２の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。

時間区間Ｔ２は、素材情報記憶手段１４に記憶されている素材コンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間Ｔ２は、設定された時刻よりも予め定めた時間ｂｔだけ早い時間の素材コンテンツが存在しない場合、開示時刻を、最も古い素材コンテンツに対応する時刻とする。

時間区間Ｔ３は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間Ｔ３も、設定された時刻よりも予め定めた時間ｂｔだけ早い時刻を開始時刻とする。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。
修正対象選択手段１５０は、設定された素材コンテンツのファイル名等の識別情報を、編集画面制御手段１５１に出力する。

編集画面制御手段１５１は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。

ここで、図８および図９を参照（適宜図２参照）して、編集画面制御手段１５１が表示する画面例について、その制御内容とともに説明する。
図８に示すように、編集画面制御手段１５１は、編集画面制御手段１５１が表示する修正端末２の画面上に表示する。

項目一覧画面３１は、選択ボタン３１１と、項目表示欄３１２と、サムネイル画像表示領域３１３と、タイムテーブル表示欄３１４と、スクロールバー表示欄３１５と、修正結果取得ボタン３１６と、で構成される。

選択ボタン３１１は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄３１２は、セグメント内で抽出された項目を表示する領域である。編集画面制御手段１５１は、素材情報記憶手段１４から、当該セグメントに対応する項目（図５の項目ｋ）を読み出して、項目表示欄３１２に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段１５１は、項目表示欄３１２を空欄とする。

サムネイル画像表示領域３１３は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段１５１は、素材情報記憶手段１４から、当該セグメントに対応するサムネイル画像（図５のサムネイル画像ｇ）を読み出して、サムネイル画像表示領域３１３に表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１５１は、対応する素材コンテンツの先頭フレームをサムネイル画像として表示する。

タイムテーブル表示欄３１４は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段１５１は、素材情報記憶手段１４のセグメントの時間情報（図５の開始時間ｔｓおよび終了時間ｔｅ）を参照して、タイムテーブルを生成し表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１５１は、対応する素材コンテンツの先頭の単語と最後の単語の時間情報ｔ（図４参照）を参照する。
スクロールバー表示欄３１５は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段１５１は、スクロールバーの上下によって、画面上の項目一覧を更新する。

修正結果取得ボタン３１６は、修正対象選択手段１５０で選択した修正対象の素材コンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン３１６を押下された場合、編集画面制御手段１５１は、修正対象選択手段１５０で選択された修正対象の素材コンテンツの識別情報（素材コンテンツ識別情報）を修正結果出力手段１５４に出力する。
このように、項目一覧画面３１を表示することで、作業者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。

この項目一覧画面３１において、作業者が行う修正端末２のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン（図８中、「ｏｐｅｎ」）３１１の押下により、編集画面制御手段１５１は、項目一覧画面３１において、セグメントの単語列の修正を行う編集領域３１７（図９参照）を表示する。

図９は、編集領域３１７を表示した項目一覧画面３１Ｂを示す画面例である。
この項目一覧画面３１Ｂは、図８で説明した項目一覧画面３１に対して、選択されたセグメントにおいて、動画表示領域３１３Ｂと、編集領域３１７とが表示される。

動画表示領域３１３Ｂは、セグメントに対応する素材コンテンツを再生する領域である。編集画面制御手段１５１は、当該セグメントが選択されたタイミングで、素材情報記憶手段１４のセグメントの時間情報（図５の開始時間ｔｓおよび終了時間ｔｅ）を参照して、対応する素材コンテンツの映像区間の先頭フレームを動画表示領域３１３Ｂに表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１５１は、対応する素材コンテンツの先頭の単語の時間情報ｔ（図４参照）を参照して、対応する素材コンテンツの先頭フレームを動画表示領域３１３Ｂに表示する。
この動画表示領域３１３Ｂの画像領域をマウス等でクリック、あるいは再生開始ボタンｓｔを押下されることで、編集画面制御手段１５１は、映像／音声再生手段１５３に当該素材コンテンツの再生を指示する。

編集領域３１７は、セグメントに対応する単語列を表示し、修正を行う編集領域である。編集画面制御手段１５１は、編集領域３１７に、素材情報記憶手段１４に記憶されている当該セグメントに対応する単語列を展開する。

なお、編集画面制御手段１５１は、編集領域３１７を表示している場合、音声認識情報Ｒｅｃ（図３参照）の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段１５１は、編集領域３１７を拡大していく。これによって、音声認識誤り修正支援装置１は、リアルタイムに素材コンテンツの音声認識に対する誤りを修正することができる。
編集領域３１７の編集は、後記する誤り修正手段１５２によって行われる。なお、編集領域３１７において任意の単語をマウス等でクリックされることで、編集画面制御手段１５１は、クリックされた単語の時間に対応する素材コンテンツの再生を映像／音声再生手段１５３に指示する。
また、編集画面制御手段１５１は、選択ボタン（図９中、「ｃｌｏｓｅ」）３１１の押下により、編集領域３１７を非表示とし、動画表示領域３１３Ｂをサムネイル画像表示領域３１３として、図８の項目一覧画面３１に表示を戻す。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

誤り修正手段１５２は、修正端末２の作業者の編集操作により、編集領域３１７（図９）において、セグメントの単語列の誤りを修正するものである。この誤り修正手段１５２は、単語列を修正する編集動作においては、一般的なテキストエディタ（スクリーンエディタ）として機能する。
また、誤り修正手段１５２は、修正内容を、他の修正端末２に対応する編集手段１５（別プロセスで起動した編集手段）に対して通知することで、他の修正端末２の編集領域３１７に反映させる。逆に、他の編集手段１５から修正内容を通知された場合、誤り修正手段１５２は、自身の修正端末２の編集領域３１７に修正内容を反映させる。

この誤り修正手段１５２は、修正が行われた場合、音声認識情報Ｒｅｃ（図４）の単語を上書きして修正するとともに、修正フラグｆをセットする。この誤り修正手段１５２は、他の編集手段１５の誤り修正手段１５２が同じ修正対象に対して修正を行う場合でも、上書き（後書き優先）で更新することで、複雑な排他制御を行わないこととする。
そして、誤り修正手段１５２は、他の編集手段１５に対して修正を行ったことを通知することで、対応する誤り修正手段１５２が、音声認識情報Ｒｅｃ（図４）を参照して、修正内容を反映させる。あるいは、誤り修正手段１５２は、変更前の単語と変更後の単語とを通知することとしてもよい。
このとき、誤り修正手段１５２は、修正が行われた単語を修正が行われていない単語とは異なる色属性（例えば、赤色）で表示する。
これによって、誤り修正手段１５２は、他の修正端末２で修正された内容を作業者に視認させることができる。

例えば、図１０に示すように、編集領域３１７において、同じ修正対象を異なる修正端末２_１，２_２で修正が行われるとする。
この場合、図１０（ａ）に示すように、修正端末２_１の作業者は、編集領域３１７において「京」を「今日」に修正する。また、図１０（ｂ）に示すように、修正端末２_２の作業者は、編集領域３１７において「ハタ」を「肌」に修正する。
そして、修正端末２_１，２_２に対応するそれぞれの誤り修正手段１５２が、それぞれの修正内容を通知しあうことで、他の修正内容を反映させる。
これによって、複数の修正端末２で迅速に音声認識の誤りを修正することができる。

また、誤り修正手段１５２は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段１５２は、編集領域３１７（図９）において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段１５２は、音声の再生を停止する。

図１１は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図１１の編集領域３１７において、マウスクリック等で「３月」が選択された場合、誤り修正手段１５２は、素材情報記憶手段１４のセグメントに含まれる単語の時間情報（図４の時間情報ｔ）を参照して、対応する素材セグメントの位置から音声を再生するように、映像／音声再生手段１５３に指示する。なお、このとき、音声に連動して、動画表示領域３１３Ｂにおいて、音声再生の時間に対応する映像を再生することとしてもよい。

そして、誤り修正手段１５２は、図１１に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段１５２は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

映像／音声再生手段１５３は、素材コンテンツの映像および音声を修正端末２に出力するものである。この映像／音声再生手段１５３は、編集画面制御手段１５１または誤り修正手段１５２により指定された位置に基づいて、素材情報記憶手段１４から映像／音声を読み出して、修正端末２に出力する

修正結果出力手段１５４は、誤り修正手段１５２で修正された音声認識結果（書き起こし結果）を、外部に出力するものである。
この修正結果出力手段１５４は、編集画面制御手段１５１から出力される修正対象の素材コンテンツに対する修正後の音声認識結果を、素材情報記憶手段１４から読み出して、対応する修正端末２に出力する。

例えば、修正結果出力手段１５４は、図１２に示すように、タイトルＴと、時間情報・項目Ｋと、修正結果Ｗとを含んだテキストデータを生成する。なお、時間情報・項目Ｋと、修正結果Ｗとは、セグメントの数だけ複数存在する。

タイトルＴには、例えば、修正日を記載する。
時間情報・項目Ｋには、例えば、セグメントの開始時間ｔｓと、当該セグメントに対応付けられた項目ｋ（図５参照）を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段１５４は、時間情報には、先頭単語の時間情報ｔ（図４参照）を記載し、項目を空欄とする。

修正結果Ｗには、例えば、セグメントに対応する修正後の単語ｗ列（図４参照）を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段１５４は、現在入力中の素材コンテンツに対応する音声認識情報の現時点までの単語ｗ列（図４参照）を記載する。

この修正結果出力手段１５４は、修正後の音声認識結果を、テキストデータとして、修正端末２に出力することとしてもよいし、音声認識情報に修正フラグｆ（図４参照）が設定されている単語については、色情報を付加した予め定めたフォーマット、例えば、ＰＤＦ（Portable Document Format）等のデータとして出力することとしてもよい。

情報削除手段１６は、素材情報記憶手段１４に記憶されている情報を定期的に削除するものである。例えば、情報削除手段１６は、予め保存日数等が設定され、当該日数を超過した情報（素材コンテンツＣｏｎ、音声認識情報Ｒｅｃ、セグメント情報Ｓｅｇ（図３参照））を削除する。

以上説明したように音声認識誤り修正支援装置１を構成することで、音声認識誤り修正支援装置１は、複数の修正端末２によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置１は、ある修正端末２で行った修正を他の修正端末２に通知することができるため、複数の修正端末２で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力される素材コンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置１は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
なお、音声認識誤り修正支援装置１は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

［音声認識誤り修正支援装置の動作］
次に、図１３〜図１５を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１の動作について説明する。なお、ここでは、音声認識誤り修正支援装置１の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末２に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。

（セグメント情報生成動作）
まず、図１３を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント情報生成動作について説明する。

ステップＳ１において、素材コンテンツ入力手段１０は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段１０は、入力した素材コンテンツを素材情報記憶手段１４に書き込み記憶する。
ステップＳ２において、音声認識手段１１は、ステップＳ１で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、認識結果分割手段１２に通知するとともに、素材情報記憶手段１４に書き込み記憶する。

ステップＳ３において、認識結果分割手段１２は、ステップＳ２で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。

ステップＳ４において、項目情報抽出手段１３は、ステップＳ３で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段１３は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。
ここで、素材コンテンツの入力が完了していない場合（ステップＳ５でＮｏ）、音声認識誤り修正支援装置１は、ステップＳ１に戻って、素材コンテンツの入力を続ける。
一方、素材コンテンツの入力が完了した場合（ステップＳ５でＹｅｓ）、音声認識誤り修正支援装置１は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置１は、図３に示すように、素材情報記憶手段１４に、素材コンテンツと、音声認識情報およびセグメント情報とを対応付ける。

（セグメント情報提示動作）
次に、図１４を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末２との接続が開始された後の編集手段１５の動作である。

ステップＳ１０において、修正対象選択手段１５０は、素材情報記憶手段１４に記憶されている音声認識誤りを修正する対象の素材コンテンツを選択する選択画面３０(図６参照)を修正端末２に表示する。
ステップＳ１１において、修正対象選択手段１５０は、画面上で、修正対象の素材コンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する（ステップＳ１１でＮｏ）。そして、修正開始ボタンが押下された場合（ステップＳ１１でＹｅｓ）、修正対象選択手段１５０は、ステップＳ１２以降の制御を行う編集画面制御手段１５１に制御を移す。

ステップＳ１２において、編集画面制御手段１５１は、素材情報記憶手段１４に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面３１（図８参照）を修正端末２に表示する。

ステップＳ１３において、編集画面制御手段１５１は、項目一覧画面で選択ボタン（ｏｐｅｎ）が押下されるまで待機する（ステップＳ１３でＮｏ）。
一方、選択ボタン（ｏｐｅｎ）が押下された場合（ステップＳ１３でＹｅｓ）、ステップＳ１４において、編集画面制御手段１５１は、図９に示すように、選択されたセグメントに対応して編集領域３１７を表示し、素材情報記憶手段１４に記憶されている当該セグメントに対応する認識結果である単語列を編集領域３１７に展開する。

この動作以降、編集手段１５は、作業者が修正端末２の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン（ｏｐｅｎ）の押下により編集領域３１７を表示した場合、編集画面制御手段１５１は、任意のタイミングで、選択ボタン（ｃｌｏｓｅ）の押下により編集領域３１７を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面３１Ｂ（図９参照）の動画表示領域３１３Ｂにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置１は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。

（セグメント修正動作）
次に、図１５を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。

ステップＳ２０において、誤り修正手段１５２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域３１７（図９）内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段１５２は、映像／音声再生手段１５３を介して、素材情報記憶手段１４のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末２に出力する。これによって、修正端末２で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。

ステップＳ２１において、誤り修正手段１５２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段１５２は、音声が再生中であれば、修正端末２への出力を停止する。これによって、音声の再生が停止される。

ステップＳ２２において、誤り修正手段１５２は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段１５２は、素材情報記憶手段１４の単語を修正結果で更新する。
ステップＳ２３において、誤り修正手段１５２は、他の編集手段１５に修正内容を通知することで、他の編集手段１５の誤り修正手段１５２が、対応する修正端末２に表示する内容を反映する。

ステップＳ２４において、誤り修正手段１５２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段１５２は、映像／音声再生手段１５３を介して、素材情報記憶手段１４のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末２に出力する。これによって、修正端末２で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。

なお、図示を省略しているが、ステップＳ２４における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップＳ２２に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置１は、複数の修正端末２で迅速に音声認識の誤りを修正することができる。

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段１３は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像／音声再生手段１５３は、音声のみを出力する音声出力手段とすればよい。

また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了した素材コンテンツと、現在音声認識中の素材コンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中の素材コンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置１は、認識結果分割手段１２、項目情報抽出手段１３および修正対象選択手段１５０を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段１５０は、素材コンテンツを記憶した日時を基準として、修正対象の素材コンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、素材コンテンツが、放送素材として、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、素材コンテンツを選択することとしてもよい。あるいは、素材コンテンツに当該素材を収録した際のイベント情報が付加されている場合、イベントを指定して、素材コンテンツを選択することとしてもよい。

また、音声認識誤り修正支援装置１は、音声認識手段１１を外部に備えてもよい。
例えば、図１６に示す音声認識誤り修正支援装置１Ｂの構成としてもよい。音声認識誤り修正支援装置１Ｂは、音声認識誤り修正支援装置１（図２）の音声認識手段１１を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段１９が単語および時間情報を対応付けて素材情報記憶手段１４に記憶するとともに、認識結果分割手段１２に通知することとすればよい。
なお、音声認識誤り修正支援装置１Ｂも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

また、編集画面制御手段１５１は、項目一覧画面３１，３１Ｂ（図８，図９参照）で表示する各項目に対応付けて時間情報を表示することとしてもよい。
例えば、図１７に示すように、編集画面制御手段１５１は、項目ごとに、時間情報３１８，３１８Ｂを表示する。これによって、複数表示されている項目の中から、参照したい時間の項目に対して容易にアクセスすることができる。
このとき、編集画面制御手段１５１は、選択ボタンが「ｏｐｅｎ」の項目については、素材コンテンツの先頭単語の時間情報である開始時間ｔｓ（図５参照）を、固定的に時間情報３１８として表示する。また、編集画面制御手段１５１は、選択ボタンが「ｃｌｏｓｅ」の項目については、素材コンテンツの開始時間から映像／音声再生手段１５３（音声出力手段）が出力する音声の再生時間に対応する時間を、可変的に時間情報３１８Ｂとして表示する。

また、ここでは、時間情報として音声認識誤り修正支援装置１に入力された時間を用いたが、図１７に示すような時間情報を表示する場合、素材コンテンツに付加されているタイムコードを用いてもよい。
その場合、素材コンテンツ入力手段１０は、素材情報記憶手段１４の先頭の項目の開始時間ｔｓ（図５参照）に、「００：００：００：００」を設定する。そして、素材コンテンツにタイムコードがタグ情報として付加されている場合、例えば、ＸＤＣＡＭ（登録商標）等の動画フォーマットの素材コンテンツの場合、素材コンテンツ入力手段１０は、タイムコードを素材コンテンツごとに素材情報記憶手段１４に記憶する。

そして、編集画面制御手段１５１は、図１８に示すように、タイムコードが付加されている素材コンテンツについては、タイムコードが付加されていない時間情報を基準として、タイムコード分の時間を加算する。なお、図１８では、タイムコードのうち、「時：分：秒」のみを表示している。

例えば、編集画面制御手段１５１は、タイムコードが付加されていない素材コンテンツについては、図１９（ａ）に示すように、タイムテーブル表示欄３１４に素材コンテンツの先頭開始時間３１４ａを表示するとともに、各項目に時間情報３１８を表示する。
また、編集画面制御手段１５１は、タイムコードが付加されている素材コンテンツについては、図１９（ｂ）に示すように、タイムテーブル表示欄３１４に素材コンテンツの先頭開始時間とタイムコードの時間とを加算した時間を先頭開始時間３１４ａとして表示するとともに、各項目の時間情報３１８についてもそれぞれの項目の時間情報にタイムコードの時間を加算して表示する。
これによって、発話内容とタイムコードとの対応を明確にすることができる。

また、誤り修正手段１５２は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、図２０に示すように、誤り修正手段１５２は、マウスの右クリックキー等によって、コンテキストメニュー３１９を表示する。
コンテキストメニュー３１９には、機能（コピー等）とショートカットキー（Ｃｔｒｌ＋Ｃ等）とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段１５２は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段１５２は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。

また、ここでは、修正結果出力手段１５４が、修正後の音声認識結果を修正端末２に出力することとした。
しかし、修正結果出力手段１５４は、修正時において、任意の文字列を他のデバイスに表示可能な形態で出力することとしてもよい。
例えば、編集画面制御手段１５１は、編集領域３１７（図９参照）を編集中に、マウスにより、２次元コード（例えば、ＱＲコード〔登録商標〕）で出力したい文字列を選択し、修正結果出力手段１５４に２次元コードで文字列を出力することを指示する。

この場合、編集画面制御手段１５１は、文字列を選択し、図２０に示したコンテキストメニュー３１９で「選択文字列のＱＲ表示」を選択するか、ショートカットキー（ここでは、Ｃｔｒｌ＋Ｑ）を押下されることで、選択文字列を修正結果出力手段１５４に出力する。なお、このとき、編集画面制御手段１５１は、選択文字列とともに、選択文字列の先頭の単語に対応する時間情報も修正結果出力手段１５４に出力する。

そして、修正結果出力手段１５４は、図２１（ａ）に示すように、時間情報と選択文字列とをテキストとするＱＲコードを生成し、例えば、モーダルウインドウ３２０としてＱＲコードを表示する。なお、編集画面制御手段１５１は、モーダルウインドウ３２０の任意の場所をマウスでクリックされるまで、モーダルウインドウ３２０を表示し、クリック後、モーダルウインドウ３２０を非表示とする。
これによって、ＱＲコードを読み込み可能な機器（スマートフォン、タブレット等）はＱＲ読み込み機能によってＱＲコードを読み込み復号することで、選択文字列を表示することができる。
例えば、スマートフォンの画面には、図２１（ｂ）に示すように、選択文字列と、先頭単語（ここでは、「東北」）に対応する時間情報とが表示される。
これによって、修正結果出力手段１５４は、音声認識結果（書き起こし結果）を、ネットワークに接続されていない機器に伝達することができる。

１，１Ｂ音声認識誤り修正支援装置
１０素材コンテンツ入力手段
１１音声認識手段
１２認識結果分割手段
１３項目情報抽出手段
１４素材情報記憶手段（記憶手段）
１５編集手段
１５０編集対象選択手段
１５１編集画面制御手段
１５２誤り修正手段
１５３映像／音声再生手段（音声出力手段）
１５４修正結果出力手段
１９認識結果入力手段

Claims

コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末を介して修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果を発話内容の切り替わりごとのセグメントに分割する認識結果分割手段と、
前記セグメントと前記認識結果を構成する単語ごとの時間情報とを記憶する記憶手段と、
前記修正端末が接続されるたびに前記修正端末に対するプロセスとして複製され、前記修正端末を介して修正内容を取得し、音声認識の誤りを修正する編集手段と、を備え、
前記編集手段は、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集画面を表示して前記セグメントの単語列を展開するか、前記編集画面を非表示とするかの制御を行う編集画面制御手段と、
前記編集画面上で指定されたテキスト内における単語の前記時間情報に基づいて、対応する音声を、前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容を用いて、前記記憶手段に記憶されている前記認識結果を後書き優先で更新するとともに、前記認識結果が後書きされた旨の更新通知を他の編集手段に通知して前記修正端末に対応する前記修正内容を反映させる誤り修正手段と、
を備えることを特徴とする音声認識誤り修正支援装置。
前記誤り修正手段は、修正を行っていないテキストと異なる色属性で、前記修正内容を表示することを特徴とする請求項１に記載の音声認識誤り修正支援装置。
前記編集手段は、修正の対象となるコンテンツを１以上選択する修正対象選択画面を前記修正端末に表示する修正対象選択手段をさらに備え、
前記編集画面制御手段は、前記修正対象選択手段で選択された１以上の修正対象の前記認識結果を含んだ編集画面を前記修正端末に表示することを特徴とする請求項１または請求項２に記載の音声認識誤り修正支援装置。
前記編集手段は、前記修正端末からの修正結果の取得指示に対して、前記修正対象選択手段で選択された修正対象の修正結果を前記修正端末に出力する修正結果出力手段をさらに備えることを特徴とする請求項３に記載の音声認識誤り修正支援装置。
前記修正結果出力手段は、前記編集画面上で選択された文字列から、前記文字列をテキストとするＱＲコード（登録商標）を生成し、前記修正端末に表示することを特徴とする請求項４に記載の音声認識誤り修正支援装置。
前記時間情報は、前記コンテンツに付加されているタイムコードの情報であることを特徴とする請求項１から請求項５のいずれか一項に記載の音声認識誤り修正支援装置。
前記編集画面制御手段は、修正の対象となるコンテンツの認識結果に対応付けて、前記認識結果の先頭単語の時間情報を前記修正端末に表示することを特徴とする請求項１から請求項６のいずれか一項に記載の音声認識誤り修正支援装置。
前記編集画面制御手段は、前記音声出力手段が出力する音声の再生時間に対応して、前記修正端末に表示する時間情報を更新することを特徴とする請求項７に記載の音声認識誤り修正支援装置。
コンピュータを、請求項１から請求項８のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。