JP2018180519A

JP2018180519A - 音声認識誤り修正支援装置およびそのプログラム

Info

Publication number: JP2018180519A
Application number: JP2018023711A
Authority: JP
Inventors: 三島　剛; Takeshi Mishima; 剛三島; 庄衛佐藤; Shoe Sato; 麻乃一木; Manon Ichiki; 伊藤　均; Hitoshi Ito; 均伊藤; 愛子所澤; Aiko Tokorozawa; 彰夫小林; Akio Kobayashi
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2017-04-18
Filing date: 2018-02-14
Publication date: 2018-11-15
Anticipated expiration: 2038-02-14
Also published as: JP6865701B2

Abstract

【課題】簡易な操作で音声認識の誤り修正を行うことが可能な音声認識誤り修正支援装置を提供する。【解決手段】音声認識誤り修正支援装置１は、音声認識結果と単語ごとの時間情報とを生成する音声認識手段１１と、認識結果を分割する認識結果分割手段１２と、分割した認識結果であるセグメントごとに項目を抽出する項目情報抽出手段１３と、セグメントに含まれる単語列を表示するか否かを指定する選択ボタンを含んだ項目一覧を表示し、選択ボタンの押下により、編集領域を表示して単語列を展開するか、編集領域を非表示とするかの制御を行う認識結果表示制御手段１５１と、編集領域でセグメントの誤りを修正する誤り修正手段１５２と、編集領域のセグメントに対応する音声を指定された位置から再生する音声再生手段１５３と、を備える。【選択図】図１

Description

本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置およびそのプログラムに関する。

番組取材等で収録した音声素材（映像・音声素材を含む）の音声を文字として利用する場合、音声を文字に書き起こす作業が必須の作業となっている。通常、この作業は、作業者が収録した素材の音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であっても素材の収録時間に対して約６倍の作業時間がかかるとも言われている。

従来、音声の書き起こし作業を支援する技術として、入力された音声を任意の単位に区切った文（セル）ごとに音声認識処理を施し、音声認識処理された認識結果と、これに対応する音声とを比較し、音声認識処理の誤りを修正する技術が開示されている（特許文献１参照）。
この技術は、音声認識処理においてセル単位で音声を再生し、操作者がセル単位で認識結果を修正し、セルの修正を一般的なテキストエディタの操作で行う。また、この技術では、操作者は、特殊な操作を覚える必要はなく、セルの修正後、セルの先頭から音声を再生して、操作者が認識結果を正しく修正したか否かを確認していた。

また、従来の音声の書き起こし作業を支援する技術として、音声の認識結果を、単語ごとに対応付けて、単語単位で修正する技術が開示されている（特許文献２，３参照）。
この技術は、字幕放送等のリアルタイム性が要求される誤り修正や、誤りの少ない認識結果を修正する場合には有効である。

特開２０１５−１８４５６４号公報特開２００４−２２６９１０号公報特開２００５−２２８１７８号公報

特許文献１で開示されている技術は、セル単位で音声の再生および認識結果の修正を行うため、修正箇所が少なくても、修正箇所の音声と修正結果が合致するか否かを確認するために、セルの先頭から音声を再生する必要がある。
そのため、この技術は、セルの途中にある修正対象箇所の音声が再生されるまで、待ち時間が発生してしまうという問題があった。また、この技術は、セル内で、認識結果に対応する音声を操作者が聞き分ける必要があるため、認識結果が悪くなると、音声と修正対象とを対応付けることが困難になってしまうという問題があった。

また、特許文献２，３で開示されている技術のように、音声の認識結果を単語単位で修正する技術では、認識結果の修正と音声の確認とを素早く行うことは可能である。しかし、複数の単語に渡って認識誤りがある場合、順番に単語を指定して修正を行わなければならず、手順が複雑となり、その操作に慣れるまでに時間がかかってしまうという問題があった。

そこで、本発明は、音声認識の誤りを修正する際に、修正対象箇所の音声を素早く再生し、簡易な操作で音声認識の誤り修正を行うことが可能な音声認識誤り修正支援装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、素材コンテンツの音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、音声認識手段と、認識結果分割手段と、項目情報抽出手段と、記憶手段と、認識結果表示制御手段と、誤り修正手段と、音声再生手段と、を備える構成とした。

かかる構成において、音声認識誤り修正支援装置は、音声認識手段によって、音声を認識し、テキストデータである認識結果を生成するとともに、当該認識結果を構成する単語ごとの時間情報とを生成する。この時間情報は、素材コンテンツの先頭からの相対的な経過時間である。これによって、音声認識手段は、認識した単語ごとに、素材コンテンツの先頭からの相対的な経過時間を対応付ける。

そして、音声認識誤り修正支援装置は、認識結果分割手段によって、認識結果を、音声の無音区間等の予め定めた基準で分割する。
さらに、音声認識誤り修正支援装置は、項目情報抽出手段によって、認識結果分割手段で分割された認識結果であるセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出する。例えば、項目情報抽出手段は、ＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency）法により特徴単語を抽出する。

そして、音声認識誤り修正支援装置は、セグメントごとに、項目と単語ごとの時間情報とを対応付けて、素材コンテンツとともに記憶手段に記憶する。これによって、音声認識誤り修正支援装置は、音声認識結果を修正するために必要となる情報を記憶手段に記憶する。

そして、音声認識誤り修正支援装置は、認識結果表示制御手段によって、セグメントに含まれる単語列を表示するか否かを指定する選択ボタンを含んだ項目の一覧を表示する。また、音声認識誤り修正支援装置は、認識結果表示制御手段によって、選択ボタンの押下により、編集領域を表示してセグメントの単語列を展開するか、編集領域を非表示とするかの制御を行う。これによって、認識結果表示制御手段は、音声の認識結果をすべて表示するのではなく、項目一覧によって操作者に編集対象のセグメントを指定させ、対象となったセグメントの単語列を編集領域に展開して操作者に提示する。

そして、音声認識誤り修正支援装置は、誤り修正手段によって、操作者の編集操作により、編集領域でセグメントの誤りを修正する。このとき、誤り修正手段は、編集領域で指定された単語位置からの時間情報に対応する素材コンテンツの音声を音声再生手段により再生させる。これによって、誤り修正手段は、認識結果またはその修正結果に対応する音声を操作者が素早く確認可能なように、指定された位置の単語から音声を再生する。
なお、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、素材コンテンツの音声認識結果を分割して、項目の一覧を表示するため、簡易な操作で音声認識の誤りを確認したい認識結果を素早く選択することができる。
また、本発明によれば、編集領域で単語の位置を指定するという簡易な操作で、対応する音声を再生するため、音声認識結果の誤りの発見や、修正確認を素早く行うことができる。
これによって、本発明は、特別なスキルを必要とせずに、音声認識結果の誤りを修正することができる。

本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。素材情報記憶手段が記憶する記憶内容を説明するための説明図である。素材コンテンツを選択する素材コンテンツ選択画面の一例を示す画面構成図である。素材コンテンツの音声認識結果を分割した項目の一覧を示す項目一覧画面の一例を示す画面構成図である。項目一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。編集領域における編集作業の一例を説明するための説明図である。音声再生に連動して編集領域の単語の表示属性を変更する例を説明するための説明図である。編集領域における編集作業の操作内容を提示する例を説明するための説明図である。編集領域における音声の繰り返し再生を指定する例を説明するための説明図である。本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で表示装置に提示するセグメント情報提示動作を示すフローチャートである。本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。

以下、本発明の実施形態について図面を参照して説明する。
［音声認識誤り修正支援装置の構成］
最初に、図１を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１の構成について説明する。
音声認識誤り修正支援装置１は、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りの修正を支援するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。

音声認識誤り修正支援装置１は、図１に示すように、素材コンテンツ入力手段１０と、音声認識手段１１と、認識結果分割手段１２と、項目情報抽出手段１３と、素材情報記憶手段１４と、編集手段１５と、書き起こし結果出力手段１６と、を備える。

素材コンテンツ入力手段１０は、素材コンテンツを入力するものである。
素材コンテンツ入力手段１０は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段１０は、入力した素材コンテンツのうち、音声については、音声認識手段１１に出力する。また、素材コンテンツ入力手段１０は、入力した素材コンテンツ（映像・音声）を、後記する編集手段１５における修正作業に使用するため、素材情報記憶手段１４に書き込み記憶する。

なお、素材コンテンツ入力手段１０は、素材情報記憶手段１４に素材コンテンツを書き込んだ後、音声認識手段１１に対して、素材コンテンツの書き込み完了を通知し、音声認識手段１１が素材情報記憶手段１４から音声を読み出すこととしてもよい。

音声認識手段１１は、素材コンテンツ入力手段１０が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段１１は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段１１は、生成した認識結果の単語と時間情報とを認識結果分割手段１２に出力する。なお、音声認識手段１１における音声認識の手法は、例えば、特開２０１０−１７５７６５等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。

認識結果分割手段１２は、音声認識手段１１で認識された認識結果（単語列）を、予め定めた基準で分割するものである。以下、認識結果分割手段１２で生成された分割認識結果のそれぞれのかたまりをセグメントとよぶ。
認識結果分割手段１２が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段１２は、素材情報記憶手段１４に記憶されている音声から音響特徴量であるパワー等によって無音区間を検出し、音声認識手段１１による認識結果を、無音区間の前後で分割する。

また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段１２は、素材情報記憶手段１４に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。

また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、ＧＰＳ（Global Positioning System）の位置情報（ジオタグ）等がある。この場合、認識結果分割手段１２は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。

認識結果分割手段１２は、音声認識結果を分割したセグメントを、項目情報抽出手段１３に出力する。また、認識結果分割手段１２は、セグメントごとに、単語とその時間情報とを素材情報記憶手段１４に書き込み記憶する。

項目情報抽出手段１３は、認識結果分割手段１２で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段１３は、ＴＦ−ＩＤＦ法（ＴＦ：Term Frequency、単語の出現頻度、ＩＤＦ:Inverse Document Frequency、逆文書頻度）によりセグメントを特徴付ける単語を抽出する。ＴＦ−ＩＤＦは、文書（本実施形態では、セグメント）中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段１３は、セグメントｓ内の単語ｗの出現頻度ｔｆ（ｗ，ｓ）を、以下の式（１）で算出する。

この式（１）で、ｎ_ｗ，ｓは、ある単語ｗのセグメントｓ内での出現回数、Σ_ｔ∈ｓｎ_ｔ，ｓは、セグメントｓ内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段１３は、ある単語ｗの逆文書頻度ｉｄｆ（ｗ）を、以下の式（２）で算出する。

この式（２）で、Ｎは、素材コンテンツ内の全セグメント数、ｄｆ（ｗ）は、ある単語ｗが出現する素材コンテンツのセグメントの数（総セグメント数〔総文書数〕）を示す。
そして、項目情報抽出手段１３は、セグメント内の各単語について、以下の式（３）に示すように、式（１）のｔｆ値と式（２）のｉｄｆ値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。

項目情報抽出手段１３は、抽出した項目を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。
なお、項目情報抽出手段１３は、ＴＦ−ＩＤＦ法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。

また、項目情報抽出手段１３は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段１３は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段１３は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。

素材情報記憶手段（記憶手段）１４は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段１４は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。

ここで、図２を参照（適宜図１参照）して、素材情報記憶手段１４が記憶する素材情報について具体的に説明する。
図２に示すように、素材情報記憶手段１４は、音声認識誤りを修正する対象となる素材コンテンツ（映像・音声）Ａ，Ｂ…を記憶する。この素材コンテンツ（映像・音声）Ａ，Ｂ…は、素材コンテンツ入力手段１０によって、記憶されたものである。

また、図２に示すように、素材情報記憶手段１４は、素材コンテンツごとに、音声認識結果をセグメントに分割した情報を記憶する。
図２の例では、素材コンテンツの識別情報（ここでは、ファイル名Ａ，Ｂ，…）ごとに、セグメント（識別情報ａ１，ａ２，…，ｂ１，…）を対応付けている。
各セグメントは、単語ｗと時間情報tとを複数含み、それぞれは対応付けられている。
このセグメントごとの単語ｗおよび時間情報ｔは、音声認識手段１１で対応付けられた単語および時間情報を、認識結果分割手段１２が分割した情報である。

また、各セグメントは、項目ｋとサムネイル画像ｇとを含む。項目ｋは、項目情報抽出手段１３が抽出した特徴単語である。サムネイル画像ｇは、項目情報抽出手段１３が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
なお、ここでは、素材コンテンツと、素材コンテンツの音声認識結果を分割したセグメントとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図１に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

編集手段１５は、外部に接続された修正端末（入力装置２、表示装置３、スピーカ４）を用いて、操作者が、素材情報記憶手段１４に記憶されている音声認識結果を修正するものである。なお、修正端末の表示装置３は、タッチパネルを備える構成としてもよい。
編集手段１５は、図１に示すように、素材コンテンツ選択手段１５０と、認識結果表示制御手段１５１と、誤り修正手段１５２と、映像／音声再生手段１５３と、を備える。

素材コンテンツ選択手段１５０は、修正対象となる素材コンテンツを選択するものである。例えば、素材コンテンツ選択手段１５０は、図３に示すように、素材情報記憶手段１４に記憶されている素材コンテンツＡ，Ｂ，Ｃのいずれかを選択するための選択ボタン３０１を含んだ素材コンテンツ選択画面３０を表示装置３に表示する。そして、素材コンテンツ選択手段１５０は、素材コンテンツ選択画面３０上の選択ボタン３０１の押下により、修正対象となる素材コンテンツを選択する。素材コンテンツ選択手段１５０は、選択された素材コンテンツのファイル名等の識別情報を、認識結果表示制御手段１５１に出力する。

認識結果表示制御手段１５１は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。

ここで、図４および図５を参照（適宜図１参照）して、認識結果表示制御手段１５１が表示する画面例について、その制御内容とともに説明する。
図４に示すように、認識結果表示制御手段１５１は、項目一覧画面３１を表示装置３の画面上に表示する。
項目一覧画面３１は、選択ボタン３１１と、項目表示欄３１２と、サムネイル画像表示領域３１３と、タイムテーブル表示欄３１４と、スクロールバー表示欄３１５と、で構成される。

選択ボタン３１１は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄３１２は、セグメント内で抽出された項目を表示する領域である。認識結果表示制御手段１５１は、素材情報記憶手段１４から、当該セグメントに対応する項目（図２の項目ｋ）を読み出して、項目表示欄３１２に表示する。
サムネイル画像表示領域３１３は、セグメント内で抽出されたサムネイル画像を表示する領域である。認識結果表示制御手段１５１は、素材情報記憶手段１４から、当該セグメントに対応するサムネイル画像（図２のサムネイル画像ｇ）を読み出して、サムネイル画像表示領域３１３に表示する。

タイムテーブル表示欄３１４は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。認識結果表示制御手段１５１は、素材情報記憶手段１４のセグメントの時間情報（図２の時間情報ｔ）を参照して、タイムテーブルを生成し表示する。
スクロールバー表示欄３１５は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。認識結果表示制御手段１５１は、スクロールバーの上下によって、画面上の項目一覧を更新する。
このように、項目一覧画面３１を表示することで、操作者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。

この項目一覧画面３１において、操作者が行う入力装置２のマウスのクリック、あるいは、表示装置３のタッチパネルへのタッチによる選択ボタン（図４中、「ｏｐｅｎ」）３１１の押下により、認識結果表示制御手段１５１は、項目一覧画面３１において、セグメントの単語列の修正を行う編集領域３１６（図５参照）を表示する。

図５は、編集領域３１６を表示した項目一覧画面３１Ｂを示す画面例である。
この項目一覧画面３１Ｂは、図４で説明した項目一覧画面３１に対して、選択されたセグメントにおいて、動画表示領域３１３Ｂと、編集領域３１６とが表示される。

動画表示領域３１３Ｂは、セグメントに対応する素材コンテンツを再生する領域である。認識結果表示制御手段１５１は、当該セグメントが選択されたタイミングで、素材情報記憶手段１４のセグメントの時間情報（図２の時間情報ｔ）を参照して、対応する素材コンテンツの映像の先頭フレームを動画表示領域３１３Ｂに表示する。この動画表示領域３１３Ｂの画像領域をマウス等でクリック、あるいは再生開始ボタンｓｔを押下されることで、認識結果表示制御手段１５１は、映像／音声再生手段１５３に当該素材コンテンツの再生を指示する。

編集領域３１６は、セグメントに対応する単語列を表示し、編集対象となる領域である。認識結果表示制御手段１５１は、編集領域３１６に、素材情報記憶手段１４に記憶されている当該セグメントに対応する単語列（図２の単語ｗの列）を展開する。
なお、このとき、認識結果表示制御手段１５１は、選択ボタン３１１を、編集領域３１６を非表示とするボタン（図４中、「ｃｌｏｓｅ」）とする。そして、選択ボタン（図４中、「ｃｌｏｓｅ」）３１１の押下により、認識結果表示制御手段１５１は、編集領域３１６を非表示とし、動画表示領域３１３Ｂをサムネイル画像表示領域３１３として、図４の項目一覧画面３１に表示を戻す。
図１に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

誤り修正手段１５２は、操作者の編集操作により、編集領域３１６（図５）において、セグメントの単語列の誤りを修正するものである。この誤り修正手段１５２は、単語列を修正する編集動作においては、一般的なテキストエディタ（スクリーンエディタ）として機能する。ただし、誤り修正手段１５２は、単語列を修正する際に、音声を再生する機能を有する。

具体的には、誤り修正手段１５２は、編集領域３１６（図５）において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段１５２は、音声の再生を停止する。

図６は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図６の編集領域３１６において、「３月」が選択された場合、誤り修正手段１５２は、素材情報記憶手段１４のセグメントの時間情報（図２の時間情報ｔ）を参照して、対応する素材セグメントの位置から音声を再生するように、映像／音声再生手段１５３に指示する。なお、このとき、音声に連動して、動画表示領域３１３Ｂ（図５）において、音声再生の時間に対応する映像を再生することとしてもよい。
ここで、操作者が、誤り（ここでは、「ハタ寒い」）を発見して修正箇所をマウスでクリック等することで、誤り修正手段１５２は、音声再生を停止してカーソルＣを表示する。そして、誤り修正手段１５２は、操作者の編集操作により、誤りである「ハタ寒い」を「肌寒い」と修正する。そして、誤り修正手段１５２は、素材情報記憶手段１４に記憶されている誤りのあった単語を、修正後の単語に置き換える。これによって、音声認識誤り修正支援装置１は、操作者による修正後の保存操作を省略することができる。

また、誤り修正手段１５２は、マウスクリック等で指定された単語位置から音声を再生する。
図７は、音声再生に連動して編集領域の単語の表示属性を変更する例を説明するための説明図である。例えば、図７に示すように、編集領域３１６において、音声の再生を開始したい箇所をマウス等で選択された場合、誤り修正手段１５２は、素材情報記憶手段１４のセグメントの時間情報（図２の時間情報ｔ）を参照し、選択した単語から再生停止の指示があるまで音声を再生するように、映像／音声再生手段１５３に指示する。
そして、誤り修正手段１５２は、図７に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段１５２は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。

このとき、誤り修正手段１５２は、操作者が行った操作のフィードバック情報を画面上に提示する。例えば、図８に示すように、誤り修正手段１５２は、選択された単語位置に音声の再生開始を示すポップアップメッセージｐｏｐ１を表示し、音声が停止した単語位置に音声の再生終了を示すポップアップメッセージｐｏｐ２を表示する。これによって、操作者が不慣れであっても、自身の操作内容を把握することができ、安心して操作を行うことができる。

また、誤り修正手段１５２は、指定された単語または単語列に対応する音声を繰り返し再生することもできる。
例えば、図９に示すように、編集領域３１６において、音声を再生したい単語または単語列をマウス等で選択（図中、白黒反転領域）することで、誤り修正手段１５２は、ポップアップメニューｐｍを表示し、「繰り返し再生」を選択されることで、対応する単語または単語列の音声を繰り返し再生する。
図１に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

映像／音声再生手段１５３は、素材コンテンツの映像および音声を再生するものである。この映像／音声再生手段１５３は、認識結果表示制御手段１５１または誤り修正手段１５２から指定された位置から、素材コンテンツ（映像・音声）を再生する。

書き起こし結果出力手段１６は、編集手段１５で修正された音声認識結果（書き起こし結果）を、外部に出力するものである。
この書き起こし結果出力手段１６は、素材コンテンツのファイル名、または、素材コンテンツ内のセグメントの識別番号を指定されることで、素材情報記憶手段１４に記憶されている該当する素材コンテンツまたはセグメントの単語列を読み出して出力する。

以上説明したように音声認識誤り修正支援装置１を構成することで、音声認識誤り修正支援装置１は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。また、音声認識誤り修正支援装置１は、素材コンテンツに対して、セグメント単位で部分的に誤り修正を行うことができる。
なお、音声認識誤り修正支援装置１は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

［音声認識誤り修正支援装置の動作］
次に、図１０〜図１２を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１の動作について説明する。なお、ここでは、音声認識誤り修正支援装置１の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で表示装置３に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。

（セグメント情報生成動作）
まず、図１０を参照（適宜図１参照）して、音声認識誤り修正支援装置１のセグメント情報生成動作について説明する。
ステップＳ１において、素材コンテンツ入力手段１０は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段１０は、入力した素材コンテンツを素材情報記憶手段１４に書き込み記憶する。

ステップＳ２において、音声認識手段１１は、ステップＳ１で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて生成する。

ステップＳ３において、認識結果分割手段１２は、ステップＳ２で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。このとき、認識結果分割手段１２は、セグメント単位で、認識結果の単語と時間情報とを対応付けて、素材コンテンツを素材情報記憶手段１４に書き込み記憶する。

ステップＳ４において、項目情報抽出手段１３は、ステップＳ３で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段１３は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段１４に書き込み記憶する。
以上の動作によって、音声認識誤り修正支援装置１は、図２に示すように、素材情報記憶手段１４に、素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶する。

（セグメント情報提示動作）
次に、図１１を参照（適宜図１参照）して、音声認識誤り修正支援装置１のセグメント情報提示動作について説明する。
ステップＳ１０において、素材コンテンツ選択手段１５０は、素材情報記憶手段１４に記憶されている素材コンテンツのいずれかを選択するための選択ボタンを含んだ素材コンテンツ選択画面３０(図３参照)を表示装置３に表示する。

ステップＳ１１において、素材コンテンツ選択手段１５０は、画面上で選択ボタンが押下されるまで待機し（ステップＳ１１でＮｏ）、選択ボタンが押下された場合（ステップＳ１１でＹｅｓ）、ステップＳ１２以降の制御を行う認識結果表示制御手段１５１に制御を移す。

ステップＳ１２において、認識結果表示制御手段１５１は、素材情報記憶手段１４に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面３１（図４参照）を表示装置３に表示する。

ステップＳ１３において、認識結果表示制御手段１５１は、項目一覧画面で選択ボタン（ｏｐｅｎ）が押下されるまで待機する（ステップＳ１３でＮｏ）。
一方、選択ボタン（ｏｐｅｎ）が押下された場合（ステップＳ１３でＹｅｓ）、ステップＳ１４において、認識結果表示制御手段１５１は、図５に示すように、選択されたセグメントに対応して編集領域３１６を表示し、素材情報記憶手段１４に記憶されている当該セグメントに対応する認識結果である単語列を編集領域３１６に展開する。

この動作以降、音声認識誤り修正支援装置１は、操作者が画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン（ｏｐｅｎ）の押下により編集領域３１６を表示した場合、認識結果表示制御手段１５１は、任意のタイミングで、選択ボタン（ｃｌｏｓｅ）の押下により編集領域３１６を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面３１Ｂ（図５参照）の動画表示領域３１３Ｂにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置１は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。

（セグメント修正動作）
次に、図１２を参照（適宜図１参照）して、音声認識誤り修正支援装置１のセグメント修正動作について説明する。なお、セグメント修正動作は、操作者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。

ステップＳ２０において、誤り修正手段１５２は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域３１６（図５）内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段１５２は、映像／音声再生手段１５３を介して、素材情報記憶手段１４のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、音声と音声認識された単語列とを対比して確認することができる。

ステップＳ２１において、誤り修正手段１５２は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段１５２は、音声が単語列の末尾まで再生されていない、あるいは、繰り返し再生中で、音声が再生中であれば、音声の再生を停止する。

ステップＳ２２において、誤り修正手段１５２は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の操作者の編集作業により、認識誤りを修正する。ここで、誤り修正手段１５２は、素材情報記憶手段１４の単語を修正結果で更新する。

ステップＳ２３において、誤り修正手段１５２は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段１５２は、映像／音声再生手段１５３を介して、素材情報記憶手段１４のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、修正結果が正しいか否かを確認することができる。

なお、図示を省略しているが、ステップＳ２３における操作者の確認で、修正箇所がまだ正しく修正されていない場合、ステップＳ２１に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置１は、音声認識の誤りを修正する際に、修正対象箇所の音声を素早く再生し、簡易な操作で音声認識の誤り修正することができる。

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段１３は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像／音声再生手段１５３は、音声のみを再生する音声再生手段とすればよい。

また、ここでは、音声認識誤り修正支援装置１に、直接、修正端末（入力装置２、表示装置３、スピーカ４）を接続する構成としたが、これらは、ネットワークを介して接続する形態であっても構わない。

また、音声認識誤り修正支援装置１は、修正端末を複数備える構成であっても構わない。その場合、認識結果表示制御手段１５１は、ある修正端末が修正を行っているセグメントについて、他の修正端末が修正対象として選択しないように排他制御し、例えば、他の修正端末において、選択ボタンを表示しないようにする。

また、音声認識誤り修正支援装置１の編集手段１５は、認識結果を修正するサーバとして、画面制御を行うユーザインタフェースを提供し、ネットワークを介して接続された複数の修正端末が、当該ユーザインタフェースを介して動作するクライアントとして機能させることとしてもよい。これによって、ネットワークを介して、複数の地点で、音声認識の誤りを修正することができる。

また、音声認識誤り修正支援装置１は、音声認識手段１１を外部に備えてもよい。
例えば、図１３に示す音声認識誤り修正支援装置１Ｂの構成としてもよい。音声認識誤り修正支援装置１Ｂは、音声認識誤り修正支援装置１（図１）の音声認識手段１１を音声認識装置として外部に備える。この場合、認識結果分割手段１２は、音声認識手段１１から出力される音声の認識結果と当該認識結果を構成する単語ごとの時間情報とを、入力インタフェースである認識結果入力手段１７を介して入力すればよい。
なお、音声認識誤り修正支援装置１Ｂも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

１，１Ｂ音声認識誤り修正支援装置
１０素材コンテンツ入力手段
１１音声認識手段
１２認識結果分割手段
１３項目情報抽出手段
１４素材情報記憶手段（記憶手段）
１５編集手段
１５０素材コンテンツ選択手段
１５１認識結果表示制御手段
１５２誤り修正手段
１５３映像／音声再生手段（音声再生手段）
１６書き起こし結果出力手段
１７認識結果入力手段

Claims

素材コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
前記音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成する音声認識手段と、
前記認識結果を予め定めた基準で分割する認識結果分割手段と、
前記認識結果分割手段で分割された認識結果であるセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出する項目情報抽出手段と、
前記セグメントごとに、前記項目と前記単語ごとの時間情報とを対応付けて、前記素材コンテンツとともに記憶する記憶手段と、
前記セグメントに含まれる単語列を表示するか否かを指定する選択ボタンを含んだ前記項目の一覧を表示し、前記選択ボタンの押下により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
操作者の編集操作により、前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記素材コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
前記認識結果分割手段は、前記音声の無音区間で、前記認識結果を分割することを特徴とする請求項１に記載の音声認識誤り修正支援装置。
前記認識結果分割手段は、前記素材コンテンツに含まれる位置情報または時間情報の変化点で、前記認識結果を分割することを特徴とする請求項１に記載の音声認識誤り修正支援装置。
前記素材コンテンツは映像を含み、前記認識結果分割手段は、前記映像のカット点で、前記認識結果を分割することを特徴とする請求項１に記載の音声認識誤り修正支援装置。
前記項目情報抽出手段は、複数の前記セグメントに含まれ単語から、前記セグメントごとに、ＴＦ−ＩＤＦ法により前記特徴単語を抽出することを特徴とする請求項１から請求項４のいずれか一項に記載の音声認識誤り修正支援装置。
前記誤り修正手段は、前記素材コンテンツの音声再生中に前記編集領域の任意の単語位置を指定されることで、前記音声再生手段における音声の再生を停止することを特徴とする請求項１から請求項５のいずれか一項に記載の音声認識誤り修正支援装置。
前記誤り修正手段は、前記編集領域で指定された単語位置に音声の再生開始を示すポップアップメッセージを表示し、音声が停止した単語位置に音声の再生終了を示すポップアップメッセージを表示することを特徴とする請求項６に記載の音声認識誤り修正支援装置。
前記誤り修正手段は、前記素材コンテンツの音声再生に連動して、再生される音声に対応する前記編集領域の単語の表示属性を変更することを特徴とする請求項１から請求項７のいずれか一項に記載の音声認識誤り修正支援装置。
前記誤り修正手段は、前記編集領域で指定された単語または指定区間の単語列の前記時間情報に対応する前記素材コンテンツの音声を、前記音声再生手段により、繰り返して再生することを特徴とする請求項１から請求項６のいずれか一項に記載の音声認識誤り修正支援装置。
素材コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
外部の音声認識手段により前記音声を認識されたテキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを入力し、前記認識結果を予め定めた基準で分割する認識結果分割手段と、
前記認識結果分割手段で分割された認識結果であるセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出する項目情報抽出手段と、
前記セグメントごとに、前記項目と前記単語ごとの時間情報とを対応付けて、前記素材コンテンツとともに記憶する記憶手段と、
前記セグメントに含まれる単語列を表示するか否かを指定する選択ボタンを含んだ前記項目の一覧を表示し、前記選択ボタンの押下により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
操作者の編集操作により、前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記素材コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
コンピュータを、請求項１から請求項１０のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。