JP6605995B2

JP6605995B2 - 音声認識誤り修正装置、方法及びプログラム

Info

Publication number: JP6605995B2
Application number: JP2016052983A
Authority: JP
Inventors: 光生布目; 平芦川; 将之芦川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-11-13
Anticipated expiration: 2036-03-16
Also published as: US10614265B2; US20170270086A1; JP2017167368A

Description

本発明の実施形態は、音声認識誤り修正装置、方法及びプログラムに関する。

従来から、発話者が発話した音声を音声認識処理でテキストに変換し、変換したテキストを字幕として出力する技術が知られている。

またこのような技術において、音声認識処理による認識誤りを修正するため、修正者が、音声から変換されたテキスト上で認識誤り箇所を手動で選択し、選択した認識誤り箇所の文字列を修正するための正しい文字列をキーボードなどから手入力することで、認識誤り箇所の文字列を正しい文字列に修正した字幕を出力する技術が知られている。

特開２００４−１５１６１４号公報

しかしながら、上述したような従来技術では、認識誤りを修正するために、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力が必要であり、認識誤りの修正に手間を要していた。

本発明が解決しようとする課題は、発話者が発話した音声を認識して字幕として出力する場合の認識誤りの修正を簡易化することができる音声認識誤り修正装置、方法及びプログラムを提供することである。

実施形態の音声認識誤り修正装置は、第１取得部と、第１認識部と、第１出力部と、第２取得部と、第２認識部と、推定部と、第２出力部と、を備える。第１取得部は、第１発話者の第１発話音声を取得する。第１認識部は、前記第１発話音声を認識し、第１テキストに変換する。第１出力部は、前記第１テキストを示す第１字幕画像を出力する。第２取得部は、前記第１テキストに含まれる修正対象文字列を修正するための第２発話者の第２発話音声を取得する。第２認識部は、前記第２発話音声を認識し、第２テキストに変換する。推定部は、前記第１テキストと前記第２テキストとのテキストマッチングに基づいて、前記修正対象文字列を推定する。第２出力部は、前記修正対象文字列が前記第２テキストに置き換えられることを示す第２字幕画像を出力する。

第１実施形態の音声認識誤り修正システムの例を示す構成図。第１実施形態の音声認識誤り修正装置の例を示す構成図。第１実施形態の第１字幕画像の例を示す図。第１実施形態の第２テキストの例を示す図。第１実施形態の第２字幕画像の例を示す図。第１実施形態の処理例を示すフローチャート。第１実施形態の推定処理の例を示すフローチャート。第１実施形態のテキストマッチング処理例を示すフローチャート。第１実施形態の修正対象文字列の範囲の推定例の説明図。第１実施形態の修正対象文字列の範囲の推定例の説明図。第１実施形態の修正対象文字列の範囲の推定例の説明図。第２実施形態の音声認識誤り修正装置の例を示す構成図。第２実施形態の選択画像の例を示す図。第２実施形態の選択入力の例の説明図。第２実施形態の第２字幕画像の例を示す図。第２実施形態の処理例を示すフローチャート。変形例２の選択入力の例の説明図。変形例２の選択入力の例の説明図。変形例２の選択入力の例の説明図。変形例３の選択入力の例の説明図。各実施形態及び各変形例の音声認識誤り修正装置のハードウェア構成例を示す構成図。

以下、添付図面を参照しながら、実施形態を詳細に説明する。

（第１実施形態）
図１は、第１実施形態の音声認識誤り修正システム１の一例を示す構成図である。図１に示すように、音声認識誤り修正システム１は、音声認識誤り修正装置１０と、端末装置２０−１〜２０−Ｎと、を備える。

音声認識誤り修正装置１０と端末装置２０−１〜２０−Ｎ（Ｎは、３以上の自然数）とは、ネットワーク２を介して接続されている。ネットワーク２は、例えば、ＬＡＮ（Local Area Network）やインターネットなどにより実現できる。また、ネットワーク２は、有線のネットワークであっても無線のネットワークであってもよい。

なお、以下の説明では、端末装置２０−１〜２０−Ｎを各々区別する必要がない場合は、単に端末装置２０と称する場合がある。

音声認識誤り修正装置１０は、例えば、音声認識用のサーバ装置などのコンピュータにより実現できる。端末装置２０は、音声入力装置として機能するマイクや、操作装置及び表示装置として機能するタッチパネルディスプレイなどを備えたコンピュータであり、例えば、スマートフォン、タブレット端末、及びノートＰＣ（Personal Computer）などにより実現できる。

第１実施形態では、音声認識誤り修正システム１が、授業やセミナーなどの講演内容をリアルタイムに字幕として提示するシステムである場合を例に取り説明するが、これに限定されるものではない。例えば、音声認識誤り修正システム１を、会議などの発言内容をリアルタイムに字幕として提示するシステムに適用してもよい。

以下では、講演者（第１発話者の一例）が端末装置２０−１を使用し、講演内容の字幕を修正する修正者（第２発話者の一例）が端末装置２０−２を使用し、講演内容を聴講する聴講者が端末装置２０−Ｎを使用する場合を例にとり説明するが、これに限定されるものではない。なお第１実施形態では、端末装置２０−Ｎを使用する聴講者は、音声の聞き取りが困難な聴覚障害者を想定しているが、これに限定されるものではない。

第１実施形態では、音声認識誤り修正システム１が、以下のような利用形態で利用される場合を例に取り説明する。

まず、講演者は、講演内容である第１発話音声を、マイクを介して端末装置２０−１に音声入力し、端末装置２０−１は、音声入力された第１発話音声を音声認識誤り修正装置１０に送信する。音声認識誤り修正装置１０は、端末装置２０−１から受信した第１発話音声を音声認識して第１テキストに変換し、変換した第１テキストを示す第１字幕画像を端末装置２０−１〜２０−Ｎそれぞれに配信する。各端末装置２０は、音声認識誤り修正装置１０から受信した第１字幕画像をタッチパネルディスプレイに表示する。

続いて、修正者が端末装置２０−２上で第１字幕画像を確認し、第１テキストに認識誤りがある場合は、認識誤りを修正するための正しい内容である第２発話音声を、マイクを介して端末装置２０−２に音声入力し（リスピークし）、端末装置２０−２は、音声入力された第２発話音声を音声認識誤り修正装置１０に送信する。音声認識誤り修正装置１０は、端末装置２０−２から受信した第２発話音声を音声認識して第２テキストに変換し、第１テキストにおける認識誤り箇所の修正対象文字列を第２テキストに置き換える第２字幕画像を端末装置２０−１〜２０−Ｎそれぞれに配信する。各端末装置２０は、音声認識誤り修正装置１０から受信した第２字幕画像をタッチパネルディスプレイに表示する。

このように第１実施形態では、第１字幕画像が示す第１テキストに認識誤りがある場合には、当該認識誤りを修正した第２字幕画像が各端末装置２０に配信されるため、聴講者は、字幕画像から講演内容を正しく理解することができる。

図２は、第１実施形態の音声認識誤り修正装置１０の一例を示す構成図である。図２に示すように、音声認識誤り修正装置１０は、第１取得部１１と、第１認識部１３と、生成部１５と、第１出力部１７と、第２取得部１９と、第２認識部２１と、推定部２３と、更新部２５と、第２出力部２７と、を備える。

第１取得部１１、第１認識部１３、生成部１５、第１出力部１７、第２取得部１９、第２認識部２１、推定部２３、更新部２５、及び第２出力部２７は、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。

第１取得部１１は、第１発話者の第１発話音声を取得する。第１実施形態では、第１取得部１１は、前述の通り、端末装置２０−１から、第１発話者の第１発話音声として、講演者の講演内容の発話音声を取得する。

第１認識部１３は、第１取得部１１により取得された第１発話音声を認識し、第１テキストに変換する。具体的には、第１認識部１３は、第１取得部１１により取得された第１発話音声を音声認識処理により認識し、第１発話音声の内容を第１テキストに変換する。なお、音声認識処理は、公知の技術を用いればよい。

生成部１５は、第１認識部１３により変換された第１テキストを示す第１字幕画像を生成する。第１字幕画像は、第１テキストを示す画像であればどのような画像であってもよい。

例えば、第１字幕画像としては、講演者、修正者、及び聴講者などの利用者が見やすいように、第１テキストのフォントサイズや背景色を変更した画像が挙げられる。このような画像として、いわゆる情報保障でよく見られるサブディスプレイで黒背景に第１テキストを白文字で表示するような形態が挙げられる。なお、一般に、聴覚障害者向けには、黒背景かつ白文字、横幅が２０文字、縦が１０行などの表示形式が知られている。

また例えば、第１字幕画像として、講演者の映像など何らかの映像上に第１テキストをオーバーレイ表示する形態や、修正者向けの編集を前提として第１テキストを表示した形態なども挙げられる。

但し、第１字幕画像は、これらに限定されるものではない。

図３は、第１実施形態の第１字幕画像の一例を示す図である。図３に示す例では、第１字幕画像上に第１テキスト５１が表示されている。なお、第１テキスト５１には、音声認識処理による認識誤りも生じており、後述する修正対象の修正対象文字列５２も含まれている。

第１出力部１７は、生成部１５により生成された第１字幕画像を出力する。第１実施形態では、第１出力部１７は、各端末装置２０に第１字幕画像を出力する。

これにより、各端末装置２０では、第１字幕画像が表示される。ここで、修正者は、端末装置２０−２上で第１字幕画像を確認し、第１テキストに認識誤りがあることを確認したとする。例えば、第１字幕画像が図３に示す画像である場合、修正者は、修正対象文字列５２が認識誤り箇所であることを確認する。

この場合、第２取得部１９は、第１テキストに含まれる修正対象文字列を修正するための第２発話者の第２発話音声を取得する。第１実施形態では、第２取得部１９は、前述の通り、端末装置２０−２から、第２発話者の第２発話音声として、修正対象文字列を修正するための修正者の発話音声を取得する。

第２認識部２１は、第２取得部１９により取得された第２発話音声を認識し、第２テキストに変換する。具体的には、第２認識部２１は、第２取得部１９により取得された第２発話音声を音声認識処理により認識し、第２発話音声の内容を第２テキストに変換する。なお、音声認識処理は、第１認識部１３同様、公知の技術を用いればよい。

図４は、第１実施形態の第２テキストの一例を示す図である。図４に示す例では、図３に示す修正対象文字列５２を修正するための第２テキスト５３が示されている。

推定部２３は、第１認識部１３により変換された第１テキストと第２認識部２１により変換された第２テキストとのテキストマッチング（テキストベースマッチング）を行い、当該テキストマッチングの結果に基づいて、第１テキスト内の修正対象文字列を推定する。具体的には、推定部２３は、第１認識部１３により第１テキストに変換される第１発話音声と第２認識部２１により第２テキストに変換される第２発話音声との音響マッチング（音響データマッチング）を更に行い、テキストマッチングの結果と音響マッチングの結果とに基づいて、第１テキスト内の修正対象文字列を推定する。

第１実施形態では、推定部２３は、以下のように、第１テキストと第２テキストとのテキストマッチングを行う。

まず、推定部２３は、第１テキスト及び第２テキストそれぞれに対し、形態素解析処理、及び読み推定処理を施し、第１テキスト及び第２テキストそれぞれから形態素情報及び読み情報を取得する。読み推定処理とは、テキストを揺らぎのない状態に修正する処理であり、例えば日本語であれば、漢字をひらがなやカタカナに修正することが挙げられる。

次に、推定部２３は、第１テキストの形態素情報及び読み情報を用いて、第１テキストを表層文字、形態素（品詞）の組み合わせ、及び読みの文字列の各値に展開するとともに、第２テキストの形態素情報及び読み情報を用いて、第２テキストを表層文字、形態素（品詞）の組み合わせ、及び読みの文字列の各値に展開する。

次に、推定部２３は、文字列（表層文字）単位、形態素単位、及び読み単位それぞれで、第１テキストに対する第２テキストのスキャンを行い、第１テキスト内から第２テキストに一致又は類似する文字列（類似ブロック）を探索する。

そして推定部２３は、類似ブロックが探索された場合、当該類似ブロックでの第２テキストとの文字列（表層文字）単位、形態素単位、及び読み単位それぞれでの類似度を算出し、算出した各類似度を統合し、テキスト類似度とする。各類似度の統合には、例えば、数式（１）を用いればよい。

ＴｅｘｔＳｉｍ（ａ，ｂ）＝Ｓｉｍ＿Ｓ（ａ，ｂ）＋Ｓｉｍ＿Ｍ（ａ，ｂ）＋Ｓｉｍ＿Ｒ（ａ，ｂ） …（１）

ここで、ａは、第２テキストを示す。ｂは、第１テキスト内の類似ブロックを示す。Ｓｉｍ＿Ｓ（ａ，ｂ）は、ａとｂとの文字列（表層文字）単位での類似度を示す。Ｓｉｍ＿Ｍ（ａ，ｂ）は、ａとｂとの形態素単位での類似度を示す。Ｓｉｍ＿Ｒ（ａ，ｂ）は、ａとｂとの読み単位での類似度を示す。ＴｅｘｔＳｉｍ（ａ，ｂ）は、テキスト類似度を示す。

また第１実施形態では、推定部２３は、音声波形などの音響情報を用いて音声間のマッチング位置を認識するボイストリガなどの公知技術を用いて、第１発話音声と第２発話音声との音響マッチングを行い、音響類似度を算出する。なお、推定部２３は、第１発話音声の比較区間（第２発話音声との比較が行われる第１発話音声の区間）をずらしながら第２発話音声との音響マッチングを行い、各比較区間での音響類似度を算出する。

そして推定部２３は、テキストマッチングの結果と音響マッチングの結果とに基づいて、第１テキストに含まれる文字列のうち、第２テキストとの類似度が閾値以上の文字列を修正対象文字列に推定する。

具体的には、推定部２３は、算出したテキスト類似度毎に、当該テキスト類似度と、当該テキスト類似度の類似ブロックに対応する比較区間での音響類似度と、を統合し、推定類似度とする。テキスト類似度と音響類似度との統合には、例えば、数式（２）を用いればよい。

ＭｅｒｇｅＳｉｍ（ａ，ｂ）＝ＴｅｘｔＳｉｍ（ａ，ｂ）＋ＶｏｉｃｅＳｉｍ（ａ’，ｂ’）…（２）

ここで、ａ’は、第２発話音声を示す。ｂ’は、類似ブロックに対応する第１発話音声内の比較区間を示す。ＶｏｉｃｅＳｉｍ（ａ’，ｂ’）は、ａ’とｂ’との音響類似度を示す。ＭｅｒｇｅＳｉｍ（ａ，ｂ）は、推定類似度を示す。

例えば推定部２３は、推定類似度が閾値以上となる類似ブロックの文字列を修正対象文字列に推定する。なお第１実施形態では、推定類似度が閾値以上となる類似ブロックが１つである場合を想定して説明する。

なお、第１テキストが図３に示す第１テキスト５１であり、第２テキストが図４に示す第２テキスト５３である場合、推定部２３は、このように修正対象文字列を推定することで、第１テキスト５１から修正対象文字列５２を推定する。

更新部２５は、生成部１５により生成された第１字幕画像を、第１テキストにおいて修正対象文字列が第２テキストに置き換えられることが示された第２字幕画像に更新する。

図５は、第１実施形態の第２字幕画像の一例を示す図である。図５に示す例では、第２字幕画像上に第１テキスト５１が表示されている。また、図５に示す例では、第１テキスト５１内の修正対象文字列５２がハイライトされて表示されている。また、図５に示す例では、リスピーク表示として第２テキスト５３が表示されるとともに、修正対象文字列５２が第２テキスト５３に置き換えられることが示されている。

但し、第２字幕画像の表示態様は、これに限定されるものではなく、例えば、修正対象文字列５２を第２テキスト５３に予め置き換えておいてもよいし、図５に示すような表示を一定時間行った後に修正対象文字列５２を第２テキスト５３に置き換えるようにしてもよい。

第２出力部２７は、更新部２５により更新された第２字幕画像を出力する。第１実施形態では、第２出力部２７は、各端末装置２０に第２字幕画像を出力する。

これにより、各端末装置２０では、第２字幕画像が表示される。このように第１実施形態では、第１字幕画像が示す第１テキストに認識誤りがある場合には、当該認識誤りを修正した第２字幕画像が各端末装置２０に配信されるため、聴講者は、字幕画像から講演内容を正しく理解することができる。

図６は、第１実施形態の音声認識誤り修正装置１０で行われる処理の流れの一例を示すフローチャートである。

まず、第１取得部１１は、端末装置２０−１から、第１発話者の第１発話音声として、講演者の講演内容の発話音声を取得する（ステップＳ１０１）。

続いて、第１認識部１３は、第１取得部１１により取得された第１発話音声を音声認識処理により認識し、第１発話音声の内容を第１テキストに変換する（ステップＳ１０３）。

続いて、生成部１５は、第１認識部１３により変換された第１テキストを示す第１字幕画像を生成する（ステップＳ１０５）。

続いて、第１出力部１７は、生成部１５により生成された第１字幕画像を各端末装置２０に出力する（ステップＳ１０７）。

続いて、第２取得部１９が、端末装置２０−２から、第２発話者の第２発話音声として、修正対象文字列を修正するための修正者の発話音声を取得すると（ステップＳ１０９でＹｅｓ）、第２認識部２１は、第２取得部１９により取得された第２発話音声を音声認識処理により認識し、第２発話音声の内容を第２テキストに変換する（ステップＳ１１１）。

続いて、推定部２３は、第１テキスト内の修正対象文字列を推定する推定処理を行う（ステップＳ１１３）。なお、推定処理の詳細については、後述する。

続いて、更新部２５は、生成部１５により生成された第１字幕画像を、第１テキストにおいて修正対象文字列が第２テキストに置き換えられることが示された第２字幕画像に更新する（ステップＳ１１５）。

続いて、第２出力部２７は、更新部２５により更新された第２字幕画像を各端末装置２０に出力する（ステップＳ１１７）。

なお、第２取得部１９が、端末装置２０−２から、第２発話者の第２発話音声を取得しない場合（ステップＳ１０９でＮｏ）、ステップＳ１１１以降の処理は行われない。

図７は、図６に示すフローチャートのステップＳ１１３の推定処理の流れの一例を示すフローチャートである。

まず、推定部２３は、第１認識部１３から第１テキストを取得する（ステップＳ１２１）。なお、推定部２３は、生成部１５から第１テキストを取得してもよい。

続いて、推定部２３は、第２認識部２１から第２テキストを取得する（ステップＳ１２３）。

続いて、推定部２３は、第１テキスト及び第２テキストそれぞれに対し、形態素解析処理を施し、第１テキスト及び第２テキストそれぞれから形態素情報を取得する（ステップＳ１２５）。

続いて、推定部２３は、第１テキスト及び第２テキストそれぞれに対し、読み推定処理を施し、第１テキスト及び第２テキストそれぞれから読み情報を取得する（ステップＳ１２７）。

続いて、推定部２３は、第１テキストの形態素情報及び読み情報、並びに第２テキストの形態素情報及び読み情報を用いて、第１テキストと第２テキストとのテキストマッチング処理を行う（ステップＳ１２９）。

ここで、図８を参照しながら、テキストマッチング処理を説明する。図８は、図７に示すフローチャートのステップＳ１２９のテキストマッチング処理の流れの一例を示すフローチャートである。

まず、推定部２３は、第１テキストの形態素情報及び読み情報を用いて、第１テキストを表層文字、形態素（品詞）の組み合わせ、及び読みの文字列の各値に展開するとともに、第２テキストの形態素情報及び読み情報を用いて、第２テキストを表層文字、形態素（品詞）の組み合わせ、及び読みの文字列の各値に展開しておく。

続いて、推定部２３は、文字列（表層文字）単位で、第１テキストに対する第２テキストのスキャンを行い、第１テキスト内から第２テキストに一致又は類似する文字列（類似ブロック）を探索する（ステップＳ１４１）。

続いて、推定部２３は、形態素単位で、第１テキストに対する第２テキストのスキャンを行い、第１テキスト内から第２テキストに一致又は類似する文字列（類似ブロック）を探索する（ステップＳ１４３）。

続いて、推定部２３は、読み単位で、第１テキストに対する第２テキストのスキャンを行い、第１テキスト内から第２テキストに一致又は類似する文字列（類似ブロック）を探索する（ステップＳ１４５）。

続いて、推定部２３は、探索された類似ブロック毎に、当該類似ブロックでの第２テキストとの文字列（表層文字）単位、形態素単位、及び読み単位それぞれでの類似度を算出し、算出した各類似度を統合することで、テキスト類似度を算出する（ステップＳ１４７）。

続いて、図７に戻り、推定部２３は、第１認識部１３から第１発話音声を取得するとともに、第２認識部２１から第２発話音声を取得し、音響マッチング処理を行う（ステップＳ１３１）。具体的には、推定部２３は、第１発話音声の比較区間（第２発話音声との比較が行われる第１発話音声の区間）をずらしながら第２発話音声との音響マッチングを行い、各比較区間での音響類似度を算出する。

続いて、推定部２３は、算出したテキスト類似度毎に、当該テキスト類似度と、当該テキスト類似度の類似ブロックに対応する比較区間での音響類似度と、を統合することで両マッチング処理結果を統合し、推定類似度とする（ステップＳ１３３）。

続いて、推定部２３は、統合結果である推定類似度に基づいて、第１テキスト内の修正対象文字列を推定する（ステップＳ１３５）。例えば推定部２３は、推定類似度が閾値以上となる類似ブロックの文字列を修正対象文字列に推定する。

以上のように第１実施形態によれば、発話者が発話した音声を認識して字幕として出力する場合の認識誤りを、認識誤りを修正するための正しい内容を復唱（リスピーク）するだけで修正できるため、認識誤りの修正を簡易化でき、作業の手間やコストが削減できる。

また第１実施形態の手法では、テキストマッチングや音響マッチングにより言語的な特徴や音響的な特徴を利用して認識誤り箇所を自動で推定するため、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力を省略することが可能となる。

特に第１実施形態の手法では、文字列（表層文字）単位、形態素単位、及び読み単位それぞれで、テキストマッチングを行うため、固定された単位ではなく様々な単位で修正対象文字列（の範囲）を推定することができる。

例えば、図９に示す例では、第２テキスト６３が名詞であるため、第１テキスト６１の中から名詞に相当する修正対象文字列６２を推定しており、品詞の出現類似性で修正対象文字列（の範囲）を推定することができている。

また例えば、図１０に示す例では、第２テキスト６６に対し、第１テキスト６４の中から修正対象文字列６５を推定しており、形態素単位での読みの文字列の類似性で修正対象文字列（の範囲）を推定することができている。

また例えば、図１１に示す例では、第２テキスト６９に対し、第１テキスト６７の中から修正対象文字列６８を推定しており、文字列の距離と当該文字列に含まれる品詞内容の類似性で修正対象文字列（の範囲）を推定することができている。

このように第１実施形態の手法では、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力が不要であるため、ある程度のスキルを要する修正者でなくても認識誤りの修正を行うことが可能であり、万人が認識誤りの修正を行うことが可能となる。

このため、これまで特別な会議や講演、授業などでしか情報保障をサポートできなかった状況でも、より多くの人が簡単にサポートに回ることができ、字幕の精度を高めることが可能となる。

（第２実施形態）
第２実施形態では、第１テキスト内に第２テキストへの置き換え候補となる文字列が複数存在する場合について説明する。以下では、第１実施形態との相違点の説明を主に行い、第１実施形態と同様の機能を有する構成要素については、第１実施形態と同様の名称・符号を付し、その説明を省略する。

図１２は、第２実施形態の音声認識誤り修正装置１１０の一例を示す構成図である。図１２に示すように、第２実施形態の音声認識誤り修正装置１１０では、推定部１２３、更新部１２５、第２出力部１２７、及び受付部１２９が、第１実施形態と相違する。

なお、受付部１２９は、ＣＰＵなどの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。

推定部１２３は、第１認識部１３により変換された第１テキストに第２認識部２１により変換された第２テキストとの類似度が閾値以上となる文字列が複数含まれる場合、当該複数の文字列それぞれを修正候補文字列に推定する。

更新部１２５は、生成部１５により生成された第１字幕画像を、第１テキストにおいて複数の修正候補文字列の中から第２テキストに置き換えられる修正候補文字列を修正者に選択させるための選択画像に更新する。

図１３は、第２実施形態の選択画像の一例を示す図である。図１３に示す例では、選択画像上に第１テキスト１５１が表示されている。また、図１３に示す例では、リスピーク表示として第２テキスト１５４が表示されている。また、図１３に示す例では、第２テキスト１５４に置き換えられる候補となる修正候補文字列１５２、１５３が含まれている。なお、修正候補文字列１５２、１５３をハイライトして表示するようにしてもよい。

第２出力部１２７は、更新部１２５により更新された選択画像を出力する。第２実施形態では、第２出力部１２７は、修正者が使用する端末装置２０−２に選択画像を出力する。

受付部１２９は、第２テキストに置き換えられる修正候補文字列を選択画像上で選択する選択入力を受け付ける。第２実施形態では、受付部１２９は、端末装置２０−２から、選択入力として、第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチする入力（選択画像上のタッチされた位置の位置座標の入力）を受け付ける。

例えば、受付部１２９は、図１４に示すように、修正者がタッチペン２０１などで修正候補文字列１５２の近傍位置１５５を選択画像上でタッチ（ポインティング、又はタップ）する入力を受け付ける。

推定部１２３は、複数の修正候補文字列のうち、受付部１２９により受け付けられた選択入力により選択された修正候補文字列を修正対象文字列に推定する。第２実施形態では、推定部１２３は、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を修正対象文字列に推定する。修正候補文字列と選択入力によりタッチされた位置との距離に応じたスコアは、例えば、数式（３）により求められる。このため、このスコアを用いることで、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を特定できる。

Ｓｃｏｒｅ（ｘ）＝１(ｓｑｒｔ（２ｐｉ）)ｅｘｐ（−ｘ^２／２) …（３）

なお、ｘの値は、数式（４）に示す通りである。

ｘ＝ポインティングされた位置から修正候補文字列までの距離（ｐｘ）／修正候補文字列のフォントサイズ（ｐｘ） …（４）

従って、図１３に示す例の場合であれば、近傍位置１５５は、修正候補文字列１５３よりも修正候補文字列１５２の方が近いため、推定部１２３は、修正候補文字列１５２を修正対象文字列に推定する。

更新部１２５は、選択画像を、第１テキストにおいて修正対象文字列が第２テキストに置き換えられることが示された第２字幕画像に更新する。

図１５は、第２実施形態の第２字幕画像の一例を示す図である。図１５に示す例では、第２字幕画像上に、第１テキスト１５１に含まれる修正候補文字列１５２が、第２テキスト１５４を漢字に変換した第２テキスト１５７に置き換えられた第１テキスト１５６が表示されている。

第２出力部１２７は、更新部１２５により更新された第２字幕画像を出力する。第２実施形態では、第２出力部１２７は、各端末装置２０に第２字幕画像を出力する。

図１６は、第２実施形態の音声認識誤り修正装置１１０で行われる処理の流れの一例を示すフローチャートである。

まず、ステップＳ２０１〜Ｓ２１３までの処理は、図６に示すフローチャートのステップＳ１０１〜Ｓ１１３までの処理と同様である。

続いて、推定部１２３は、第１認識部１３により変換された第１テキストに第２認識部２１により変換された第２テキストとの類似度が閾値以上となる文字列が複数含まれる場合（ステップＳ２１５でＹｅｓ）、当該複数の文字列それぞれを修正候補文字列に推定する。そして更新部１２５は、生成部１５により生成された第１字幕画像を、第１テキストにおいて複数の修正候補文字列の中から第２テキストに置き換えられる修正候補文字列を修正者に選択させるための選択画像に更新する（ステップＳ２１７）。

続いて、第２出力部１２７は、更新部１２５により更新された選択画像を端末装置２０−２に出力する（ステップＳ２１９）。

続いて、受付部１２９は、端末装置２０−２から、選択入力として、第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチする入力（選択画像上のタッチされた位置の位置座標の入力）を受け付ける（ステップＳ２２１）。

続いて、推定部１２３は、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を修正対象文字列に推定する（ステップＳ２２３）。

以降のステップＳ２２５〜Ｓ２２７までの処理は、図６に示すフローチャートのステップＳ１１５〜Ｓ１１７までの処理と同様である。

なおステップＳ２１５において、推定部１２３は、第１認識部１３により変換された第１テキストに第２認識部２１により変換された第２テキストとの類似度が閾値以上となる文字列が単数である場合（ステップＳ２１５でＮｏ）、当該文字列を修正対象文字列に推定し、ステップＳ２２５へ進む。

以上のように第２実施形態によれば、第２テキストにより置き換えられる候補となる文字列が第１テキスト内に複数存在する場合であっても、修正者が意図した文字列を第２テキストに置き換えることができる。

特に第２実施形態によれば、修正者は、修正対象となる認識誤り箇所を正確に選択する必要はなく（認識誤り箇所の始点及び終点を厳密に指定する必要はなく）、修正対象となる認識誤り箇所の近傍をタッチ（タップ）するなどの曖昧な指定で足りるため、認識誤り箇所を選択する場合であっても、認識誤り箇所の選択を簡易化することができ、作業の手間やコストが削減できる。

なお第２実施形態では、タッチ（ポインティング、又はタップ）により第２テキストに置き換えられる修正候補文字列を選択する場合を例に取り説明したが、これに限定されず、例えば、タップ及びホールドにより第２テキストに置き換えられる修正候補文字列を選択するようにしてもよい。

（変形例１）
上記第２実施形態では、修正者による第２発話音声の入力の後に、修正者による第２テキストに置き換えられる修正候補文字列の選択が行われる場合を例に取り説明したが、第２発話音声の入力と第２テキストに置き換えられる文字列の選択とを、略同時に行うようにしてもよい。

この場合、修正者は、第２テキストに置き換えられる文字列を第１字幕画像上で選択しながら、第２発話音声を入力するようにすればよい。つまり、第２取得部１９による第２発話音声の取得と略同時に、受付部１２９は、第２テキストに置き換えられる文字列を第１字幕画像上で選択する選択入力を受け付ける。第２実施形態では、受付部１２９は、端末装置２０−２から、選択入力として、第２テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を第１字幕画像上でタッチする入力（第１字幕画像上のタッチされた位置の位置座標の入力）を受け付ける。

そして推定部１２３は、第１テキストに第２テキストとの類似度が閾値以上となる文字列が複数含まれる場合、選択入力により選択された文字列を修正対象文字列に推定する。第２実施形態では、推定部１２３は、第２テキストとの類似度が閾値以上となる複数の文字列のうち、選択入力によりタッチされた位置に近い方の文字列を修正対象文字列に推定する。

以上のように変形例１においても、第２実施形態と同様の効果を奏することができる。

（変形例２）
上記第２実施形態において、選択入力を、第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチすることで、当該修正候補文字列を選択する入力としてもよい。

例えば、図１７に示すように、修正者がタッチペン２０１などで修正候補文字列１５２の近傍位置を選択画像上で最初にタッチ（ポインティング、又はタップ）すると、範囲１６１が選択される。続いて、図１８に示すように、修正者がタッチペン２０１などで修正候補文字列１５２の近傍位置を選択画像上でもう一度タッチ（ポインティング、又はタップ）すると、範囲１６２が選択される。続いて、図１９に示すように、修正者がタッチペン２０１などで修正候補文字列１５２の近傍位置を選択画像上でもう一度タッチ（ポインティング、又はタップ）すると、範囲１６３が選択され、修正候補文字列１５２が選択される。

このように、修正候補文字列１５２の近傍位置を繰り返しタッチすることで、修正候補文字列１５２を含む文字列を、範囲を変えながら選択するようにしてもよい。なお、範囲の変更は、形態素単位で縮小させるようにしても拡張させるようにしてもよい。また、タッチで選択範囲を変更し、その後、ダブルタッチ（ダブルタップ）を行うことで、選択範囲に含まれる修正候補文字列を第２テキストに置き換えるようにしてもよい。

同様に変形例１において、選択入力を、第２テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を第１字幕画像上でタッチすることで、当該文字列を選択する入力としてもよい。

（変形例３）
上記第２実施形態において、選択入力を、第２テキストを、当該第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置に移動させる入力とし、推定部１２３は、複数の修正候補文字列のうち、選択入力により第２テキストが移動された位置に近い方の修正候補文字列を修正対象文字列に推定するようにしてもよい。

例えば、受付部１２９は、図２０に示すように、修正者がタッチペン２０１などで第２テキスト１５４を修正候補文字列１５２の方向１７１へドラッグ＆ドロップする入力を受け付け、推定部１２３は、複数の修正候補文字列のうち、ドラッグ＆ドロップにより第２テキスト１５４が移動された位置に近い方の修正候補文字列１５２を修正対象文字列に推定するようにしてもよい。

（ハードウェア構成）
図２１は、上記各実施形態及び各変形例の音声認識誤り修正装置のハードウェア構成の一例を示す構成図である。図２１に示すように、上記各実施形態及び各変形例の音声認識誤り修正装置は、ＣＰＵなどの制御装置９０１と、ＲＯＭやＲＡＭなどの主記憶装置９０２と、ＨＤＤやＳＳＤなどの補助記憶装置９０３と、ディスプレイなどの表示装置９０４と、マウスやキーボードなどの入力装置９０５と、通信装置９０６とを、備えており、通常のコンピュータを利用したハードウェア構成で実現できる。

上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムは、ＲＯＭ等に予め組み込んで提供される。

また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されて提供するようにしてもよい。

また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。

上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、例えば、制御装置９０１が補助記憶装置９０３からプログラムを主記憶装置９０２上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。

以上説明したとおり、上記各実施形態及び各変形例によれば、発話者が発話した音声を認識して字幕として出力する場合の認識誤りの修正を簡易化することができる。

なお本発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

例えば、上記実施形態のフローチャートにおける各ステップを、その性質に反しない限り、実行順序を変更し、複数同時に実施し、あるいは実施毎に異なった順序で実施してもよい。

１、１１０音声認識誤り修正システム
２ネットワーク
１０音声認識誤り修正装置
２０−１〜２０−Ｎ（２０）端末装置
１１第１取得部
１３第１認識部
１５生成部
１７第１出力部
１９第２取得部
２１第２認識部
２３、１２３推定部
２５、１２５更新部
２７、１２７第２出力部
１２９受付部
９０１制御装置
９０２主記憶装置
９０３外部記憶装置
９０４表示装置
９０５入力装置
９０６通信装置

Claims

第１発話者の第１発話音声を取得する第１取得部と、
前記第１発話音声を認識し、第１テキストに変換する第１認識部と、
前記第１テキストを示す第１字幕画像を出力する第１出力部と、
前記第１テキストに含まれる修正対象文字列を修正するための第２発話者の第２発話音声を取得する第２取得部と、
前記第２発話音声を認識し、第２テキストに変換する第２認識部と、
前記第１テキストと前記第２テキストとのテキストマッチングに基づいて、前記第１テキストに含まれる文字列のうち、前記第２テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定部と、
前記修正対象文字列が前記第２テキストに置き換えられることを示す第２字幕画像を出力する第２出力部と、
を備える音声認識誤り修正装置。
前記推定部は、前記第１発話音声と前記第２発話音声との音響マッチングに更に基づいて、前記修正対象文字列を推定する請求項１に記載の音声認識誤り修正装置。
前記推定部は、前記テキストマッチングと前記音響マッチングとに基づいて、前記第１テキストに含まれる文字列のうち、前記第２テキストとの類似度が閾値以上の文字列を前記修正対象文字列に推定する請求項２に記載の音声認識誤り修正装置。
前記推定部は、前記第１テキストに前記第２テキストとの類似度が閾値以上となる文字列が複数含まれる場合、当該複数の文字列それぞれを修正候補文字列に推定し、
前記第２出力部は、前記第１テキストにおいて前記複数の修正候補文字列の中から前記第２テキストに置き換えられる修正候補文字列を前記第２発話者に選択させるための選択画像を出力し、
前記第２テキストに置き換えられる修正候補文字列を前記選択画像上で選択する選択入力を受け付ける受付部を更に備え、
前記推定部は、前記複数の修正候補文字列のうち、前記選択入力により選択された修正候補文字列を前記修正対象文字列に推定し、
前記第２出力部は、前記第１テキストにおいて前記修正対象文字列が前記第２テキストに置き換えられることが示された前記第２字幕画像を出力する請求項３に記載の音声認識誤り修正装置。
前記選択入力は、前記第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を前記選択画像上でタッチする入力であり、
前記推定部は、前記複数の修正候補文字列のうち、前記選択入力によりタッチされた位置に近い方の修正候補文字列を前記修正対象文字列に推定する請求項４に記載の音声認識誤り修正装置。
前記選択入力は、前記第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を前記選択画像上でタッチすることで、当該修正候補文字列を選択する入力である請求項４に記載の音声認識誤り修正装置。
前記選択入力は、前記第２テキストを、当該第２テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置に移動させる入力であり、
前記推定部は、前記複数の修正候補文字列のうち、前記選択入力により前記第２テキストが移動された位置に近い方の修正候補文字列を前記修正対象文字列に推定する請求項４に記載の音声認識誤り修正装置。
前記第２テキストに置き換えられる文字列を前記第１字幕画像上で選択する選択入力を受け付ける受付部を更に備え、
前記推定部は、前記第１テキストに前記第２テキストとの類似度が閾値以上となる文字列が複数含まれる場合、前記選択入力により選択された文字列を前記修正対象文字列に推定する請求項３に記載の音声認識誤り修正装置。
前記選択入力は、前記第２テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を前記第１字幕画像上でタッチする入力であり、
前記推定部は、前記第２テキストとの類似度が閾値以上となる複数の文字列のうち、前記選択入力によりタッチされた位置に近い方の文字列を前記修正対象文字列に推定する請求項７に記載の音声認識誤り修正装置。
前記選択入力は、前記第２テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を前記第１字幕画像上でタッチすることで、当該文字列を選択する入力である請求項７に記載の音声認識誤り修正装置。
第１発話者の第１発話音声を取得する第１取得ステップと、
前記第１発話音声を認識し、第１テキストに変換する第１認識ステップと、
前記第１テキストを示す第１字幕画像を出力する第１出力ステップと、
前記第１テキストに含まれる修正対象文字列を修正するための第２発話者の第２発話音声を取得する第２取得ステップと、
前記第２発話音声を認識し、第２テキストに変換する第２認識ステップと、
前記第１テキストと前記第２テキストとのテキストマッチングに基づいて、前記第１テキストに含まれる文字列のうち、前記第２テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定ステップと、
前記修正対象文字列が前記第２テキストに置き換えられることを示す第２字幕画像を出力する第２出力ステップと、
を含む音声認識誤り修正方法。
第１発話者の第１発話音声を取得する第１取得ステップと、
前記第１発話音声を認識し、第１テキストに変換する第１認識ステップと、
前記第１テキストを示す第１字幕画像を出力する第１出力ステップと、
前記第１テキストに含まれる修正対象文字列を修正するための第２発話者の第２発話音声を取得する第２取得ステップと、
前記第２発話音声を認識し、第２テキストに変換する第２認識ステップと、
前記第１テキストと前記第２テキストとのテキストマッチングに基づいて、前記第１テキストに含まれる文字列のうち、前記第２テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定ステップと、
前記修正対象文字列が前記第２テキストに置き換えられることを示す第２字幕画像を出力する第２出力ステップと、
をコンピュータに実行させるためのプログラム。