JP2014149612A - 音声認識誤り修正装置およびそのプログラム - Google Patents

音声認識誤り修正装置およびそのプログラム Download PDF

Info

Publication number
JP2014149612A
JP2014149612A JP2013017189A JP2013017189A JP2014149612A JP 2014149612 A JP2014149612 A JP 2014149612A JP 2013017189 A JP2013017189 A JP 2013017189A JP 2013017189 A JP2013017189 A JP 2013017189A JP 2014149612 A JP2014149612 A JP 2014149612A
Authority
JP
Japan
Prior art keywords
character string
gesture
input
replacement
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013017189A
Other languages
English (en)
Inventor
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013017189A priority Critical patent/JP2014149612A/ja
Publication of JP2014149612A publication Critical patent/JP2014149612A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識における認識誤りの修正作業に熟練していない場合であっても、修正作業を容易に行うことができる音声認識誤り修正装置およびそのプログラムを提供する。
【解決手段】音声認識誤り修正装置1は、タッチスクリーンTsを備える表示端末DtとポインティングデバイスPdとを用いて、予め行われた音声認識によって得られた音声認識文字列Scにおける認識誤りを修正するものであって、表示端末Dt上に音声認識文字列を表示する表示手段10と、ポインティングデバイスPdによってタッチスクリーンTsに入力されたジェスチャーの中から、予め定められた校正記号のジェスチャーを認識するジェスチャー認識手段30と、校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末Dtにおけるジェスチャーが入力された位置で特定される音声認識文字列Scを修正する文字列編集手段110と、を備えている。
【選択図】図3

Description

本発明は、音声認識の認識誤りを修正する音声認識誤り修正装置およびそのプログラムに関する。
音声認識技術は、生放送番組の字幕制作などに利用されている。音声認識は、統計的手法などを用いて人間の音声から文字列を認識するため、その認識結果には認識誤りが含まれていることがある。従来の字幕制作現場では、このような音声認識の認識誤りを修正するオペレータを用意し、認識誤りを修正した文字列(以下、修正文字列という)を字幕として放送している。
音声認識における認識誤りを修正する方法としては、例えば特許文献1に示すように、認識誤りをポイント(選択)する者と、ポイントされた単語を修正する者の2人のペアが数組で修正する方法が用いられている。また他にも、例えば特許文献2に示すように、ポイントする者と修正する者とに役割を分けずに、認識結果の文章を1人から数人で分担し、各自が担当した文章の誤りを修正していく方法も用いられている。これらの方法では、タッチパネルを利用して画面上に表示される認識結果の誤り部分をタッチして特定した後、その誤りを削除、挿入、置換するなどの指示をキーボード操作または画面上のボタンのタッチにより行っている。
ここで、音声認識の認識誤りの修正では、認識結果の誤り部分を選択してから指示を出すのか、あるいは指示を出してから誤り部分を選択するのかなど、操作に一定の手順が設けられるため、このような操作に慣れるための練習が必要となる。また、前記した特許文献1および特許文献2で提案された方法では、画面のタッチとキーボード操作を頻繁に行き来することになるため、このような動きに熟練しなければ迅速な修正作業が困難となる。そこで、特許文献3には、前記したような画面タッチとキーボード操作の往復を練習するための文字列修正訓練装置が提案されている。
さらに、音声認識の認識誤りの修正では、置換誤りや脱落誤りを修正する際の文字入力に標準的なキーボードを利用する場合が多い。従って、修正者には、前記したような画面タッチとキーボード操作の往復に慣れるだけではなく、キーボードによって日本語を迅速に入力できる能力が必要となる。従来は、このようなキーボード操作の手間を軽減するために、画面上に同音異義語の修正候補を提示したり、あるいは認識対象に関連する原稿を提示するパレットを用意し、認識誤りの修正にパレット上の文字列を利用するなどの工夫が行われているが、この方法では全ての認識誤りをカバーすることができない。そこで、特許文献4では、リスピーク方式の字幕制作において、誤り部分をリスピーカーに再度発話してもらうことで修正を行う文字データ修正装置が提案されている。
特開2001−60192号公報 特許3986015号公報 特開2004−240234号公報 特許3986009号公報
しかしながら、音声認識の認識誤りの修正では、前記した特許文献1〜4で提案された技術を利用してもなお、修正者には熟練した技術が必要であった。特に特許文献4で提案された文字データ修正装置では、修正者は、認識結果を適切に言い直して得られた文字列が修正対象文字列の適切な位置に挿入されるように編集しなければならないが、リスピーカーと連携してこのような作業を行うためには、認識誤りの修正作業に熟練している必要がある。
また、認識誤りの修正者はニュースなどの番組コンテンツに精通しているとは限らないため、認識誤りの修正時には、番組コンテンツに精通した編集責任者が修正者による認識誤りの修正結果を確認しているのが現状である。しかし、今後、地方局発の番組などに音声認識を利用した字幕制作が拡大された場合、各番組の予算の制限などによって、前記したような数名の熟練した修正者と編集責任者とが必要となる現状の字幕制作システムを維持することは技術の習得や運用コストの面からも困難となる。
本発明はかかる点に鑑みてなされたものであって、音声認識における認識誤りの修正作業に熟練していない場合であっても、修正作業を容易に行うことができる音声認識誤り修正装置およびそのプログラムを提供することを課題とする。
前記課題を解決するために請求項1に係る音声認識誤り修正装置は、タッチスクリーンを備える表示端末とポインティングデバイスとを用いて、予め行われた音声認識によって得られた音声認識文字列における認識誤りを修正する音声認識誤り修正装置であって、表示手段と、ジェスチャー認識手段と、文字列編集手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、表示手段によって、表示端末を介して音声認識文字列を表示する。また、音声認識誤り修正装置は、ジェスチャー認識手段によって、ポインティングデバイスを用いてタッチスクリーンに入力された誤認識の位置および種類を示すジェスチャーの中から、予め定められた校正記号のジェスチャーを認識する。すなわち、ジェスチャー認識手段は、修正者がポインティングデバイスを用いて入力したジェスチャーが、例えば予め定めた文字列削除などの校正記号を示すジェスチャーと一致するか否かを判定する。そして、音声認識誤り修正装置は、文字列編集手段によって、校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を修正する。
また、請求項2に係る音声認識誤り修正装置は、請求項1に係る音声認識誤り修正装置において、手書き文字認識手段をさらに備え、ジェスチャー認識手段が、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、文字列編集手段が、文字列削除手段と、文字列挿入手段と、文字列置換手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、手書き文字認識手段によって、ポインティングデバイスでタッチスクリーンに入力された文字列を認識する。また、音声認識誤り修正装置は、文字列削除手段によって、文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を削除する。また、音声認識誤り修正装置は、文字列挿入手段によって、文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置に、手書き文字認識手段によって認識された文字列を挿入する。そして、音声認識誤り修正装置は、文字列置換手段によって、文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を、手書き文字認識手段によって認識された文字列に置換する。このように、音声認識誤り修正装置は、ジェスチャー認識手段によって、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーを認識することで、音声認識文字列の誤認識の位置および種類を特定することができる。また、音声認識誤り修正装置は、操作が容易な手書き文字入力を利用して、音声認識文字列の誤認識部分に対して挿入または置換される文字列を入力することができる。
また、請求項3に係る音声認識誤り修正装置は、請求項1に係る音声認識誤り修正装置において、音声認識手段をさらに備え、ジェスチャー認識手段が、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、文字列編集手段が、文字列削除手段と、文字列挿入手段と、文字列置換手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、音声認識手段によって、修正者の音声から文字列を認識する。また、音声認識誤り修正装置は、文字列削除手段によって、文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を削除する。また、音声認識誤り修正装置は、文字列挿入手段によって、文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置に、音声認識手段によって認識された文字列を挿入する。そして、音声認識誤り修正装置は、文字列置換手段によって、文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を、音声認識手段によって認識された文字列に置換する。このように、音声認識誤り修正装置は、ジェスチャー認識手段によって、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーを認識することで、音声認識文字列の誤認識の位置および種類を特定することができる。また、音声認識誤り修正装置は、操作が容易な音声入力を利用して、音声認識文字列の誤認識部分に対して挿入または置換される文字列を入力することができる。
また、請求項4に係る音声認識誤り修正装置は、請求項1に係る音声認識誤り修正装置において、手書き文字認識手段と、音声認識手段と、をさらに備え、ジェスチャー認識手段が、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、文字列編集手段が、文字列削除手段と、文字列挿入手段と、文字列置換手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、手書き文字認識手段によって、ポインティングデバイスでタッチスクリーンに入力された文字列を認識する。また、音声認識誤り修正装置は、音声認識手段によって、修正者の音声から文字列を認識する。また、音声認識誤り修正装置は、文字列削除手段によって、文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を削除する。また、音声認識誤り修正装置は、文字列挿入手段によって、文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置に、手書き文字認識手段または音声認識手段によって認識された文字列を挿入する。そして、音声認識誤り修正装置は、文字列置換手段によって、文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を、手書き文字認識手段または音声認識手段によって認識された文字列に置換する。このように、音声認識誤り修正装置は、ジェスチャー認識手段によって、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーを認識することで、音声認識文字列の誤認識の位置および種類を特定することができる。また、音声認識誤り修正装置は、操作が容易な手書き文字入力または音声入力を利用して、音声認識文字列の誤認識部分に対して挿入または置換される文字列を入力することができる。
また、請求項5に係る音声認識誤り修正装置は、請求項1に係る音声認識誤り修正装置において、手書き文字認識手段と、置換文字列候補出力手段と、置換文字列決定手段と、をさらに備え、ジェスチャー認識手段が、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、文字列編集手段が、文字列削除手段と、文字列挿入手段と、文字列置換手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、手書き文字認識手段によって、ポインティングデバイスでタッチスクリーンに入力された文字列を認識する。また、音声認識誤り修正装置は、置換文字列候補出力手段によって、ジェスチャー認識手段において文字列置換の校正記号のジェスチャーが認識された際に、表示端末における予め定められた位置に、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列に対応する、予め定められた複数の置換文字列候補を表示する。また、音声認識誤り修正装置は、置換文字列決定手段によって、ポインティングデバイスによる選択に従って、置換文字列候補出力手段によって表示された複数の置換文字列候補の中から1つの置換文字列を決定する。
また、音声認識誤り修正装置は、文字列削除手段によって、文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を削除する。また、音声認識誤り修正装置は、文字列挿入手段によって、文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置に、手書き文字認識手段によって認識された文字列を挿入する。そして、音声認識誤り修正装置は、文字列置換手段によって、文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を、置換文字列決定手段によって決定された置換文字列に置換する。このように、音声認識誤り修正装置は、ジェスチャー認識手段によって、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーを認識することで、音声認識文字列の誤認識の位置および種類を特定することができる。また、音声認識誤り修正装置は、置換文字列候補出力手段によって、音声認識文字列の誤認識部分と置換可能な置換文字列候補を提示し、置換文字列決定手段によって、修正者のポインティングデバイスによる選択に従って、置換文字列を決定することができる。
また、請求項6に係る音声認識誤り修正装置は、請求項1に係る音声認識誤り修正装置において、手書き文字認識手段と、音声認識手段と、置換文字列候補出力手段と、置換文字列決定手段と、をさらに備え、ジェスチャー認識手段が、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識するとともに、文字列挿入および文字列置換の校正記号に含まれる引出線のジェスチャーが引き出された方向、あるいは引出線の終端位置に従って、手書き文字認識手段によって認識された文字列、音声認識手段によって認識された文字列のいずれを挿入するか、および、手書き文字認識手段によって認識された文字列、音声認識手段によって認識された文字列、置換文字列決定手段によって決定された置換文字列のいずれを置換するか、をそれぞれ選択し、文字列編集手段が、文字列削除手段と、文字列挿入手段と、文字列置換手段と、を備える構成とした。
このような構成を備える音声認識誤り修正装置は、手書き文字認識手段によって、ポインティングデバイスでタッチスクリーンに入力された文字列を認識する。また、音声認識誤り修正装置は、音声認識手段によって、修正者の音声から文字列を認識する。また、音声認識誤り修正装置は、置換文字列候補出力手段によって、ジェスチャー認識手段において文字列置換の校正記号のジェスチャーが認識された際に、表示端末における予め定められた位置に、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列に対応する、予め定められた複数の置換文字列候補を表示する。また、音声認識誤り修正装置は、置換文字列決定手段によって、ポインティングデバイスによる選択に従って、置換文字列候補出力手段によって表示された複数の置換文字列候補の中から1つの置換文字列を決定する。
また、音声認識誤り修正装置は、文字列削除手段によって、文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を削除する。また、音声認識誤り修正装置は、文字列挿入手段によって、文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置に、手書き文字認識手段または音声認識手段によって認識された文字列を挿入する。そして、音声認識誤り修正装置は、文字列置換手段によって、文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末におけるジェスチャーが入力された位置で特定される音声認識文字列を、手書き文字認識手段または音声認識手段によって認識された文字列、あるいは、置換文字列決定手段によって決定された置換文字列に置換する。このように、音声認識誤り修正装置は、ジェスチャー認識手段によって、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーを認識することで、音声認識文字列の誤認識の位置および種類を特定することができる。また、音声認識誤り修正装置は、ジェスチャー認識手段によって、引出線のジェスチャーが引き出された方向、あるいは引出線の終端位置に従って、手書き文字認識、音声認識、置換文字列候補の選択のいずれの方法を用いて文字列を挿入または置換するのかを選択することができる。
また、請求項7に係る音声認識誤り修正装置は、請求項1から請求項6のいずれか一項に係る音声認識誤り修正装置において、フィードバック出力手段をさらに備える構成とした。
このような構成を備える音声認識誤り修正装置は、フィードバック出力手段によって、ポインティングデバイスによってタッチスクリーンにジェスチャーが入力された際に、表示端末におけるジェスチャーが入力された位置に、表示端末にポインティングデバイスが接触したことを示すジェスチャーの軌跡をフィードバックして表示する。これにより、音声認識誤り修正装置は、フィードバック出力手段によって、ジェスチャーが入力されている最中にどのようなジェスチャーが入力されているのかを修正者に対して提示することができる。
また、請求項8に係る音声認識誤り修正装置は、請求項2、請求項4、請求項5、請求項6のいずれか一項に係る音声認識誤り修正装置において、フレーム出力手段をさらに備える構成とした。
このような構成を備える音声認識誤り修正装置は、フレーム出力手段によって、ジェスチャー認識手段において文字列挿入または文字列置換の校正記号のジェスチャーが認識された際に、表示端末における予め定められた位置に、ポインティングデバイスによって文字列を入力するための文字列入力用フレームを表示する。これにより、音声認識誤り修正装置は、フレーム出力手段によって表示された文字列入力用フレーム内に手書き文字を書き入れることで、音声認識文字列の誤認識部分に対する文字列の挿入または置換をスムーズに行うことができる。
また、請求項9に係る音声認識誤り修正プログラムは、コンピュータを、請求項1から請求項8のいずれか一項に係る音声認識誤り修正装置として機能させることとした。
請求項1および請求項9に係る発明によれば、タッチスクリーンを介して入力されたジェスチャーによって音声認識文字列の誤認識の位置および種類を特定して修正を行うため、修正者が音声認識における認識誤りの修正作業に熟練していない場合であっても、修正作業を容易に行うことができる。
請求項2に係る発明によれば、手書き文字入力を利用して挿入または置換する文字列の入力を行うことで、キーボードやコンピュータの操作に熟練していない修正者であっても、紙面で行われる一般的な校正作業と同様に認識誤りの修正作業を容易に行うことができる。
請求項3に係る発明によれば、音声入力を利用して挿入または置換する文字列の入力を行うことで、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。
請求項4に係る発明によれば、手書き文字入力または音声入力を利用して挿入または置換する文字列の入力を行うことで、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。また、請求項4に係る発明によれば、例えば言いよどみ、同音異義語などの認識誤りの種類に応じて、文字列の適切な入力手段を選択することができるため、認識誤りの修正作業を効率よく行うことができる。
請求項5に係る発明によれば、音声認識文字列の誤認識部分と置換可能な置換文字列候補を修正者に提示して選択できるように構成されているため、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。また、請求項5に係る発明によれば、例えば言いよどみ、同音異義語などの認識誤りの種類に応じて、文字列の適切な入力手段を選択することができるため、認識誤りの修正作業を効率よく行うことができる。
請求項6に係る発明によれば、手書き文字認識、音声認識、置換文字列候補の選択のいずれの方法を用いて文字列を挿入または置換するのかを選択できるように構成されているため、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。また、請求項6に係る発明によれば、例えば言いよどみ、同音異義語などの認識誤りの種類に応じて、文字列の適切な入力手段を選択することができるため、認識誤りの修正作業を効率よく行うことができる。
請求項7に係る発明によれば、入力状態を確認しながらジェスチャーの入力を行うことができるため、認識誤りの修正作業を容易に行うことができる。
請求項8に係る発明によれば、表示端末上に文字列入力用フレームを提示することで手書き文字を入力しやすくなるため、認識誤りの修正作業を容易に行うことができる。
本発明の実施形態に係る音声認識誤り修正装置が実装される表示端末と、ポインティングデバイスの全体構成を示す斜視図である。 本発明の実施形態に係る音声認識誤り修正装置が実装される表示端末に音声認識文字列を表示した例を示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置の全体構成を示すブロック図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、文字列削除を行う場合の表示端末の様子を示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、複数行にわたって文字列削除を行う場合の表示端末の様子を示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、文字列挿入を行う場合の表示端末の様子を示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、文字列置換を行う場合の表示端末の様子を示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、文字列挿入を行う際に用いられる文字列入力用フレームを示す概略図である。 本発明の第1実施形態に係る音声認識誤り修正装置によって、文字列置換を行う際に用いられる文字列入力用フレームを示す概略図である。 本発明の第2実施形態に係る音声認識誤り修正装置の全体構成を示すブロック図である。 本発明の第2実施形態に係る音声認識誤り修正装置によって、文字列置換を行う場合の表示端末の様子を示す概略図である。 本発明の実施形態に係る音声認識誤り修正装置の変形例を示すブロック図である。 本発明の実施形態に係る音声認識誤り修正装置の変形例によって、操作の取り消しを行う場合の表示端末の様子を示す概略図である。 本発明の実施形態に係る音声認識誤り修正装置の変形例によって、操作のやり直しを行う場合の表示端末の様子を示す概略図である。 本発明の実施形態に係る音声認識誤り修正装置の変形例によって、修正および確認済みの文字列を確定する場合の表示端末の様子を示す概略図である。
<第1実施形態>
[音声認識誤り修正装置の構成]
本発明の第1実施形態に係る音声認識誤り修正装置1の構成について、図1〜図9を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称および符号を付し、詳細説明を省略する。
音声認識誤り修正装置1は、予め行われた音声認識によって得られた文字列(以下、音声認識文字列という)の認識誤りを修正するものである。この音声認識誤り修正装置1は、音声認識文字列における誤りを含む文字列を迅速に修正するためのものであり、当該文字列の修正のために、削除、挿入、置換箇所を指示する必要がある場合に適用される。音声認識誤り修正装置1は、図1に示すように、音声認識文字列Scを表示する表示端末Dt内に実装され、図示を省略した修正者が表示端末DtのタッチスクリーンTsに対して行った入力に応じて認識誤りを修正する。なお、図示の便宜上、音声認識誤り修正装置1が表示端末Dt内に実装されている様子は図1のみに示し、その他の図面では図示を省略することとする。
表示端末Dtは、図1に示すように、音声認識文字列Scを表示するとともに、修正者からのジェスチャーなどの入力を受け付けるものである。表示端末Dtは、タッチスクリーンTsとマイクMcを備えており、ポインティングデバイスPdを利用したジェスチャーおよび手書き文字や、修正者の音声を入力できるように構成されている。
表示端末Dtは、例えばタブレット端末が挙げられるが、タッチスクリーンTsおよびマイクMcを備える情報処理端末であれば特に限定されない。また、タッチスクリーンTsの方式も特に限定されず、静電容量方式、電磁誘導方式、抵抗膜方式などのいずれの方式も利用することができる。また、ポインティングデバイスPdは、修正者がジェスチャーおよび手書き文字を入力するためのものである。ポインティングデバイスPdは、例えばスタイラスペンが挙げられる。
表示端末Dt上には、図示しない音声認識装置から逐次入力される音声認識結果を示す音声認識文字列Scが表示される。図2の例では、ニュース原稿を想定して「29日夜、仙台空港の滑走路の近くの工事現場で、」という音声認識文字列Scが表示端末Dt上に表示されている。また、表示端末Dt上には、図2における「|」で表示されたカーソルCsの位置以降に、図示しない音声認識装置によって新たに認識された音声認識文字列Scが逐次表示されていくことになる。
音声認識誤り修正装置1には、具体的には図3に示すように、外部の図示しない音声認識装置から音声認識結果が入力される。これを受けて、音声認識誤り修正装置1は、修正者によるポインティングデバイスPdなどを用いたジェスチャーの入力によって、誤認識の位置および種類を特定する。そして、音声認識誤り修正装置1は、誤認識の種類に応じて、音声認識文字列Scに対して文字列削除、文字列挿入、文字列置換を行い、修正後の文字列(以下、修正文字列という)を外部の図示しない字幕送出手段に対して出力する。
音声認識誤り修正装置1は、ここでは図3に示すように、表示手段10と、ジェスチャー入力手段20と、ジェスチャー認識手段30と、ジェスチャー記憶手段40と、手書き文字入力手段50と、手書き文字認識手段60と、音声入力手段70と、音声認識手段80と、フレーム出力手段90と、フィードバック出力手段100と、文字列編集手段110と、文字列記憶手段120と、編集履歴記憶手段130と、修正文字列出力手段140と、を備えている。以下、音声認識誤り修正装置1の各構成について説明する。
表示手段10は、音声認識文字列Scを表示するものである。表示手段10は、図3に示すように、文字列出力手段111から入力された音声認識文字列Scを表示端末Dt上に表示する(図2参照)。また、表示手段10は、フレーム出力手段90から入力された文字列入力用フレームと、フィードバック出力手段100から入力されたジェスチャーおよび手書き文字の軌跡を、ジェスチャー入力および手書き文字入力のタイミングに合わせて表示端末Dt上に表示する(図8および図9参照)。
ジェスチャー入力手段20は、修正者のジェスチャーが入力されるものである。ジェスチャー入力手段20は、図3に示すように、タッチスクリーンTsを介して入力された修正者のジェスチャーを検出し、当該ジェスチャーに関する情報(以下、ジェスチャー情報という)をジェスチャー認識手段30およびフィードバック出力手段100に対して出力する。なお、前記したジェスチャー情報とは、具体的にはポインティングデバイスPdがタッチスクリーンTsに接触した際のベクトルの方向、ベクトルの方向ごとの順番およびジェスチャーの入力座標のことを示している。
ジェスチャー認識手段30は、修正者のジェスチャーを認識するものである。ここで、本発明におけるジェスチャーとは、タッチスクリーンTsを介して入力されるポインティングデバイスPdの入力の軌跡のことであり、音声認識文字列Scにおける誤認識の位置および種類を示すものである(図4〜図7参照)。言い換えれば、本発明におけるジェスチャーは、表示端末Dtに表示される音声認識文字列Scを見た修正者が、当該音声認識文字列Scに含まれる誤認識の位置および種類を音声認識誤り修正装置1側に伝達するためのものである。
ジェスチャー認識手段30には、図3に示すように、ジェスチャー入力手段20からジェスチャー情報が入力される。これを受けて、ジェスチャー認識手段30は、ポインティングデバイスPdによってタッチスクリーンTsに入力されたジェスチャーの中から、予め定められた校正記号のジェスチャーを認識する。すなわち、ジェスチャー認識手段30は、例えばパターンマッチングにより、修正者によって入力されたジェスチャーが、ジェスチャー記憶手段40に予め記憶されている校正記号のジェスチャーと一致するか否かを判定する。そして、ジェスチャー認識手段30は、両者が一致する場合、校正記号のジェスチャーに予め関連付けられた修正指示と、ジェスチャーの入力座標とを文字列編集手段110に対して出力する。
また、ジェスチャー認識手段30は、修正者によって入力されたジェスチャーが、ジェスチャー記憶手段40に予め記憶されている校正記号のジェスチャーと一致する場合、図3に示すように、ジェスチャー認識が確定した旨(以下、ジェスチャー確定情報という)をフレーム出力手段90およびフィードバック出力手段100に対して出力する。
ここで、前記した校正記号としては、例えば一般的な校正作業で用いられる文字列削除、文字列挿入、文字列置換などを挙げることができる。また、これらの校正記号のジェスチャーは、修正者が利用しやすいジェスチャーを定めることができる。例えば文字列削除の校正記号は、図4および図5の太い実線で示すように、削除対象となる文字列上の横線と、当該横線の一端側および他端側に形成された一対の縦線とからなる記号を用いることができる。なお、後記するように、図4は1行内の文字列を削除する場合の例であり、図5は2行にわたる文字列を削除する場合の例である。
また、文字列挿入の校正記号は、図6の太い実線で示すように、文字と文字との間に挿入される山型の線と、当該山の上端から延びる引出線とからなる記号を用いることができる。そして、文字列置換の校正記号は、図7の太い実線に示すように、置換対象となる文字列上の直線と、当該直線から延びる引出線とからなる記号を用いることができる。なお、文字列挿入および文字列置換の校正記号における引出線は、図6および図7に示すように、表示端末Dtにおける任意の位置まで引き出せるように構成されている。
音声認識誤り修正装置1で文章を校正する際に用いられる校正記号は、一般的な紙面とペンと用いた校正作業においても修正者によって多少異なるため、本発明においても修正者が慣れ親しんだ校正記号に近いジェスチャーを用いることが望ましい。なお、図4〜図7における番号が付加された破線矢印は、修正者がポインティングデバイスPdによってタッチスクリーンTs上をなぞる順番を示しており、表示端末Dt上には実際に表示されない。一方、図4〜図7における太い実線は、ジェスチャーの入力に応じてフィードバックされるジェスチャーの軌跡を示しており、表示端末Dtにも実際に表示される。
ジェスチャー記憶手段40は、予め定められた校正記号のジェスチャーを記憶するものである。ジェスチャー記憶手段40は、ここでは文字列削除、文字列挿入、文字列置換の3種類の校正記号のジェスチャーに関する情報(以下、校正記号情報という)を記憶しており、図3に示すように、ジェスチャー認識手段30の要求に応じてこれらを出力する。なお、前記した校正記号情報とは、ジェスチャー情報と同様に、具体的にはポインティングデバイスPdがタッチスクリーンTsに接触した際のベクトルの方向とベクトルの方向ごとの順番のことを示している。
ジェスチャー記憶手段40は、例えば図4に示す文字列削除の校正記号情報として、「順番=1、ベクトルの方向=下」、「順番=2、ベクトルの方向=右」、「順番=3、ベクトルの方向=下」という情報を記憶している。また、ジェスチャー記憶手段40は、例えば図5に示す2行にわたる文字列削除の校正記号情報として、「順番=1、ベクトルの方向=下」、「順番=2、ベクトルの方向=右」、「順番=3、ベクトルの方向=右」、「順番=4、ベクトルの方向=下」という情報を記憶している。
さらに、ジェスチャー記憶手段40は、例えば図6に示す文字列挿入の校正記号情報として、「順番=1、ベクトルの方向=右斜め上」、「順番=2、ベクトルの方向=右斜め下」、「順番=3、ベクトルの方向=左斜め上」という情報を記憶している。そして、ジェスチャー記憶手段40は、図7に示す文字列置換の校正記号情報として、「順番=1、ベクトルの方向=右」、「順番=2、ベクトルの方向=右斜め上」という情報を記憶している。
ここで、ジェスチャー記憶手段40は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。また、ジェスチャー記憶手段40は、ここでは図3に示すように、音声認識誤り修正装置1内に設けられているが、外部に設けられた構成としても構わない。
手書き文字入力手段50は、修正者の手書き文字が入力されるものである。手書き文字入力手段50は、図3に示すように、タッチスクリーンTsを介して入力された修正者の手書き文字を検出し、当該手書き文字に関する情報(以下、手書き文字情報という)を手書き文字認識手段60およびフィードバック出力手段100に対して出力する。なお、前記した手書き文字情報とは、具体的にはポインティングデバイスPdがタッチスクリーンTsに接触した際の軌跡に関する情報のことを示している。
手書き文字認識手段60は、手書き文字を認識するものである。手書き文字認識手段60は、図3に示すように、手書き文字入力手段50から入力された手書き文字情報に従って、ポインティングデバイスPdによってタッチスクリーンTsに入力された手書き文字を認識する。そして、手書き文字認識手段60は、手書き文字の認識結果(以下、手書き文字認識結果という)を文字列編集手段110に対して出力するとともに、手書き文字認識が確定した旨(以下、手書き文字確定情報という)をフレーム出力手段90およびフィードバック出力手段100に対して出力する。なお、手書き文字の認識方法は特に限定されず、例えば特開2007−18290号公報に記載されているように、ストロークのセグメンテーションを行って文字を判別する方法などを用いることができる。この方法を用いることにより、通常よりも精度よく文字列を認識することができる。
音声認識誤り修正装置1は、このように手書き文字入力を利用して挿入または置換する文字列の入力を行うことで、キーボードやコンピュータの操作に熟練していない修正者であっても、紙面で行われる一般的な校正作業と同様に認識誤りの修正作業を容易に行うことができる。
音声入力手段70は、修正者の音声が入力されるものである。音声入力手段70は、図3に示すように、マイクMcを介して入力された修正者の音声を検出し、当該音声に関する情報(以下、音声情報という)を音声認識手段80に対して出力する。
音声認識手段80は、音声を認識するものである。音声認識手段80は、図3に示すように、音声入力手段70から入力された音声情報に従って、マイクMcに入力された修正者の音声を認識する。そして、音声認識手段80は、修正者の音声の認識結果(以下、修正者音声認識結果という)を文字列編集手段110に対して出力する。なお、音声の認識方法は特に限定されず、音響モデルを用いた統計的手法などを用いることができる。
なお、音声認識手段80は、例えば修正者の音声を予め学習しておくことで、放送番組の音声を直接認識した場合よりも、高精度な認識結果を得られることが期待されるほか、例えば特許4709887号公報に記載されているように、音声認識結果から誤り区間を抽出し、再度音声認識するなどの技術を利用することで、精度のよい音声認識結果を得ることができる。
音声認識誤り修正装置1は、このように音声入力を利用して挿入または置換する文字列の入力を行うことで、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。
フレーム出力手段90は、表示端末Dt上に、手書き文字を入力するための文字列入力用フレームを表示するものである。フレーム出力手段90には、図3に示すように、ジェスチャー認識手段30からジェスチャー確定情報が入力される。これを受けて、フレーム出力手段90は、表示手段10を介して、表示端末Dt上に文字列入力用フレームを表示する。
フレーム出力手段90は、具体的には、ジェスチャー認識手段30によって文字列挿入または文字列置換の校正記号のジェスチャーが認識された際に、図8および図9に示すように、表示端末Dt上における予め定められた位置に文字列入力用フレームFrを表示する。なお、前記した予め定められた位置とは、表示端末Dt上における固定された位置ではなく、図8に示すように、修正者が入力した引出線の終端位置のことを示している。
ここで、フレーム出力手段90には、手書き文字入力によって音声認識文字列Scに文字列が挿入または置換される場合において、手書き文字認識が確定した時に、図3に示すように手書き文字認識手段60から手書き文字確定情報が入力される。これを受けて、フレーム出力手段90は、表示手段10を介して、表示端末Dt上に表示されている文字列入力用フレームFrを消去する。このように、フレーム出力手段90は、ジェスチャー認識手段30によるジェスチャー認識が確定してから、手書き文字認識手段60による手書き文字認識が確定するまでの間、文字列入力用フレームFrを表示する。
このようなフレーム出力手段90を備えることで、音声認識誤り修正装置1は、表示端末Dtに表示された文字列入力用フレームFr内に手書き文字を書き入れることで、音声認識文字列Scの誤認識部分に対する文字列の挿入または置換をスムーズに行うことができる。従って、音声認識誤り修正装置1は、表示端末Dt上に文字列入力用フレームFrを提示することで手書き文字を入力しやすくなるため、認識誤りの修正作業を容易に行うことができる。
なお、フレーム出力手段90は、表示端末Dtによってカラー表示が可能な場合、文字列入力用フレームFrを例えば緑色で表示することが好ましい。これにより、フレーム出力手段90は、文字列入力用フレームFrを音声認識文字列Scと異なる色で修正者に提示することで、修正作業の効率を向上させることができる。
フィードバック出力手段100は、表示端末DtのタッチスクリーンTsに入力されたジェスチャーおよび手書き文字を当該表示端末Dt上にフィードバックするものである。フィードバック出力手段100は、修正者によって入力されたジェスチャーおよび手書き文字の軌跡を、ジェスチャーおよび手書き文字の入力と同時に表示端末Dt上に表示する。以下、フィードバック出力手段100によって行われるジェスチャーおよび手書き文字のフィードバックの詳細について、順番に説明を行う。
(ジェスチャーのフィードバック)
フィードバック出力手段100は、図3に示すように、ジェスチャー入力手段20から入力されるジェスチャー情報を受けて、表示手段10を介して、表示端末Dt上に、当該表示端末Dtにポインティングデバイスが接触したことを示すジェスチャーの軌跡を表示する。すなわち、フィードバック出力手段100は、ポインティングデバイスPdによってタッチスクリーンTsにジェスチャーが入力された際に、図4〜図7に示すように、表示端末Dtにおけるジェスチャーが入力された位置に、ジェスチャーの軌跡を表示する。
フィードバック出力手段100は、例えば文字列削除の校正記号のジェスチャーが入力された場合、図4および図5の太い実線で示すように、削除対象となる文字列上の横線と、当該横線の一端側および他端側に形成された一対の縦線とからなる軌跡を表示端末Dt上の同じ位置に表示する。また、フィードバック出力手段100は、例えば文字列挿入の校正記号のジェスチャーが入力された場合、図6の太い実線で示すように、文字と文字との間に挿入される山型の線と、当該山の上端から延びる引出線とからなる軌跡を表示端末Dt上の同じ位置に表示する。また、フィードバック出力手段100は、例えば文字列置換の校正記号のジェスチャーが入力された場合、図7の太い実線で示すように、置置換対象となる文字列上の直線と、当該直線から延びる引出線とからなる軌跡を表示端末Dt上の同じ位置に表示する。
ここで、フィードバック出力手段100には、ジェスチャー認識が確定した時に、図3に示すようにジェスチャー認識手段30からジェスチャー確定情報が入力される。これを受けて、フィードバック出力手段100は、表示手段10を介して、表示端末Dt上に表示されているジェスチャーの軌跡を消去する。このように、フィードバック出力手段100は、ジェスチャー入力手段20にジェスチャーが入力されてから、ジェスチャー認識手段30によるジェスチャー認識が確定するまでの間、ジェスチャーの軌跡を表示する。
なお、フィードバック出力手段100には、手書き文字入力によって音声認識文字列Scに文字列が挿入または置換される場合において、手書き文字認識が確定した時に、図3に示すように手書き文字認識手段60から手書き文字確定情報が入力される。この場合、フィードバック出力手段100は、前記したフレーム出力手段90と同様に、手書き文字確定情報を受けて、表示手段10を介して、表示端末Dt上に表示されているジェスチャーの軌跡を消去する。
(手書き文字のフィードバック)
フィードバック出力手段100は、図3に示すように、手書き文字入力手段50から入力される手書き文字情報を受けて、表示手段10を介して、表示端末Dt上に手書き文字の軌跡を表示する。すなわち、フィードバック出力手段100は、ポインティングデバイスPdによってタッチスクリーンTsに手書き文字が入力された際に、図8および図9に示すように、表示端末Dtにおける文字入力用フレームFr内の手書き文字が入力された位置に、手書き文字の軌跡を表示する。
ここで、フィードバック出力手段100には、手書き文字認識が確定した時に、図3に示すように手書き文字認識手段60から手書き文字確定情報が入力される。これを受けて、フィードバック出力手段100は、表示手段10を介して、表示端末Dtに表示されている手書き文字の軌跡を消去する。このように、フィードバック出力手段100は、手書き文字入力手段50に手書き文字が入力されてから、手書き文字認識手段60による手書き文字認識が確定するまでの間、手書き文字の軌跡を表示する。
このようなフィードバック出力手段100を備えることで、音声認識誤り修正装置1は、ジェスチャーが入力されている最中にどのようなジェスチャーが入力されているのかを修正者に対して提示することができる。従って、音声認識誤り修正装置1は、入力状態を確認しながらジェスチャーの入力を行うことができるため、認識誤りの修正作業を容易に行うことができる。
なお、フィードバック出力手段100は、表示端末Dtによってカラー表示が可能な場合、ジェスチャーおよび手書き文字の軌跡を例えば赤色で表示することが好ましい。これにより、フィードバック出力手段100は、音声認識文字列Scと異なる色でジェスチャーおよび手書き文字の軌跡を修正者に提示することで、修正作業の効率を向上させることができる。また、ジェスチャーおよび手書き文字の軌跡を、一般的な文章校正作業における赤ペンを連想させる色で表示することで、自らが入力したジェスチャーおよび手書き文字を修正者が容易に確認することができる。
文字列編集手段110は、表示端末Dt上の音声認識文字列Scを、修正者から入力されるジェスチャーや手書き文字に従って編集するものである。文字列編集手段110には、図3に示すように、ジェスチャー認識手段30から、校正記号のジェスチャーに予め関連付けられた修正指示と、ジェスチャーの入力座標とが入力される。これを受けて、文字列編集手段110は、前記した修正指示に従って、表示端末Dtにおけるジェスチャーが入力された位置で特定される音声認識文字列Scを修正する。文字列編集手段110は、ここでは図3に示すように、文字列出力手段111と、文字列削除手段112と、文字列挿入手段113と、文字列置換手段114と、を備えている。
文字列出力手段111は、音声認識文字列Scを出力するものである。文字列出力手段111には、図3に示すように、外部の図示しない音声認識装置から音声認識結果が入力される。これを受けて、文字列出力手段111は、音声認識結果と一致する文字列を文字列記憶手段120から取得し、これを音声認識文字列Scとして表示手段10に対して出力する。また、文字列出力手段111は、表示手段10に対して出力した音声認識文字列Scの情報を編集履歴記憶手段130に対して出力する。
文字列削除手段112は、音声認識文字列Scの誤認識部分を削除するものである。文字列削除手段112は、校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末Dtにおけるジェスチャーが入力された位置で特定される音声認識文字列Scを削除する。
すなわち、文字列削除手段112には、図3に示すように、ジェスチャー認識手段30から、文字列削除の校正記号(図4および図5参照)に予め関連付けられた「文字列削除」の修正指示と、ジェスチャーの入力座標とが入力される。これを受けて、文字列削除手段112は、表示端末Dtにおけるジェスチャーの入力座標の位置に表示されている音声認識文字列Scを削除し、当該削除後の音声認識文字列Sc(修正文字列)を表示手段10および修正文字列出力手段140に対して出力する。また、文字列削除手段112は、修正文字列の情報を編集履歴記憶手段130に対して出力する。
ここで、文字列削除手段112は、音声認識の単位となる形態素の区切りの位置を予め保持しており、図4に示すように、入力されたジェスチャーの左右の端点に最も近い形態素区間を削除対象の文字列とする。これにより、文字と文字との間が端点となるようにジェスチャーを正確に入力しなくても、形態素単位で文字列を削除することができるため、迅速に修正を行うことができる。
文字列挿入手段113は、音声認識文字列Scに新たな文字列を挿入するものである。文字列挿入手段113は、校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末Dtにおけるジェスチャーが入力された位置に、手書き文字認識手段60または音声認識手段80によって認識された文字列を挿入する。
すなわち、文字列挿入手段113には、図3に示すように、ジェスチャー認識手段30から、文字列挿入の校正記号(図6参照)に予め関連付けられた「文字列挿入」の修正指示と、ジェスチャーの入力座標とが入力される。また、文字列挿入手段113には、手書き文字認識手段60から手書き文字認識結果が入力されるか、あるいは、音声認識手段80から修正者音声認識結果が入力される。これらを受けて、文字列挿入手段113は、表示端末Dtにおけるジェスチャーの入力座標の位置に表示されている音声認識文字列Scに、手書き文字認識結果または修正者音声認識結果に示された文字列を挿入し、当該挿入後の音声認識文字列Sc(修正文字列)を表示手段10および修正文字列出力手段140に対して出力する。また、文字列挿入手段113は、修正文字列の情報を編集履歴記憶手段130に対して出力する。
ここで、文字列挿入手段113は、音声認識の単位となる形態素の区切りの位置を予め保持しており、図6に示すように、入力されたジェスチャーの上端に最も近い形態素間に文字列を挿入する。これにより、文字と文字との間が上端となるようにジェスチャーを正確に入力しなくても、形態素間に文字列を挿入することができるため、迅速に修正を行うことができる。
文字列置換手段114は、音声認識文字列Scを別の文字列に置換するものである。文字列置換手段114は、校正記号のジェスチャーに予め関連付けられた修正指示に従って、表示端末Dtにおけるジェスチャーが入力された位置で特定される音声認識文字列Scを、手書き文字認識手段60または音声認識手段80によって認識された文字列に置換する。
すなわち、文字列置換手段114には、図3に示すように、ジェスチャー認識手段30から、文字列置換の校正記号(図7参照)に予め関連付けられた「文字列置換」の修正指示と、ジェスチャーの入力座標とが入力される。また、文字列置換手段114には、手書き文字認識手段60から手書き文字認識結果が入力されるか、あるいは、音声認識手段80から修正者音声認識結果が入力される。これらを受けて、文字列置換手段114は、表示端末Dtにおけるジェスチャーの入力座標の位置に表示されている音声認識文字列Scを、手書き文字認識結果または修正者音声認識結果に示された文字列に置換し、当該置換後の音声認識文字列Sc(修正文字列)を表示手段10および修正文字列出力手段140に対して出力する。また、文字列置換手段114は、修正文字列の情報を編集履歴記憶手段130に対して出力する。
ここで、文字列置換手段114は、音声認識の単位となる形態素の区切りの位置を予め保持しており、図7に示すように、入力されたジェスチャーの左右の端点に最も近い形態素区間を置換対象の文字列とする。これにより、文字と文字との間が端点となるようにジェスチャーを正確に入力しなくても、形態素単位で文字列を置換することができるため、迅速に修正を行うことができる。
文字列記憶手段120は、音声認識結果に対応する文字列を記憶するものである。文字列記憶手段120は、図3に示すように、音声認識結果に対応する文字列を記憶し、文字列出力手段111の求めに応じて当該文字列を出力する。ここで、文字列記憶手段120は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。また、文字列記憶手段120は、ここでは図3に示すように、音声認識誤り修正装置1内に設けられているが、外部に設けられた構成としても構わない。
編集履歴記憶手段130は、文字列編集手段110による編集履歴を記憶するものである。編集履歴記憶手段130は、図3に示すように、文字列出力手段111、文字列削除手段112、文字列挿入手段113および文字列置換手段114の各手段から、音声認識文字列Scの編集履歴が入力され、前記各手段の求めに応じて当該編集履歴を出力する。ここで、編集履歴記憶手段130は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。また、編集履歴記憶手段130は、ここでは図3に示すように、音声認識誤り修正装置1内に設けられているが、外部に設けられた構成としても構わない。
修正文字列出力手段140は、修正文字列を出力するものである。修正文字列出力手段140は、図3に示すように、文字列削除手段112、文字列挿入手段113および文字列置換手段114から入力された修正文字列を、例えば外部の図示しない字幕送出装置などに対して出力する。
以上のような構成を備える音声認識誤り修正装置1は、音声認識文字列Scの認識誤りの修正に、紙面で行われる校正作業と同等のインターフェースを提供する。すなわち、音声認識誤り修正装置1は、キーボードを用いることなくスタイラスペンなどのポインティングデバイスPdを用いてタッチスクリーンTsに入力されたジェスチャーを用いて、認識誤りの修正に必要な削除、挿入、置換などの指示を行う。これにより、キーボードの使用に抵抗のある者も修正作業を行うことができる。また、前記したジェスチャーには、紙面で文章校正を行う際に使用する記号を用いることで、キーボードやコンピュータの操作に熟練していない修正者であっても、従来の熟練が必要な手順を覚えることなしに認識誤りを迅速に修正できるようになる。さらに、音声認識誤り修正装置1は、文字列を挿入および置換する際に、文字列を修正者の音声で入力したり、文字認識を利用して入力することができる。
このように、音声認識誤り修正装置1によれば、タッチスクリーンTsを介して入力されたジェスチャーによって音声認識文字列Scの誤認識の位置および種類を特定して修正を行うため、修正者が音声認識における認識誤りの修正作業に熟練していない場合であっても、修正作業を容易に行うことができる。また、音声認識誤り修正装置1によれば、認識誤りの修正作業に熟練することが難しい編集責任者も、普段行っている紙面上でのペンを用いた校正作業と同様の操作で認識誤りを修正することができるようになり、従来よりも低コストで、音声認識を利用した生放送の字幕制作が可能となる。
[音声認識誤り修正装置の処理手順]
本発明の第1実施形態に係る音声認識誤り修正装置1の処理手順について、図4〜図9を参照(適宜図3を参照)しながら説明する。以下では、表示端末Dt上に表示される「29日夜、仙台空港の滑走路の近くの工事現場で、」という音声認識文字列Scに対して、文字列削除、文字列挿入および文字列置換を行う場合の処理手順について順番に説明する。また、以下では、手書き文字入力によって文字列挿入および文字列置換を行う例について説明する。
(文字列削除)
例えば音声認識文字列Scにおける「事務」という文字列を削除する場合、修正者は、図4に示すように、ポインティングデバイスPdを用いて、破線矢印1,2,3の方向および順番でジェスチャーを入力する。これにより、ジェスチャー入力手段20からフィードバック出力手段100およびジェスチャー認識手段30に対してジェスチャー情報が入力される。
フィードバック出力手段100は、ジェスチャー情報が入力されると、図4に太い実線で示すように、削除対象となる「事務」の文字列上に文字列削除のジェスチャーの軌跡を表示する。また、ジェスチャー認識手段30は、ジェスチャー情報が入力されると、ポインティングデバイスPdによって入力されたジェスチャーがジェスチャー記憶手段40に予め記憶されている文字列削除の校正記号のジェスチャーと一致するか否かを判定する。そして、ジェスチャー認識手段30は、両者が一致する場合は、文字列削除の修正指示およびジェスチャーの入力座標を文字列削除手段112に対して出力するとともに、ジェスチャー確定情報をフィードバック出力手段100に対して出力する。
文字列削除手段112は、文字列削除の修正指示およびジェスチャーの入力座標が入力されると、音声認識文字列Scにおける「事務」という文字列を削除し、修正文字列を表示手段10および修正文字列出力手段140に対して出力する。また、フィードバック出力手段100は、ジェスチャー確定情報が入力されると、表示端末Dt上のジェスチャーの軌跡を消去する。なお、図5に示すように、音声認識文字列Scにおける2行にわたる「事務所」という文字列を削除する場合は、ポインティングデバイスPdを用いて、破線矢印1,2,3,4の方向および順番でジェスチャーを入力すればよい。これにより、前記した図4の処理と同じ手順で「事務所」という文字列が削除される。
(文字列挿入)
例えば音声認識文字列Scにおける「空港」と「の」の間に「滑走路」という文字列を挿入する場合、修正者は、図6に示すように、ポインティングデバイスPdを用いて、破線矢印1,2,3の方向および順番でジェスチャーを入力する。これにより、ジェスチャー入力手段20からフィードバック出力手段100およびジェスチャー認識手段30に対してジェスチャー情報が入力される。
フィードバック出力手段100は、ジェスチャー情報が入力されると、図6に太い実線で示すように、挿入対象となる「空港」と「の」の間に文字列挿入のジェスチャーの軌跡を表示する。また、ジェスチャー認識手段30は、ジェスチャー情報が入力されると、ポインティングデバイスPdによって入力されたジェスチャーがジェスチャー記憶手段40に予め記憶されている文字列挿入の校正記号のジェスチャーと一致するか否かを判定する。そして、ジェスチャー認識手段30は、両者が一致する場合は、文字列挿入の修正指示およびジェスチャーの入力座標を文字列挿入手段113に対して出力するとともに、ジェスチャー確定情報をフレーム出力手段90およびフィードバック出力手段100に対して出力する。
フレーム出力手段90は、ジェスチャー確定情報が入力されると、図8に示すように、引出線の終端位置に文字列入力用フレームFrを表示する。次に、修正者によって、「滑走路」という手書き文字が入力されると、手書き文字入力手段50からフィードバック出力手段100および手書き文字認識手段60に対して手書き文字情報が入力される。
フィードバック出力手段100は、手書き文字情報が入力されると、図8に実線で示すように、文字入力用フレームFr内に手書き文字の軌跡を表示する。また、手書き文字認識手段60は、手書き文字情報が入力されると、手書き文字認識結果を文字列挿入手段113に出力するとともに、手書き文字確定情報をフレーム出力手段90およびフィードバック出力手段100に出力する。
文字列挿入手段113は、手書き文字認識結果が入力されると、音声認識文字列Scにおける「空港」と「の」の間に「滑走路」という文字列を挿入し、修正文字列を表示手段10および修正文字列出力手段140に対して出力する。また、フレーム出力手段90およびフィードバック出力手段100は、手書き文字確定情報が入力されると、表示端末Dt上の文字列入力用フレームFrおよびジェスチャーの軌跡をそれぞれ消去する。
(文字列置換)
例えば音声認識文字列Scにおける「活断層」という文字列を、「滑走路」という文字列に置換する場合、修正者は、図7に示すように、ポインティングデバイスPdを用いて、破線矢印1,2の方向および順番でジェスチャーを入力する。これにより、ジェスチャー入力手段20からフィードバック出力手段100およびジェスチャー認識手段30に対してジェスチャー情報が入力される。
フィードバック出力手段100は、ジェスチャー情報が入力されると、図7に太い実線で示すように、置換対象となる「活断層」の文字列上に文字列置換のジェスチャーの軌跡を表示する。また、ジェスチャー認識手段30は、ジェスチャー情報が入力されると、ポインティングデバイスPdによって入力されたジェスチャーがジェスチャー記憶手段40に予め記憶されている文字列置換の校正記号のジェスチャーと一致するか否かを判定する。そして、ジェスチャー認識手段30は、両者が一致する場合は、文字列置換の修正指示およびジェスチャーの入力座標を文字列置換手段114に対して出力するとともに、ジェスチャー確定情報をフレーム出力手段90およびフィードバック出力手段100に対して出力する。
フレーム出力手段90は、ジェスチャー確定情報が入力されると、図9に示すように、引出線の終端位置に文字列入力用フレームFrを表示する。次に、修正者によって、「滑走路」という手書き文字が入力されると、手書き文字入力手段50からフィードバック出力手段100および手書き文字認識手段60に対して手書き文字情報が入力される。
フィードバック出力手段100は、手書き文字情報が入力されると、図9に実線で示すように、文字入力用フレームFr内に手書き文字の軌跡を表示する。また、手書き文字認識手段60は、手書き文字情報が入力されると、手書き文字認識結果を文字列置換手段114に出力するとともに、手書き文字確定情報をフレーム出力手段90およびフィードバック出力手段100に出力する。
文字列置換手段114は、手書き文字認識結果が入力されると、音声認識文字列Scにおける「活断層」という文字列を、「滑走路」という文字列に置換し、修正文字列を表示手段10および修正文字列出力手段140に対して出力する。また、フレーム出力手段90およびフィードバック出力手段100は、手書き文字確定情報が入力されると、表示端末Dt上の文字列入力用フレームFrおよびジェスチャーの軌跡をそれぞれ消去する。
<第2実施形態>
本発明の第2実施形態に係る音声認識誤り修正装置1Aについて、図10および図11を参照しながら説明する。音声認識誤り修正装置1Aは、修正者が表示端末DtのタッチスクリーンTsに対して行った入力に応じて認識誤りを修正する点については前記した音声認識誤り修正装置1と同様である。一方、音声認識誤り修正装置1Aは、音声認識文字列Scを別の文字列に置換する際に、手書き文字入力や音声入力などを用いずに、図11に示すように、表示端末Dt上のパレットPaに複数の文字列の候補(以下、置換文字列候補)を表示し、修正者にいずれかを選択させる点が前記した音声認識誤り修正装置1と異なる。
音声認識誤り修正装置1Aは、図10に示すように、文字列編集手段110の代わりに文字列編集手段110Aを備え、文字列特定手段150、置換文字列候補出力手段160、置換文字列候補記憶手段170および置換文字列決定手段180を新たに備えること以外は、前記した音声認識誤り修正装置1と同様の構成を備えている。従って、以下では音声認識誤り修正装置1と重複する構成については同じ符号を付して説明を省略する。
文字列特定手段150は、置換対象となる文字列を特定するものである。文字列特定手段150には、図10に示すように、ジェスチャー認識手段30から、文字列置換の校正記号(図7参照)に予め関連付けられた「文字列置換」の修正指示と、ジェスチャーの入力座標とが入力される。これを受けて、文字列特定手段150は、編集履歴記憶手段130に記憶された音声認識文字列Scの情報を読み出し、ジェスチャーによって文字列置換が指示された文字列を特定する。そして、文字列特定手段150は、特定した文字列に関する情報(以下、特定文字列情報という)を置換文字列候補出力手段160に対して出力する。
置換文字列候補出力手段160は、表示端末Dt上に、ジェスチャーによって指示された文字列に置換される置換文字列候補を表示するものである。置換文字列候補出力手段160には、図10に示すように、文字列特定手段150から特定文字列情報が入力される。これを受けて、置換文字列候補出力手段160は、置換文字列候補記憶手段170に記憶された文字列の中から特定文字列情報に含まれる文字列に類似するものを検索する。そして、置換文字列候補出力手段160は、検索した置換文字列候補を文字列出力手段111Aおよび置換文字列決定手段180に対して出力する。
置換文字列候補出力手段160は、具体的には、ジェスチャー認識手段30によって文字列置換の校正記号のジェスチャーが認識された際に、図11に示すように、表示端末Dtにおける予め定められた位置に設けられたパレットPa上に、表示端末Dtにおけるジェスチャーが入力された位置で特定される音声認識文字列Scに対応する、予め定められた複数の置換文字列候補を表示する。なお、前記したパレットPaは、置換文字列候補を表示するための領域であり、ここでは表示端末Dt上に常時表示されている。また、前記した置換文字列候補としては、例えばジェスチャーが入力された位置で特定される音声認識文字列Scの同音異義語や、音声認識文字列Scの生成に実際に用いられた原稿の該当部分などを用いることができる。
置換文字列候補記憶手段170は、置換文字列候補を記憶するものである。置換文字列候補記憶手段170は、予め複数の置換文字列候補が入力され、置換文字列候補出力手段160の求めに応じて当該置換文字列候補を出力する。ここで、置換文字列候補記憶手段170は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。また、置換文字列候補記憶手段170は、ここでは図10に示すように、音声認識誤り修正装置1A内に設けられているが、外部に設けられた構成としても構わない。
置換文字列決定手段180は、置換文字列を決定するものである。置換文字列決定手段180には、図10に示すように、置換文字列候補出力手段160から置換文字列候補が入力され、ジェスチャー入力手段20から修正者によって入力されたジェスチャーの入力座標が入力される。これを受けて、置換文字列決定手段180は、置換文字列候補の中から音声認識文字列Scと置換する置換文字列を決定する。そして、置換文字列決定手段180は、決定した置換文字列を文字列置換手段114Aに対して出力する。
置換文字列決定手段180は、具体的には図11に示すように、修正者が行ったポインティングデバイスPdによる選択に従って、置換文字列候補出力手段160によってパレットPaに表示された複数の置換文字列候補の中から1つの置換文字列を決定する。
文字列編集手段110Aは、図10に示すように、文字列出力手段111Aと、文字列削除手段112と、文字列挿入手段113と、文字列置換手段114Aと、を備えている。文字列出力手段111Aは、図10に示すように、音声認識文字列Scに加えて、置換文字列候補出力手段160から入力された置換文字列候補を表示手段10に対して出力する。これにより、図11に示すように、表示端末Dt上のパレットPaに置換文字列候補が表示される。
文字列置換手段114Aは、ジェスチャー認識手段30から、文字列置換の校正記号(図7参照)に予め関連付けられた「文字列置換」の修正指示と、ジェスチャーの入力座標とが入力される。また、文字列置換手段114Aには、置換文字列決定手段180から置換文字列が入力される。これらを受けて、文字列置換手段114Aは、表示端末Dtにおけるジェスチャーの入力座標の位置に表示されている音声認識文字列Scを、置換文字列に置換し、当該置換後の音声認識文字列Sc(修正文字列)を表示手段10および修正文字列出力手段140に対して出力する。また、文字列置換手段114Aは、修正文字列の情報を編集履歴記憶手段130に対して出力する。
以上のような構成を備える音声認識誤り修正装置1Aは、置換文字列候補出力手段160によって、音声認識文字列Scの誤認識部分と置換可能な置換文字列候補を提示し、置換文字列決定手段180によって、修正者のポインティングデバイスPdによる選択に従って、置換文字列を決定することができる。
従って、音声認識誤り修正装置1Aによれば、音声認識文字列Scの誤認識部分と置換可能な置換文字列候補を修正者に提示して選択できるように構成されているため、キーボードやコンピュータの操作に熟練していない修正者であっても、認識誤りの修正作業を容易に行うことができる。また、音声認識誤り修正装置1Aによれば、例えば言いよどみ、同音異義語などの認識誤りの種類に応じて、文字列の適切な入力手段を選択することができるため、認識誤りの修正作業を効率よく行うことができる。
[音声認識誤り修正装置の処理手順]
本発明の第2実施形態に係る音声認識誤り修正装置1Aの処理手順について、図11を参照(適宜図10を参照)しながら説明する。以下では、表示端末Dt上に表示される「29日夜、仙台空港の滑走路の近くの工事現場で、」という音声認識文字列Scに対して、文字列置換を行う場合の処理手順について説明する。また、以下では、文字列置換の校正記号として、置換対象となる文字列上の直線が用いられた例について説明する。なお、文字列削除および文字列挿入を行う場合の処理手順は前記した音声認識誤り修正装置1と同様であるため、ここでは説明を省略する。
(文字列置換)
例えば音声認識文字列Scにおける「活断層」という文字列を「滑走路」という文字列に置換する場合、修正者は、図11に示すように、ポインティングデバイスPdを用いて、破線矢印1に示すジェスチャーを入力する。これにより、ジェスチャー入力手段20からフィードバック出力手段100およびジェスチャー認識手段30に対してジェスチャー情報が入力される。
フィードバック出力手段100は、ジェスチャー情報が入力されると、図11に太い実線で示すように、置換対象となる「活断層」の文字列上に直線の軌跡を表示する。また、ジェスチャー認識手段30は、ジェスチャー情報が入力されると、ポインティングデバイスPdによって入力されたジェスチャーがジェスチャー記憶手段40に予め記憶されている文字列置換の校正記号のジェスチャーと一致するか否かを判定する。そして、ジェスチャー認識手段30は、両者が一致する場合は、文字列置換の修正指示およびジェスチャーの入力座標を文字列置換手段114Aおよび文字列特定手段150に対して出力する。
文字列特定手段150は、文字列置換の修正指示およびジェスチャーの入力座標が入力されると、編集履歴記憶手段130に記憶された音声認識文字列Scの情報を読み出し、ジェスチャーによって指示された文字列を特定し、特定文字列情報を置換文字列候補出力手段160に対して出力する。置換文字列候補出力手段160は、特定文字列情報が入力されると、図11に示すように、表示端末Dt上のパレットPaに複数の置換文字列候補を表示する。
次に、修正者によって、図11に示すように、破線矢印2のジェスチャーが入力され、パレットPa上の「滑走路」という文字列が選択されると、ジェスチャー入力手段20から置換文字列決定手段180に対してジェスチャーの入力座標が入力される。また、同時にジェスチャー入力手段20からフィードバック出力手段100に対してジェスチャー情報が入力され、当該フィードバック出力手段100によって「活断層」の文字列上に直線から延びる引出線の軌跡が表示端末Dt上に表示される。
置換文字列決定手段180は、ジェスチャーの入力座標が入力されると、置換文字列候補の中から「滑走路」という置換文字列を決定し、文字列置換手段114Aに対して出力する。これにより、文字列置換手段114Aは、音声認識文字列Scにおける「活断層」という文字列を、「滑走路」という文字列に置換し、修正文字列を表示手段10および修正文字列出力手段140に対して出力する。
<変形例>
本発明の第1実施形態に係る音声認識誤り修正装置1および第2実施形態に係る音声認識誤り修正装置1Aの変形例について、図12〜図15(適宜図3および図10参照)を参照しながら説明する。ここで、音声認識誤り修正装置1,1Aの変形例は、図12に示すように、文字列編集手段110,110Aの代わりに文字列編集手段110Bを備えること以外は、前記した音声認識誤り修正装置1,1Aと同様の構成を備えている。従って、以下では音声認識誤り修正装置1,1Aと重複する構成については同じ符号を付して説明を省略する。また、図12では、文字列編集手段110B以外の構成については図示を省略している。
なお、図12では、音声認識誤り修正装置1,1Aの変形例として、操作取消手段115、再操作手段116および操作確定手段117を全て備える構成を一例として図示しているが、これらの手段をもれなく全て備えることは必須ではなく、これらの手段のうちいずれかを備える構成であっても構わない。
文字列編集手段110Bは、図12に示すように、文字列出力手段111(111A)と、文字列削除手段112と、文字列挿入手段113と、文字列置換手段114(114A)と、操作取消手段115と、再操作手段116と、操作確定手段117と、を備えている。
操作取消手段115は、表示端末Dt上に表示された音声認識文字列Scの修正を行う場合において、直前の操作を取り消すものである。操作取消手段115は、例えば図13に示すように、ジェスチャー認識手段30によって文字列置換の校正記号のジェスチャーが認識され、手書き文字認識手段60によって「滑走路」という手書き文字が入力された後に、ポインティングデバイスPdによって破線矢印1,2の方向および順番でジェスチャーが入力された場合、直前の操作を取り消す。
すなわち、操作取消手段115には、ジェスチャー認識手段30から、図13の破線矢印1,2に示す操作取消の記号に予め関連付けられた「操作取消」の指示が入力される。これを受けて、操作取消手段115は、文字列置換手段114(114A)に対して文字列置換の修正を指示する。これにより、手書き文字認識手段60から文字列置換手段114(114A)に対して入力された手書き文字認識結果が修正され、例えば「滑走路」の手書き文字入力のうち、最後の文字である「路」の入力指示が取り消される。
なお、前記したような操作取消の処理を行う場合、フィードバック出力手段100は、ポインティングデバイスPdによって破線矢印1,2の方向および順番でジェスチャーが入力された際に、例えば図13に示すように、丸印のジェスチャーの軌跡を表示端末Dt上に表示することが好ましい。以上のような操作取消手段115を備えることで、ポインティングデバイスPdによって行われた操作を一部取り消すことができるため、認識誤りの修正作業をより柔軟に行うことができる。
再操作手段116は、表示端末Dt上に表示された音声認識文字列Scの修正を行う場合において、再操作可能な状態にするものである。再操作手段116は、例えば図14に示すように、ジェスチャー認識手段30によって文字列置換の校正記号のジェスチャーが認識され、手書き文字認識手段60によって「滑走路」という手書き文字が入力された後に、ポインティングデバイスPdによって破線矢印1,2の方向および順番でジェスチャーが入力された場合、ジェスチャー入力および手書き文字入力を全て取り消す。
すなわち、再操作手段116には、ジェスチャー認識手段30から、図14の破線矢印1,2に示す再操作の記号に予め関連付けられた「再操作」の指示が入力される。これを受けて、再操作手段116は、文字列置換手段114(114A)に対して文字列置換の取消を指示する。これにより、手書き文字認識手段60から文字列置換手段114(114A)に対して入力された手書き文字認識結果が削除され、「滑走路」の入力が取り消される。
なお、前記したような再操作の処理を行う場合、フィードバック出力手段100は、ポインティングデバイスPdによって破線矢印1,2の方向および順番でジェスチャーが入力された際に、例えば図14に示すように、丸印のジェスチャーの軌跡を表示端末Dt上に表示することが好ましい。以上のような再操作手段116を備えることで、ポインティングデバイスPdによって行われた操作をいったん全て取り消すことができるため、認識誤りの修正作業をより柔軟に行うことができる。
操作確定手段117は、表示端末Dt上に表示された音声認識文字列Scを早期に確定するものである。操作確定手段117は、例えば図15に示すように、ジェスチャー認識手段30によって操作確定の校正記号のジェスチャーが認識された場合、ジェスチャーが入力された位置までの音声認識文字列Scを修正文字列出力手段140に対して出力する。
すなわち、操作確定手段117には、ジェスチャー認識手段30から、図15の破線矢印1,2に示す操作確定の記号に予め関連付けられた「操作確定」の指示と、ジェスチャーの入力座標と、が入力される。これを受けて、操作確定手段117は、ジェスチャーが入力された直前までの音声認識文字列Scを修正文字列出力手段140に対して出力する。
なお、前記したような操作確定の処理を行う場合、フィードバック出力手段100は、ポインティングデバイスPdによって破線矢印1,2の方向および順番でジェスチャーが入力された場合、例えば図15に示すように、チェック印のジェスチャーの軌跡を表示端末Dt上に表示することが好ましい。なお、図15では、斜線で示された文字列が、操作確定手段117によって確定された文字列を示している。
ここで、リアルタイムに字幕制作を行う場合、認識誤りの修正と同時に修正および確認済の文字列をいち早く確定し、字幕として送出可能な状態にできることが望ましい。従来の方式では、キーボードのリターンを押して、画面からスクロールアウトした文字列が確定文字列となっており、修正および確認済の文字列を行単位で確定していた。一方、前記したような操作確定手段117を備えることで、音声認識文字列Scの確認済みの部分を指定し、字幕として放送可能な文字列を指示する確認動作についても紙面で行われる校正作業と同等のインターフェースで提供することができる。これにより、従来よりも迅速に音声認識文字列Scの確認済みの部分を確定することが可能となり、認識誤りの修正作業とシームレスに字幕送出を行うことができる。
[音声認識誤り修正プログラム]
前記した音声認識誤り修正装置1,1Aおよびこれらの変形例は、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROMなどの記録媒体に書き込んで配布することも可能である。
以上、本発明に係る音声認識誤り装置およびそのプログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変などしたものも本発明の趣旨に含まれることはいうまでもない。
例えば、前記した音声認識誤り修正装置1,1Aおよびこれらの変形例は、図3および図12に示すように、文字列削除手段112、文字列挿入手段113および文字列置換手段114,114Aをそれぞれ備えていたが、これらを全て備えることは必須ではない。例えば、音声認識誤り修正装置1,1Aおよびこれらの変形例は、文字列の削除のみを行う場合は文字列削除手段112のみを備えていればよく、文字列の挿入のみを行う場合は文字列挿入手段113のみを備えていればよく、文字列の置換のみを行う場合は文字列置換手段114,114Aのみを備えていればよい。
また、前記した音声認識誤り修正装置1,1Aおよびこれらの変形例は、図3、図10および図12に示すように、手書き文字入力手段50、手書き文字認識手段60、音声入力手段70、音声認識手段80を備えていたが、これらを全て備えることは必須ではない。例えば、音声認識誤り修正装置1,1Aおよびこれらの変形例は、文字列の削除のみを行う場合は手書き文字入力手段50、手書き文字認識手段60、音声入力手段70、音声認識手段80を備えていなくても構わない。また、音声認識誤り修正装置1,1Aおよびこれらの変形例は、誤認識の修正に文字認識のみを利用する場合は音声入力手段70および音声認識手段80を備えていなくてもよく、音声認識のみを利用する場合は手書き文字入力手段50および手書き文字認識手段60を備えていなくてもよい。
また、前記した音声認識誤り修正装置1,1Aおよびこれらの変形例は、音声認識文字列Scにおける文字列挿入および文字列置換の処理において、手書き文字入力、音声入力、パレットPaを用いた置換文字列候補の選択のいずれかを選択できるような構成としても構わない。この場合、音声認識誤り修正装置1,1Aおよびこれらの変形例は、図6および図7に示す引出線のジェスチャーの後に、手書き文字入力と音声入力を選択するための新たなジェスチャーを追加するか、あるいは引出線の方向もしくは終端位置によって手書き文字入力と音声入力を選択できるようにすればよい。例えば引出線の方向によって選択する場合は、引出線を上に引き出したときは手書き文字入力とし、引出線を下に引き出したときは音声入力とすれば、直感的に理解しやすくなる。
なお、引出線の方向および終端位置によって選択する場合は、ジェスチャー認識手段30によって、文字列挿入および文字列置換の校正記号に含まれる引出線のジェスチャーが引き出された方向、あるいは引出線の終端位置に従って、手書き文字認識手段60によって認識された文字列、音声認識手段80によって認識された文字列のいずれを挿入するか、および、手書き文字認識手段60によって認識された文字列、音声認識手段80によって認識された文字列、置換文字列決定手段180によって決定された置換文字列のいずれを置換するか、をそれぞれ選択することになる。
また、前記した音声認識誤り修正装置1,1Aおよびこれらの変形例は、ジェスチャーおよび手書き文字の入力にポインティングデバイスPdを用いることを前提としているが、当該ポインティングデバイスPdを用いずに修正者の手指でジェスチャーおよび手書き文字の入力を行っても構わない。
1,1A 音声認識誤り修正装置
10 表示手段
20 ジェスチャー入力手段
30 ジェスチャー認識手段
40 ジェスチャー記憶手段
50 手書き文字入力手段
60 手書き文字認識手段
70 音声入力手段
80 音声認識手段
90 フレーム出力手段
100 フィードバック出力手段
110,110A,110B 文字列編集手段
111,111A 文字列出力手段
112 文字列削除手段
113 文字列挿入手段
114,114A 文字列置換手段
115 操作取消手段
116 再操作手段
117 操作確定手段
120 文字列記憶手段
130 編集履歴記憶手段
140 修正文字列出力手段
150 文字列特定手段
160 置換文字列候補出力手段
170 置換文字列候補記憶手段
180 置換文字列決定手段
Dt 表示端末
Fr 文字列入力用フレーム
Mc マイク
Pd ポインティングデバイス
Sc 音声認識文字列
Ts タッチスクリーン

Claims (9)

  1. タッチスクリーンを備える表示端末とポインティングデバイスとを用いて、予め行われた音声認識によって得られた音声認識文字列における認識誤りを修正する音声認識誤り修正装置であって、
    前記表示端末上に前記音声認識文字列を表示する表示手段と、
    前記ポインティングデバイスによって前記タッチスクリーンに入力された誤認識の位置および種類を示すジェスチャーの中から、予め定められた校正記号のジェスチャーを認識するジェスチャー認識手段と、
    前記校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を修正する文字列編集手段と、
    を備えることを特徴とする音声認識誤り修正装置。
  2. 前記ポインティングデバイスによって前記タッチスクリーンに入力された文字列を認識する手書き文字認識手段をさらに備え、
    前記ジェスチャー認識手段は、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、
    前記文字列編集手段は、
    前記文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を削除する文字列削除手段と、
    前記文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置に、前記手書き文字認識手段によって認識された文字列を挿入する文字列挿入手段と、
    前記文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を、前記手書き文字認識手段によって認識された文字列に置換する文字列置換手段と、
    を備えることを特徴とする請求項1に記載の音声認識誤り修正装置。
  3. 修正者の音声から文字列を認識する音声認識手段をさらに備え、
    前記ジェスチャー認識手段は、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、
    前記文字列編集手段は、
    前記文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を削除する文字列削除手段と、
    前記文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置に、前記音声認識手段によって認識された文字列を挿入する文字列挿入手段と、
    前記文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を、前記音声認識手段によって認識された文字列に置換する文字列置換手段と、
    を備えることを特徴とする請求項1に記載の音声認識誤り修正装置。
  4. 前記ポインティングデバイスによって前記タッチスクリーンに入力された文字列を認識する手書き文字認識手段と、
    修正者の音声から文字列を認識する音声認識手段と、をさらに備え、
    前記ジェスチャー認識手段は、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、
    前記文字列編集手段は、
    前記文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を削除する文字列削除手段と、
    前記文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置に、前記手書き文字認識手段または前記音声認識手段によって認識された文字列を挿入する文字列挿入手段と、
    前記文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を、前記手書き文字認識手段または前記音声認識手段によって認識された文字列に置換する文字列置換手段と、
    を備えることを特徴とする請求項1に記載の音声認識誤り修正装置。
  5. 前記ポインティングデバイスによって前記タッチスクリーンに入力された文字列を認識する手書き文字認識手段と、
    前記ジェスチャー認識手段によって文字列置換の校正記号のジェスチャーが認識された際に、前記表示端末における予め定められた位置に、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列に対応する、予め定められた複数の置換文字列候補を表示する置換文字列候補出力手段と、
    前記ポインティングデバイスによる選択に従って、前記置換文字列候補出力手段によって表示された複数の置換文字列候補の中から1つの置換文字列を決定する置換文字列決定手段と、をさらに備え、
    前記ジェスチャー認識手段は、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識し、
    前記文字列編集手段は、
    前記文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を削除する文字列削除手段と、
    前記文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置に、前記手書き文字認識手段によって認識された文字列を挿入する文字列挿入手段と、
    前記文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を、前記置換文字列決定手段によって決定された置換文字列に置換する文字列置換手段と、
    を備えることを特徴とする請求項1に記載の音声認識誤り修正装置。
  6. 前記ポインティングデバイスによって前記タッチスクリーンに入力された文字列を認識する手書き文字認識手段と、
    修正者の音声から文字列を認識する音声認識手段と、
    前記ジェスチャー認識手段によって文字列置換の校正記号のジェスチャーが認識された際に、前記表示端末における予め定められた位置に、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列に対応する、予め定められた複数の置換文字列候補を表示する置換文字列候補出力手段と、
    前記ポインティングデバイスによる選択に従って、前記置換文字列候補出力手段によって表示された複数の置換文字列候補の中から1つの置換文字列を決定する置換文字列決定手段と、をさらに備え、
    前記ジェスチャー認識手段は、予め定められた文字列削除、文字列挿入および文字列置換の校正記号のジェスチャーをそれぞれ認識するとともに、前記文字列挿入および前記文字列置換の校正記号に含まれる引出線のジェスチャーが引き出された方向、あるいは前記引出線の終端位置に従って、前記手書き文字認識手段によって認識された文字列、前記音声認識手段によって認識された文字列のいずれを挿入するか、および、前記手書き文字認識手段によって認識された文字列、前記音声認識手段によって認識された文字列、前記置換文字列決定手段によって決定された置換文字列のいずれを置換するか、をそれぞれ選択し、
    前記文字列編集手段は、
    前記文字列削除の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を削除する文字列削除手段と、
    前記文字列挿入の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置に、前記手書き文字認識手段または前記音声認識手段によって認識された文字列を挿入する文字列挿入手段と、
    前記文字列置換の校正記号のジェスチャーに予め関連付けられた修正指示に従って、前記表示端末における前記ジェスチャーが入力された位置で特定される前記音声認識文字列を、前記手書き文字認識手段または前記音声認識手段によって認識された文字列、あるいは、前記置換文字列決定手段によって決定された置換文字列に置換する文字列置換手段と、
    を備えることを特徴とする請求項1に記載の音声認識誤り修正装置。
  7. 前記ポインティングデバイスによって前記タッチスクリーンに前記ジェスチャーが入力されたされた際に、前記表示端末における前記ジェスチャーが入力された位置に、前記ジェスチャーの軌跡をフィードバックして表示するフィードバック出力手段をさらに備えることを特徴とする請求項1から請求項6のいずれか一項に記載の音声認識誤り修正装置。
  8. 前記ジェスチャー認識手段によって前記文字列挿入または前記文字列置換の校正記号のジェスチャーが認識された際に、前記表示端末における予め定められた位置に、前記ポインティングデバイスによって前記文字列を入力するための文字列入力用フレームを表示するフレーム出力手段をさらに備えることを特徴とする請求項2、請求項4、請求項5、請求項6のいずれか一項に記載の音声認識誤り修正装置。
  9. コンピュータを、請求項1から請求項8のいずれか一項に記載の音声認識誤り修正装置として機能させるための音声認識誤り修正プログラム。
JP2013017189A 2013-01-31 2013-01-31 音声認識誤り修正装置およびそのプログラム Pending JP2014149612A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013017189A JP2014149612A (ja) 2013-01-31 2013-01-31 音声認識誤り修正装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013017189A JP2014149612A (ja) 2013-01-31 2013-01-31 音声認識誤り修正装置およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2014149612A true JP2014149612A (ja) 2014-08-21

Family

ID=51572560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013017189A Pending JP2014149612A (ja) 2013-01-31 2013-01-31 音声認識誤り修正装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2014149612A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2016081203A (ja) * 2014-10-15 2016-05-16 シャープ株式会社 情報処理装置、情報処理プログラムおよび情報処理方法
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置
JP2017511899A (ja) * 2014-07-22 2017-04-27 三菱電機株式会社 単語のシーケンスを含む音声を認識するための方法及びシステム
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
JP2018504693A (ja) * 2014-12-25 2018-02-15 アリババ グループ ホウルディング リミテッド 携帯端末上におけるフォーム操作のための方法及び機器
CN108345581A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统
JP2021078060A (ja) * 2019-11-12 2021-05-20 パナソニックIpマネジメント株式会社 字幕修正装置、字幕修正方法、及び、コンピュータプログラム
US11048408B2 (en) 2019-05-27 2021-06-29 Ricoh Company, Ltd. Display apparatus, recording medium, and display method
JP7494507B2 (ja) 2020-03-19 2024-06-04 株式会社リコー 表示装置、表示方法、プログラム
JP7494506B2 (ja) 2020-03-18 2024-06-04 株式会社リコー 表示装置、表示方法、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04347721A (ja) * 1991-05-24 1992-12-02 Sony Corp 手書き文字入力装置
JPH08212197A (ja) * 1995-02-01 1996-08-20 Nec Corp 文書編集装置
JP2000123007A (ja) * 1998-10-16 2000-04-28 Chie Izawa 表示一体型タブレットおよび音声認識を利用したテープ起こし システム
JP2004151614A (ja) * 2002-11-01 2004-05-27 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
WO2004097722A1 (ja) * 2003-05-02 2004-11-11 Fujitsu Limited 手書き文字入力装置および手書き文字入力処理方法
JP2008090624A (ja) * 2006-10-02 2008-04-17 Sharp Corp 入力文字編集装置、入力文字編集方法、入力文字編集プログラム、および記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04347721A (ja) * 1991-05-24 1992-12-02 Sony Corp 手書き文字入力装置
JPH08212197A (ja) * 1995-02-01 1996-08-20 Nec Corp 文書編集装置
JP2000123007A (ja) * 1998-10-16 2000-04-28 Chie Izawa 表示一体型タブレットおよび音声認識を利用したテープ起こし システム
JP2004151614A (ja) * 2002-11-01 2004-05-27 Nippon Hoso Kyokai <Nhk> 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
WO2004097722A1 (ja) * 2003-05-02 2004-11-11 Fujitsu Limited 手書き文字入力装置および手書き文字入力処理方法
JP2008090624A (ja) * 2006-10-02 2008-04-17 Sharp Corp 入力文字編集装置、入力文字編集方法、入力文字編集プログラム、および記録媒体

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2017511899A (ja) * 2014-07-22 2017-04-27 三菱電機株式会社 単語のシーケンスを含む音声を認識するための方法及びシステム
JP2016081203A (ja) * 2014-10-15 2016-05-16 シャープ株式会社 情報処理装置、情報処理プログラムおよび情報処理方法
US11099732B2 (en) 2014-12-25 2021-08-24 Advanced New Technologies Co., Ltd. Methods and apparatuses for form operation on a mobile terminal
JP2018504693A (ja) * 2014-12-25 2018-02-15 アリババ グループ ホウルディング リミテッド 携帯端末上におけるフォーム操作のための方法及び機器
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
CN108345581A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
CN108345581B (zh) * 2017-01-24 2022-10-14 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
US11048408B2 (en) 2019-05-27 2021-06-29 Ricoh Company, Ltd. Display apparatus, recording medium, and display method
JP2021078060A (ja) * 2019-11-12 2021-05-20 パナソニックIpマネジメント株式会社 字幕修正装置、字幕修正方法、及び、コンピュータプログラム
JP7494506B2 (ja) 2020-03-18 2024-06-04 株式会社リコー 表示装置、表示方法、プログラム
JP7494507B2 (ja) 2020-03-19 2024-06-04 株式会社リコー 表示装置、表示方法、プログラム
CN112101236A (zh) * 2020-09-17 2020-12-18 济南大学 一种面向老年陪护机器人的智能纠错方法及系统

Similar Documents

Publication Publication Date Title
JP2014149612A (ja) 音声認識誤り修正装置およびそのプログラム
US20210406578A1 (en) Handwriting-based predictive population of partial virtual keyboards
CN109120511B (zh) 基于特征的自动校正方法、计算设备和系统
CN105378606B (zh) 用于手势键入的备选假设错误修正
US10909308B2 (en) Information processing apparatus, information processing method, and program
US20180143956A1 (en) Real-time caption correction by audience
US20180144747A1 (en) Real-time caption correction by moderator
US20140143721A1 (en) Information processing device, information processing method, and computer program product
US9274704B2 (en) Electronic apparatus, method and storage medium
JP2010073185A (ja) 入力装置、画像処理プログラムおよびコンピュータ読み取り可能な記録媒体
US20140297276A1 (en) Editing apparatus, editing method, and computer program product
JP2016134014A (ja) 電子情報ボード装置、情報処理方法およびプログラム
CN103369122A (zh) 语音输入方法及系统
CN103049206B (zh) 文本编辑方法及通信终端
US9348512B2 (en) Methods for facilitating text entry
US20150193410A1 (en) System for editing a text of a portable terminal and method thereof
JP2013196479A (ja) 情報処理システム、情報処理プログラム、情報処理方法
KR100663409B1 (ko) 펜 컴퓨팅 시스템에서의 레이어 편집 방법 및 장치
CN104077011A (zh) 一种同类型文档间的关联方法和终端设备
JP2014056389A (ja) 文字認識装置、文字認識方法及びプログラム
CN106293368B (zh) 一种数据处理方法及电子设备
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
JP2010026718A (ja) 文字入力装置および方法
KR20140139702A (ko) 텍스트 수정 방법 및 장치
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170815