JP6605995B2 - 音声認識誤り修正装置、方法及びプログラム - Google Patents

音声認識誤り修正装置、方法及びプログラム Download PDF

Info

Publication number
JP6605995B2
JP6605995B2 JP2016052983A JP2016052983A JP6605995B2 JP 6605995 B2 JP6605995 B2 JP 6605995B2 JP 2016052983 A JP2016052983 A JP 2016052983A JP 2016052983 A JP2016052983 A JP 2016052983A JP 6605995 B2 JP6605995 B2 JP 6605995B2
Authority
JP
Japan
Prior art keywords
text
character string
correction
unit
correction target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016052983A
Other languages
English (en)
Other versions
JP2017167368A (ja
Inventor
光生 布目
平 芦川
将之 芦川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016052983A priority Critical patent/JP6605995B2/ja
Priority to US15/387,367 priority patent/US10614265B2/en
Publication of JP2017167368A publication Critical patent/JP2017167368A/ja
Application granted granted Critical
Publication of JP6605995B2 publication Critical patent/JP6605995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Description

本発明の実施形態は、音声認識誤り修正装置、方法及びプログラムに関する。
従来から、発話者が発話した音声を音声認識処理でテキストに変換し、変換したテキストを字幕として出力する技術が知られている。
またこのような技術において、音声認識処理による認識誤りを修正するため、修正者が、音声から変換されたテキスト上で認識誤り箇所を手動で選択し、選択した認識誤り箇所の文字列を修正するための正しい文字列をキーボードなどから手入力することで、認識誤り箇所の文字列を正しい文字列に修正した字幕を出力する技術が知られている。
特開2004−151614号公報
しかしながら、上述したような従来技術では、認識誤りを修正するために、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力が必要であり、認識誤りの修正に手間を要していた。
本発明が解決しようとする課題は、発話者が発話した音声を認識して字幕として出力する場合の認識誤りの修正を簡易化することができる音声認識誤り修正装置、方法及びプログラムを提供することである。
実施形態の音声認識誤り修正装置は、第1取得部と、第1認識部と、第1出力部と、第2取得部と、第2認識部と、推定部と、第2出力部と、を備える。第1取得部は、第1発話者の第1発話音声を取得する。第1認識部は、前記第1発話音声を認識し、第1テキストに変換する。第1出力部は、前記第1テキストを示す第1字幕画像を出力する。第2取得部は、前記第1テキストに含まれる修正対象文字列を修正するための第2発話者の第2発話音声を取得する。第2認識部は、前記第2発話音声を認識し、第2テキストに変換する。推定部は、前記第1テキストと前記第2テキストとのテキストマッチングに基づいて、前記修正対象文字列を推定する。第2出力部は、前記修正対象文字列が前記第2テキストに置き換えられることを示す第2字幕画像を出力する。
第1実施形態の音声認識誤り修正システムの例を示す構成図。 第1実施形態の音声認識誤り修正装置の例を示す構成図。 第1実施形態の第1字幕画像の例を示す図。 第1実施形態の第2テキストの例を示す図。 第1実施形態の第2字幕画像の例を示す図。 第1実施形態の処理例を示すフローチャート。 第1実施形態の推定処理の例を示すフローチャート。 第1実施形態のテキストマッチング処理例を示すフローチャート。 第1実施形態の修正対象文字列の範囲の推定例の説明図。 第1実施形態の修正対象文字列の範囲の推定例の説明図。 第1実施形態の修正対象文字列の範囲の推定例の説明図。 第2実施形態の音声認識誤り修正装置の例を示す構成図。 第2実施形態の選択画像の例を示す図。 第2実施形態の選択入力の例の説明図。 第2実施形態の第2字幕画像の例を示す図。 第2実施形態の処理例を示すフローチャート。 変形例2の選択入力の例の説明図。 変形例2の選択入力の例の説明図。 変形例2の選択入力の例の説明図。 変形例3の選択入力の例の説明図。 各実施形態及び各変形例の音声認識誤り修正装置のハードウェア構成例を示す構成図。
以下、添付図面を参照しながら、実施形態を詳細に説明する。
(第1実施形態)
図1は、第1実施形態の音声認識誤り修正システム1の一例を示す構成図である。図1に示すように、音声認識誤り修正システム1は、音声認識誤り修正装置10と、端末装置20−1〜20−Nと、を備える。
音声認識誤り修正装置10と端末装置20−1〜20−N(Nは、3以上の自然数)とは、ネットワーク2を介して接続されている。ネットワーク2は、例えば、LAN(Local Area Network)やインターネットなどにより実現できる。また、ネットワーク2は、有線のネットワークであっても無線のネットワークであってもよい。
なお、以下の説明では、端末装置20−1〜20−Nを各々区別する必要がない場合は、単に端末装置20と称する場合がある。
音声認識誤り修正装置10は、例えば、音声認識用のサーバ装置などのコンピュータにより実現できる。端末装置20は、音声入力装置として機能するマイクや、操作装置及び表示装置として機能するタッチパネルディスプレイなどを備えたコンピュータであり、例えば、スマートフォン、タブレット端末、及びノートPC(Personal Computer)などにより実現できる。
第1実施形態では、音声認識誤り修正システム1が、授業やセミナーなどの講演内容をリアルタイムに字幕として提示するシステムである場合を例に取り説明するが、これに限定されるものではない。例えば、音声認識誤り修正システム1を、会議などの発言内容をリアルタイムに字幕として提示するシステムに適用してもよい。
以下では、講演者(第1発話者の一例)が端末装置20−1を使用し、講演内容の字幕を修正する修正者(第2発話者の一例)が端末装置20−2を使用し、講演内容を聴講する聴講者が端末装置20−Nを使用する場合を例にとり説明するが、これに限定されるものではない。なお第1実施形態では、端末装置20−Nを使用する聴講者は、音声の聞き取りが困難な聴覚障害者を想定しているが、これに限定されるものではない。
第1実施形態では、音声認識誤り修正システム1が、以下のような利用形態で利用される場合を例に取り説明する。
まず、講演者は、講演内容である第1発話音声を、マイクを介して端末装置20−1に音声入力し、端末装置20−1は、音声入力された第1発話音声を音声認識誤り修正装置10に送信する。音声認識誤り修正装置10は、端末装置20−1から受信した第1発話音声を音声認識して第1テキストに変換し、変換した第1テキストを示す第1字幕画像を端末装置20−1〜20−Nそれぞれに配信する。各端末装置20は、音声認識誤り修正装置10から受信した第1字幕画像をタッチパネルディスプレイに表示する。
続いて、修正者が端末装置20−2上で第1字幕画像を確認し、第1テキストに認識誤りがある場合は、認識誤りを修正するための正しい内容である第2発話音声を、マイクを介して端末装置20−2に音声入力し(リスピークし)、端末装置20−2は、音声入力された第2発話音声を音声認識誤り修正装置10に送信する。音声認識誤り修正装置10は、端末装置20−2から受信した第2発話音声を音声認識して第2テキストに変換し、第1テキストにおける認識誤り箇所の修正対象文字列を第2テキストに置き換える第2字幕画像を端末装置20−1〜20−Nそれぞれに配信する。各端末装置20は、音声認識誤り修正装置10から受信した第2字幕画像をタッチパネルディスプレイに表示する。
このように第1実施形態では、第1字幕画像が示す第1テキストに認識誤りがある場合には、当該認識誤りを修正した第2字幕画像が各端末装置20に配信されるため、聴講者は、字幕画像から講演内容を正しく理解することができる。
図2は、第1実施形態の音声認識誤り修正装置10の一例を示す構成図である。図2に示すように、音声認識誤り修正装置10は、第1取得部11と、第1認識部13と、生成部15と、第1出力部17と、第2取得部19と、第2認識部21と、推定部23と、更新部25と、第2出力部27と、を備える。
第1取得部11、第1認識部13、生成部15、第1出力部17、第2取得部19、第2認識部21、推定部23、更新部25、及び第2出力部27は、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。
第1取得部11は、第1発話者の第1発話音声を取得する。第1実施形態では、第1取得部11は、前述の通り、端末装置20−1から、第1発話者の第1発話音声として、講演者の講演内容の発話音声を取得する。
第1認識部13は、第1取得部11により取得された第1発話音声を認識し、第1テキストに変換する。具体的には、第1認識部13は、第1取得部11により取得された第1発話音声を音声認識処理により認識し、第1発話音声の内容を第1テキストに変換する。なお、音声認識処理は、公知の技術を用いればよい。
生成部15は、第1認識部13により変換された第1テキストを示す第1字幕画像を生成する。第1字幕画像は、第1テキストを示す画像であればどのような画像であってもよい。
例えば、第1字幕画像としては、講演者、修正者、及び聴講者などの利用者が見やすいように、第1テキストのフォントサイズや背景色を変更した画像が挙げられる。このような画像として、いわゆる情報保障でよく見られるサブディスプレイで黒背景に第1テキストを白文字で表示するような形態が挙げられる。なお、一般に、聴覚障害者向けには、黒背景かつ白文字、横幅が20文字、縦が10行などの表示形式が知られている。
また例えば、第1字幕画像として、講演者の映像など何らかの映像上に第1テキストをオーバーレイ表示する形態や、修正者向けの編集を前提として第1テキストを表示した形態なども挙げられる。
但し、第1字幕画像は、これらに限定されるものではない。
図3は、第1実施形態の第1字幕画像の一例を示す図である。図3に示す例では、第1字幕画像上に第1テキスト51が表示されている。なお、第1テキスト51には、音声認識処理による認識誤りも生じており、後述する修正対象の修正対象文字列52も含まれている。
第1出力部17は、生成部15により生成された第1字幕画像を出力する。第1実施形態では、第1出力部17は、各端末装置20に第1字幕画像を出力する。
これにより、各端末装置20では、第1字幕画像が表示される。ここで、修正者は、端末装置20−2上で第1字幕画像を確認し、第1テキストに認識誤りがあることを確認したとする。例えば、第1字幕画像が図3に示す画像である場合、修正者は、修正対象文字列52が認識誤り箇所であることを確認する。
この場合、第2取得部19は、第1テキストに含まれる修正対象文字列を修正するための第2発話者の第2発話音声を取得する。第1実施形態では、第2取得部19は、前述の通り、端末装置20−2から、第2発話者の第2発話音声として、修正対象文字列を修正するための修正者の発話音声を取得する。
第2認識部21は、第2取得部19により取得された第2発話音声を認識し、第2テキストに変換する。具体的には、第2認識部21は、第2取得部19により取得された第2発話音声を音声認識処理により認識し、第2発話音声の内容を第2テキストに変換する。なお、音声認識処理は、第1認識部13同様、公知の技術を用いればよい。
図4は、第1実施形態の第2テキストの一例を示す図である。図4に示す例では、図3に示す修正対象文字列52を修正するための第2テキスト53が示されている。
推定部23は、第1認識部13により変換された第1テキストと第2認識部21により変換された第2テキストとのテキストマッチング(テキストベースマッチング)を行い、当該テキストマッチングの結果に基づいて、第1テキスト内の修正対象文字列を推定する。具体的には、推定部23は、第1認識部13により第1テキストに変換される第1発話音声と第2認識部21により第2テキストに変換される第2発話音声との音響マッチング(音響データマッチング)を更に行い、テキストマッチングの結果と音響マッチングの結果とに基づいて、第1テキスト内の修正対象文字列を推定する。
第1実施形態では、推定部23は、以下のように、第1テキストと第2テキストとのテキストマッチングを行う。
まず、推定部23は、第1テキスト及び第2テキストそれぞれに対し、形態素解析処理、及び読み推定処理を施し、第1テキスト及び第2テキストそれぞれから形態素情報及び読み情報を取得する。読み推定処理とは、テキストを揺らぎのない状態に修正する処理であり、例えば日本語であれば、漢字をひらがなやカタカナに修正することが挙げられる。
次に、推定部23は、第1テキストの形態素情報及び読み情報を用いて、第1テキストを表層文字、形態素(品詞)の組み合わせ、及び読みの文字列の各値に展開するとともに、第2テキストの形態素情報及び読み情報を用いて、第2テキストを表層文字、形態素(品詞)の組み合わせ、及び読みの文字列の各値に展開する。
次に、推定部23は、文字列(表層文字)単位、形態素単位、及び読み単位それぞれで、第1テキストに対する第2テキストのスキャンを行い、第1テキスト内から第2テキストに一致又は類似する文字列(類似ブロック)を探索する。
そして推定部23は、類似ブロックが探索された場合、当該類似ブロックでの第2テキストとの文字列(表層文字)単位、形態素単位、及び読み単位それぞれでの類似度を算出し、算出した各類似度を統合し、テキスト類似度とする。各類似度の統合には、例えば、数式(1)を用いればよい。
TextSim(a,b)=Sim_S(a,b)+Sim_M(a,b)+Sim_R(a,b) …(1)
ここで、aは、第2テキストを示す。bは、第1テキスト内の類似ブロックを示す。Sim_S(a,b)は、aとbとの文字列(表層文字)単位での類似度を示す。Sim_M(a,b)は、aとbとの形態素単位での類似度を示す。Sim_R(a,b)は、aとbとの読み単位での類似度を示す。TextSim(a,b)は、テキスト類似度を示す。
また第1実施形態では、推定部23は、音声波形などの音響情報を用いて音声間のマッチング位置を認識するボイストリガなどの公知技術を用いて、第1発話音声と第2発話音声との音響マッチングを行い、音響類似度を算出する。なお、推定部23は、第1発話音声の比較区間(第2発話音声との比較が行われる第1発話音声の区間)をずらしながら第2発話音声との音響マッチングを行い、各比較区間での音響類似度を算出する。
そして推定部23は、テキストマッチングの結果と音響マッチングの結果とに基づいて、第1テキストに含まれる文字列のうち、第2テキストとの類似度が閾値以上の文字列を修正対象文字列に推定する。
具体的には、推定部23は、算出したテキスト類似度毎に、当該テキスト類似度と、当該テキスト類似度の類似ブロックに対応する比較区間での音響類似度と、を統合し、推定類似度とする。テキスト類似度と音響類似度との統合には、例えば、数式(2)を用いればよい。
MergeSim(a,b)=TextSim(a,b)+VoiceSim(a’,b’)…(2)
ここで、a’は、第2発話音声を示す。b’は、類似ブロックに対応する第1発話音声内の比較区間を示す。VoiceSim(a’,b’)は、a’とb’との音響類似度を示す。MergeSim(a,b)は、推定類似度を示す。
例えば推定部23は、推定類似度が閾値以上となる類似ブロックの文字列を修正対象文字列に推定する。なお第1実施形態では、推定類似度が閾値以上となる類似ブロックが1つである場合を想定して説明する。
なお、第1テキストが図3に示す第1テキスト51であり、第2テキストが図4に示す第2テキスト53である場合、推定部23は、このように修正対象文字列を推定することで、第1テキスト51から修正対象文字列52を推定する。
更新部25は、生成部15により生成された第1字幕画像を、第1テキストにおいて修正対象文字列が第2テキストに置き換えられることが示された第2字幕画像に更新する。
図5は、第1実施形態の第2字幕画像の一例を示す図である。図5に示す例では、第2字幕画像上に第1テキスト51が表示されている。また、図5に示す例では、第1テキスト51内の修正対象文字列52がハイライトされて表示されている。また、図5に示す例では、リスピーク表示として第2テキスト53が表示されるとともに、修正対象文字列52が第2テキスト53に置き換えられることが示されている。
但し、第2字幕画像の表示態様は、これに限定されるものではなく、例えば、修正対象文字列52を第2テキスト53に予め置き換えておいてもよいし、図5に示すような表示を一定時間行った後に修正対象文字列52を第2テキスト53に置き換えるようにしてもよい。
第2出力部27は、更新部25により更新された第2字幕画像を出力する。第1実施形態では、第2出力部27は、各端末装置20に第2字幕画像を出力する。
これにより、各端末装置20では、第2字幕画像が表示される。このように第1実施形態では、第1字幕画像が示す第1テキストに認識誤りがある場合には、当該認識誤りを修正した第2字幕画像が各端末装置20に配信されるため、聴講者は、字幕画像から講演内容を正しく理解することができる。
図6は、第1実施形態の音声認識誤り修正装置10で行われる処理の流れの一例を示すフローチャートである。
まず、第1取得部11は、端末装置20−1から、第1発話者の第1発話音声として、講演者の講演内容の発話音声を取得する(ステップS101)。
続いて、第1認識部13は、第1取得部11により取得された第1発話音声を音声認識処理により認識し、第1発話音声の内容を第1テキストに変換する(ステップS103)。
続いて、生成部15は、第1認識部13により変換された第1テキストを示す第1字幕画像を生成する(ステップS105)。
続いて、第1出力部17は、生成部15により生成された第1字幕画像を各端末装置20に出力する(ステップS107)。
続いて、第2取得部19が、端末装置20−2から、第2発話者の第2発話音声として、修正対象文字列を修正するための修正者の発話音声を取得すると(ステップS109でYes)、第2認識部21は、第2取得部19により取得された第2発話音声を音声認識処理により認識し、第2発話音声の内容を第2テキストに変換する(ステップS111)。
続いて、推定部23は、第1テキスト内の修正対象文字列を推定する推定処理を行う(ステップS113)。なお、推定処理の詳細については、後述する。
続いて、更新部25は、生成部15により生成された第1字幕画像を、第1テキストにおいて修正対象文字列が第2テキストに置き換えられることが示された第2字幕画像に更新する(ステップS115)。
続いて、第2出力部27は、更新部25により更新された第2字幕画像を各端末装置20に出力する(ステップS117)。
なお、第2取得部19が、端末装置20−2から、第2発話者の第2発話音声を取得しない場合(ステップS109でNo)、ステップS111以降の処理は行われない。
図7は、図6に示すフローチャートのステップS113の推定処理の流れの一例を示すフローチャートである。
まず、推定部23は、第1認識部13から第1テキストを取得する(ステップS121)。なお、推定部23は、生成部15から第1テキストを取得してもよい。
続いて、推定部23は、第2認識部21から第2テキストを取得する(ステップS123)。
続いて、推定部23は、第1テキスト及び第2テキストそれぞれに対し、形態素解析処理を施し、第1テキスト及び第2テキストそれぞれから形態素情報を取得する(ステップS125)。
続いて、推定部23は、第1テキスト及び第2テキストそれぞれに対し、読み推定処理を施し、第1テキスト及び第2テキストそれぞれから読み情報を取得する(ステップS127)。
続いて、推定部23は、第1テキストの形態素情報及び読み情報、並びに第2テキストの形態素情報及び読み情報を用いて、第1テキストと第2テキストとのテキストマッチング処理を行う(ステップS129)。
ここで、図8を参照しながら、テキストマッチング処理を説明する。図8は、図7に示すフローチャートのステップS129のテキストマッチング処理の流れの一例を示すフローチャートである。
まず、推定部23は、第1テキストの形態素情報及び読み情報を用いて、第1テキストを表層文字、形態素(品詞)の組み合わせ、及び読みの文字列の各値に展開するとともに、第2テキストの形態素情報及び読み情報を用いて、第2テキストを表層文字、形態素(品詞)の組み合わせ、及び読みの文字列の各値に展開しておく。
続いて、推定部23は、文字列(表層文字)単位で、第1テキストに対する第2テキストのスキャンを行い、第1テキスト内から第2テキストに一致又は類似する文字列(類似ブロック)を探索する(ステップS141)。
続いて、推定部23は、形態素単位で、第1テキストに対する第2テキストのスキャンを行い、第1テキスト内から第2テキストに一致又は類似する文字列(類似ブロック)を探索する(ステップS143)。
続いて、推定部23は、読み単位で、第1テキストに対する第2テキストのスキャンを行い、第1テキスト内から第2テキストに一致又は類似する文字列(類似ブロック)を探索する(ステップS145)。
続いて、推定部23は、探索された類似ブロック毎に、当該類似ブロックでの第2テキストとの文字列(表層文字)単位、形態素単位、及び読み単位それぞれでの類似度を算出し、算出した各類似度を統合することで、テキスト類似度を算出する(ステップS147)。
続いて、図7に戻り、推定部23は、第1認識部13から第1発話音声を取得するとともに、第2認識部21から第2発話音声を取得し、音響マッチング処理を行う(ステップS131)。具体的には、推定部23は、第1発話音声の比較区間(第2発話音声との比較が行われる第1発話音声の区間)をずらしながら第2発話音声との音響マッチングを行い、各比較区間での音響類似度を算出する。
続いて、推定部23は、算出したテキスト類似度毎に、当該テキスト類似度と、当該テキスト類似度の類似ブロックに対応する比較区間での音響類似度と、を統合することで両マッチング処理結果を統合し、推定類似度とする(ステップS133)。
続いて、推定部23は、統合結果である推定類似度に基づいて、第1テキスト内の修正対象文字列を推定する(ステップS135)。例えば推定部23は、推定類似度が閾値以上となる類似ブロックの文字列を修正対象文字列に推定する。
以上のように第1実施形態によれば、発話者が発話した音声を認識して字幕として出力する場合の認識誤りを、認識誤りを修正するための正しい内容を復唱(リスピーク)するだけで修正できるため、認識誤りの修正を簡易化でき、作業の手間やコストが削減できる。
また第1実施形態の手法では、テキストマッチングや音響マッチングにより言語的な特徴や音響的な特徴を利用して認識誤り箇所を自動で推定するため、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力を省略することが可能となる。
特に第1実施形態の手法では、文字列(表層文字)単位、形態素単位、及び読み単位それぞれで、テキストマッチングを行うため、固定された単位ではなく様々な単位で修正対象文字列(の範囲)を推定することができる。
例えば、図9に示す例では、第2テキスト63が名詞であるため、第1テキスト61の中から名詞に相当する修正対象文字列62を推定しており、品詞の出現類似性で修正対象文字列(の範囲)を推定することができている。
また例えば、図10に示す例では、第2テキスト66に対し、第1テキスト64の中から修正対象文字列65を推定しており、形態素単位での読みの文字列の類似性で修正対象文字列(の範囲)を推定することができている。
また例えば、図11に示す例では、第2テキスト69に対し、第1テキスト67の中から修正対象文字列68を推定しており、文字列の距離と当該文字列に含まれる品詞内容の類似性で修正対象文字列(の範囲)を推定することができている。
このように第1実施形態の手法では、認識誤り箇所の選択かつ認識誤り箇所の文字列を修正するための手入力が不要であるため、ある程度のスキルを要する修正者でなくても認識誤りの修正を行うことが可能であり、万人が認識誤りの修正を行うことが可能となる。
このため、これまで特別な会議や講演、授業などでしか情報保障をサポートできなかった状況でも、より多くの人が簡単にサポートに回ることができ、字幕の精度を高めることが可能となる。
(第2実施形態)
第2実施形態では、第1テキスト内に第2テキストへの置き換え候補となる文字列が複数存在する場合について説明する。以下では、第1実施形態との相違点の説明を主に行い、第1実施形態と同様の機能を有する構成要素については、第1実施形態と同様の名称・符号を付し、その説明を省略する。
図12は、第2実施形態の音声認識誤り修正装置110の一例を示す構成図である。図12に示すように、第2実施形態の音声認識誤り修正装置110では、推定部123、更新部125、第2出力部127、及び受付部129が、第1実施形態と相違する。
なお、受付部129は、CPUなどの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、ICなどのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。
推定部123は、第1認識部13により変換された第1テキストに第2認識部21により変換された第2テキストとの類似度が閾値以上となる文字列が複数含まれる場合、当該複数の文字列それぞれを修正候補文字列に推定する。
更新部125は、生成部15により生成された第1字幕画像を、第1テキストにおいて複数の修正候補文字列の中から第2テキストに置き換えられる修正候補文字列を修正者に選択させるための選択画像に更新する。
図13は、第2実施形態の選択画像の一例を示す図である。図13に示す例では、選択画像上に第1テキスト151が表示されている。また、図13に示す例では、リスピーク表示として第2テキスト154が表示されている。また、図13に示す例では、第2テキスト154に置き換えられる候補となる修正候補文字列152、153が含まれている。なお、修正候補文字列152、153をハイライトして表示するようにしてもよい。
第2出力部127は、更新部125により更新された選択画像を出力する。第2実施形態では、第2出力部127は、修正者が使用する端末装置20−2に選択画像を出力する。
受付部129は、第2テキストに置き換えられる修正候補文字列を選択画像上で選択する選択入力を受け付ける。第2実施形態では、受付部129は、端末装置20−2から、選択入力として、第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチする入力(選択画像上のタッチされた位置の位置座標の入力)を受け付ける。
例えば、受付部129は、図14に示すように、修正者がタッチペン201などで修正候補文字列152の近傍位置155を選択画像上でタッチ(ポインティング、又はタップ)する入力を受け付ける。
推定部123は、複数の修正候補文字列のうち、受付部129により受け付けられた選択入力により選択された修正候補文字列を修正対象文字列に推定する。第2実施形態では、推定部123は、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を修正対象文字列に推定する。修正候補文字列と選択入力によりタッチされた位置との距離に応じたスコアは、例えば、数式(3)により求められる。このため、このスコアを用いることで、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を特定できる。
Score(x)=1(sqrt(2pi))exp(−x/2) …(3)
なお、xの値は、数式(4)に示す通りである。
x=ポインティングされた位置から修正候補文字列までの距離(px)/修正候補文字列のフォントサイズ(px) …(4)
従って、図13に示す例の場合であれば、近傍位置155は、修正候補文字列153よりも修正候補文字列152の方が近いため、推定部123は、修正候補文字列152を修正対象文字列に推定する。
更新部125は、選択画像を、第1テキストにおいて修正対象文字列が第2テキストに置き換えられることが示された第2字幕画像に更新する。
図15は、第2実施形態の第2字幕画像の一例を示す図である。図15に示す例では、第2字幕画像上に、第1テキスト151に含まれる修正候補文字列152が、第2テキスト154を漢字に変換した第2テキスト157に置き換えられた第1テキスト156が表示されている。
第2出力部127は、更新部125により更新された第2字幕画像を出力する。第2実施形態では、第2出力部127は、各端末装置20に第2字幕画像を出力する。
図16は、第2実施形態の音声認識誤り修正装置110で行われる処理の流れの一例を示すフローチャートである。
まず、ステップS201〜S213までの処理は、図6に示すフローチャートのステップS101〜S113までの処理と同様である。
続いて、推定部123は、第1認識部13により変換された第1テキストに第2認識部21により変換された第2テキストとの類似度が閾値以上となる文字列が複数含まれる場合(ステップS215でYes)、当該複数の文字列それぞれを修正候補文字列に推定する。そして更新部125は、生成部15により生成された第1字幕画像を、第1テキストにおいて複数の修正候補文字列の中から第2テキストに置き換えられる修正候補文字列を修正者に選択させるための選択画像に更新する(ステップS217)。
続いて、第2出力部127は、更新部125により更新された選択画像を端末装置20−2に出力する(ステップS219)。
続いて、受付部129は、端末装置20−2から、選択入力として、第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチする入力(選択画像上のタッチされた位置の位置座標の入力)を受け付ける(ステップS221)。
続いて、推定部123は、複数の修正候補文字列のうち、選択入力によりタッチされた位置に近い方の修正候補文字列を修正対象文字列に推定する(ステップS223)。
以降のステップS225〜S227までの処理は、図6に示すフローチャートのステップS115〜S117までの処理と同様である。
なおステップS215において、推定部123は、第1認識部13により変換された第1テキストに第2認識部21により変換された第2テキストとの類似度が閾値以上となる文字列が単数である場合(ステップS215でNo)、当該文字列を修正対象文字列に推定し、ステップS225へ進む。
以上のように第2実施形態によれば、第2テキストにより置き換えられる候補となる文字列が第1テキスト内に複数存在する場合であっても、修正者が意図した文字列を第2テキストに置き換えることができる。
特に第2実施形態によれば、修正者は、修正対象となる認識誤り箇所を正確に選択する必要はなく(認識誤り箇所の始点及び終点を厳密に指定する必要はなく)、修正対象となる認識誤り箇所の近傍をタッチ(タップ)するなどの曖昧な指定で足りるため、認識誤り箇所を選択する場合であっても、認識誤り箇所の選択を簡易化することができ、作業の手間やコストが削減できる。
なお第2実施形態では、タッチ(ポインティング、又はタップ)により第2テキストに置き換えられる修正候補文字列を選択する場合を例に取り説明したが、これに限定されず、例えば、タップ及びホールドにより第2テキストに置き換えられる修正候補文字列を選択するようにしてもよい。
(変形例1)
上記第2実施形態では、修正者による第2発話音声の入力の後に、修正者による第2テキストに置き換えられる修正候補文字列の選択が行われる場合を例に取り説明したが、第2発話音声の入力と第2テキストに置き換えられる文字列の選択とを、略同時に行うようにしてもよい。
この場合、修正者は、第2テキストに置き換えられる文字列を第1字幕画像上で選択しながら、第2発話音声を入力するようにすればよい。つまり、第2取得部19による第2発話音声の取得と略同時に、受付部129は、第2テキストに置き換えられる文字列を第1字幕画像上で選択する選択入力を受け付ける。第2実施形態では、受付部129は、端末装置20−2から、選択入力として、第2テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を第1字幕画像上でタッチする入力(第1字幕画像上のタッチされた位置の位置座標の入力)を受け付ける。
そして推定部123は、第1テキストに第2テキストとの類似度が閾値以上となる文字列が複数含まれる場合、選択入力により選択された文字列を修正対象文字列に推定する。第2実施形態では、推定部123は、第2テキストとの類似度が閾値以上となる複数の文字列のうち、選択入力によりタッチされた位置に近い方の文字列を修正対象文字列に推定する。
以上のように変形例1においても、第2実施形態と同様の効果を奏することができる。
(変形例2)
上記第2実施形態において、選択入力を、第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を選択画像上でタッチすることで、当該修正候補文字列を選択する入力としてもよい。
例えば、図17に示すように、修正者がタッチペン201などで修正候補文字列152の近傍位置を選択画像上で最初にタッチ(ポインティング、又はタップ)すると、範囲161が選択される。続いて、図18に示すように、修正者がタッチペン201などで修正候補文字列152の近傍位置を選択画像上でもう一度タッチ(ポインティング、又はタップ)すると、範囲162が選択される。続いて、図19に示すように、修正者がタッチペン201などで修正候補文字列152の近傍位置を選択画像上でもう一度タッチ(ポインティング、又はタップ)すると、範囲163が選択され、修正候補文字列152が選択される。
このように、修正候補文字列152の近傍位置を繰り返しタッチすることで、修正候補文字列152を含む文字列を、範囲を変えながら選択するようにしてもよい。なお、範囲の変更は、形態素単位で縮小させるようにしても拡張させるようにしてもよい。また、タッチで選択範囲を変更し、その後、ダブルタッチ(ダブルタップ)を行うことで、選択範囲に含まれる修正候補文字列を第2テキストに置き換えるようにしてもよい。
同様に変形例1において、選択入力を、第2テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を第1字幕画像上でタッチすることで、当該文字列を選択する入力としてもよい。
(変形例3)
上記第2実施形態において、選択入力を、第2テキストを、当該第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置に移動させる入力とし、推定部123は、複数の修正候補文字列のうち、選択入力により第2テキストが移動された位置に近い方の修正候補文字列を修正対象文字列に推定するようにしてもよい。
例えば、受付部129は、図20に示すように、修正者がタッチペン201などで第2テキスト154を修正候補文字列152の方向171へドラッグ&ドロップする入力を受け付け、推定部123は、複数の修正候補文字列のうち、ドラッグ&ドロップにより第2テキスト154が移動された位置に近い方の修正候補文字列152を修正対象文字列に推定するようにしてもよい。
(ハードウェア構成)
図21は、上記各実施形態及び各変形例の音声認識誤り修正装置のハードウェア構成の一例を示す構成図である。図21に示すように、上記各実施形態及び各変形例の音声認識誤り修正装置は、CPUなどの制御装置901と、ROMやRAMなどの主記憶装置902と、HDDやSSDなどの補助記憶装置903と、ディスプレイなどの表示装置904と、マウスやキーボードなどの入力装置905と、通信装置906とを、備えており、通常のコンピュータを利用したハードウェア構成で実現できる。
上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムは、ROM等に予め組み込んで提供される。
また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供するようにしてもよい。
また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。
上記各実施形態及び各変形例の音声認識誤り修正装置で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、例えば、制御装置901が補助記憶装置903からプログラムを主記憶装置902上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。
以上説明したとおり、上記各実施形態及び各変形例によれば、発話者が発話した音声を認識して字幕として出力する場合の認識誤りの修正を簡易化することができる。
なお本発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
例えば、上記実施形態のフローチャートにおける各ステップを、その性質に反しない限り、実行順序を変更し、複数同時に実施し、あるいは実施毎に異なった順序で実施してもよい。
1、110 音声認識誤り修正システム
2 ネットワーク
10 音声認識誤り修正装置
20−1〜20−N(20) 端末装置
11 第1取得部
13 第1認識部
15 生成部
17 第1出力部
19 第2取得部
21 第2認識部
23、123 推定部
25、125 更新部
27、127 第2出力部
129 受付部
901 制御装置
902 主記憶装置
903 外部記憶装置
904 表示装置
905 入力装置
906 通信装置

Claims (12)

  1. 第1発話者の第1発話音声を取得する第1取得部と、
    前記第1発話音声を認識し、第1テキストに変換する第1認識部と、
    前記第1テキストを示す第1字幕画像を出力する第1出力部と、
    前記第1テキストに含まれる修正対象文字列を修正するための第2発話者の第2発話音声を取得する第2取得部と、
    前記第2発話音声を認識し、第2テキストに変換する第2認識部と、
    前記第1テキストと前記第2テキストとのテキストマッチングに基づいて、前記第1テキストに含まれる文字列のうち、前記第2テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定部と、
    前記修正対象文字列が前記第2テキストに置き換えられることを示す第2字幕画像を出力する第2出力部と、
    を備える音声認識誤り修正装置。
  2. 前記推定部は、前記第1発話音声と前記第2発話音声との音響マッチングに更に基づいて、前記修正対象文字列を推定する請求項1に記載の音声認識誤り修正装置。
  3. 前記推定部は、前記テキストマッチングと前記音響マッチングとに基づいて、前記第1テキストに含まれる文字列のうち、前記第2テキストとの類似度が閾値以上の文字列を前記修正対象文字列に推定する請求項2に記載の音声認識誤り修正装置。
  4. 前記推定部は、前記第1テキストに前記第2テキストとの類似度が閾値以上となる文字列が複数含まれる場合、当該複数の文字列それぞれを修正候補文字列に推定し、
    前記第2出力部は、前記第1テキストにおいて前記複数の修正候補文字列の中から前記第2テキストに置き換えられる修正候補文字列を前記第2発話者に選択させるための選択画像を出力し、
    前記第2テキストに置き換えられる修正候補文字列を前記選択画像上で選択する選択入力を受け付ける受付部を更に備え、
    前記推定部は、前記複数の修正候補文字列のうち、前記選択入力により選択された修正候補文字列を前記修正対象文字列に推定し、
    前記第2出力部は、前記第1テキストにおいて前記修正対象文字列が前記第2テキストに置き換えられることが示された前記第2字幕画像を出力する請求項3に記載の音声認識誤り修正装置。
  5. 前記選択入力は、前記第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を前記選択画像上でタッチする入力であり、
    前記推定部は、前記複数の修正候補文字列のうち、前記選択入力によりタッチされた位置に近い方の修正候補文字列を前記修正対象文字列に推定する請求項4に記載の音声認識誤り修正装置。
  6. 前記選択入力は、前記第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置を前記選択画像上でタッチすることで、当該修正候補文字列を選択する入力である請求項4に記載の音声認識誤り修正装置。
  7. 前記選択入力は、前記第2テキストを、当該第2テキストに置き換えられる修正候補文字列上の位置又は当該修正候補文字列の近傍位置に移動させる入力であり、
    前記推定部は、前記複数の修正候補文字列のうち、前記選択入力により前記第2テキストが移動された位置に近い方の修正候補文字列を前記修正対象文字列に推定する請求項4に記載の音声認識誤り修正装置。
  8. 前記第2テキストに置き換えられる文字列を前記第1字幕画像上で選択する選択入力を受け付ける受付部を更に備え、
    前記推定部は、前記第1テキストに前記第2テキストとの類似度が閾値以上となる文字列が複数含まれる場合、前記選択入力により選択された文字列を前記修正対象文字列に推定する請求項3に記載の音声認識誤り修正装置。
  9. 前記選択入力は、前記第2テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を前記第1字幕画像上でタッチする入力であり、
    前記推定部は、前記第2テキストとの類似度が閾値以上となる複数の文字列のうち、前記選択入力によりタッチされた位置に近い方の文字列を前記修正対象文字列に推定する請求項7に記載の音声認識誤り修正装置。
  10. 前記選択入力は、前記第2テキストに置き換えられる文字列上の位置又は当該文字列の近傍位置を前記第1字幕画像上でタッチすることで、当該文字列を選択する入力である請求項7に記載の音声認識誤り修正装置。
  11. 第1発話者の第1発話音声を取得する第1取得ステップと、
    前記第1発話音声を認識し、第1テキストに変換する第1認識ステップと、
    前記第1テキストを示す第1字幕画像を出力する第1出力ステップと、
    前記第1テキストに含まれる修正対象文字列を修正するための第2発話者の第2発話音声を取得する第2取得ステップと、
    前記第2発話音声を認識し、第2テキストに変換する第2認識ステップと、
    前記第1テキストと前記第2テキストとのテキストマッチングに基づいて、前記第1テキストに含まれる文字列のうち、前記第2テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定ステップと、
    前記修正対象文字列が前記第2テキストに置き換えられることを示す第2字幕画像を出力する第2出力ステップと、
    を含む音声認識誤り修正方法。
  12. 第1発話者の第1発話音声を取得する第1取得ステップと、
    前記第1発話音声を認識し、第1テキストに変換する第1認識ステップと、
    前記第1テキストを示す第1字幕画像を出力する第1出力ステップと、
    前記第1テキストに含まれる修正対象文字列を修正するための第2発話者の第2発話音声を取得する第2取得ステップと、
    前記第2発話音声を認識し、第2テキストに変換する第2認識ステップと、
    前記第1テキストと前記第2テキストとのテキストマッチングに基づいて、前記第1テキストに含まれる文字列のうち、前記第2テキストとの類似度が閾値以上の文字列を前記修正対象文字列として推定する推定ステップと、
    前記修正対象文字列が前記第2テキストに置き換えられることを示す第2字幕画像を出力する第2出力ステップと、
    をコンピュータに実行させるためのプログラム。

JP2016052983A 2016-03-16 2016-03-16 音声認識誤り修正装置、方法及びプログラム Active JP6605995B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016052983A JP6605995B2 (ja) 2016-03-16 2016-03-16 音声認識誤り修正装置、方法及びプログラム
US15/387,367 US10614265B2 (en) 2016-03-16 2016-12-21 Apparatus, method, and computer program product for correcting speech recognition error

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016052983A JP6605995B2 (ja) 2016-03-16 2016-03-16 音声認識誤り修正装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017167368A JP2017167368A (ja) 2017-09-21
JP6605995B2 true JP6605995B2 (ja) 2019-11-13

Family

ID=59846997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016052983A Active JP6605995B2 (ja) 2016-03-16 2016-03-16 音声認識誤り修正装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US10614265B2 (ja)
JP (1) JP6605995B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6678545B2 (ja) 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム
JP6672209B2 (ja) 2017-03-21 2020-03-25 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
JP6728116B2 (ja) 2017-09-21 2020-07-22 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
WO2019130538A1 (ja) * 2017-12-28 2019-07-04 マクセル株式会社 入力情報修正方法及び情報端末
KR102272567B1 (ko) * 2018-02-26 2021-07-05 주식회사 소리자바 음성 인식 수정 시스템
KR102345625B1 (ko) 2019-02-01 2021-12-31 삼성전자주식회사 자막 생성 방법 및 이를 수행하는 장치
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
JP7268449B2 (ja) * 2019-03-29 2023-05-08 京セラドキュメントソリューションズ株式会社 表示制御装置、表示制御方法、及び表示制御プログラム
JP7326931B2 (ja) * 2019-07-02 2023-08-16 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
CN110796140B (zh) * 2019-10-17 2022-08-26 北京爱数智慧科技有限公司 一种字幕检测方法和装置
US11562743B2 (en) * 2020-01-29 2023-01-24 Salesforce.Com, Inc. Analysis of an automatically generated transcription
JP6841535B1 (ja) 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
KR20210120286A (ko) * 2020-03-26 2021-10-07 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 대화 시스템의 제어 방법
KR20210149969A (ko) * 2020-06-02 2021-12-10 삼성전자주식회사 컨텐츠를 수정하기 위한 전자 장치 및 방법
CN112036135B (zh) * 2020-11-06 2021-03-02 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
KR20220124547A (ko) * 2021-03-03 2022-09-14 삼성전자주식회사 사용자의 음성 입력을 정정하는 전자 장치 및 그 동작 방법
US11810573B2 (en) * 2021-04-23 2023-11-07 Comcast Cable Communications, Llc Assisted speech recognition

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04254896A (ja) * 1991-02-07 1992-09-10 Seiko Epson Corp 音声認識訂正装置
JPH05143593A (ja) * 1991-11-15 1993-06-11 Ricoh Co Ltd 文字列修正方式
JP2000010586A (ja) * 1998-06-22 2000-01-14 Nec Corp 音声認識応答装置及び認識結果確認方法
JP2000029492A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
JP2001060192A (ja) * 1999-08-20 2001-03-06 Nippon Hoso Kyokai <Nhk> 文字データ修正装置および記憶媒体
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
JP4604377B2 (ja) * 2001-03-27 2011-01-05 株式会社デンソー 音声認識装置
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
JP3986009B2 (ja) 2002-11-01 2007-10-03 日本放送協会 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
JP2004207821A (ja) 2002-12-24 2004-07-22 Nippon Hoso Kyokai <Nhk> 字幕放送受信装置、字幕放送受信方法及び字幕放送受信プログラム
US10733976B2 (en) * 2003-03-01 2020-08-04 Robert E. Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
JP2004334133A (ja) 2003-05-12 2004-11-25 National Institute Of Information & Communication Technology 字幕番組データ制作システム
CN1879146B (zh) * 2003-11-05 2011-06-08 皇家飞利浦电子股份有限公司 用于语音到文本的转录系统的错误检测
JP4448477B2 (ja) 2004-12-28 2010-04-07 株式会社テレビ朝日データビジョン 字幕付き映像信号の遅延制御装置及び遅延制御プログラム
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
JP4542974B2 (ja) 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20070126926A1 (en) 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
US7756710B2 (en) * 2006-07-13 2010-07-13 Sri International Method and apparatus for error correction in speech recognition applications
JP2008051895A (ja) 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
JP5014184B2 (ja) 2007-01-31 2012-08-29 パナソニック株式会社 データ編集装置、データ編集プログラム及び再生装置
US8041565B1 (en) * 2007-05-04 2011-10-18 Foneweb, Inc. Precision speech to text conversion
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US9099089B2 (en) * 2012-08-02 2015-08-04 Audible, Inc. Identifying corresponding regions of content
KR102045382B1 (ko) * 2013-02-13 2019-11-15 삼성전자주식회사 휴대 단말기에서 문자를 편집하는 장치 및 방법
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
JP6192104B2 (ja) 2013-09-13 2017-09-06 国立研究開発法人情報通信研究機構 テキスト編集装置及びプログラム
US9514743B2 (en) * 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
JP6678545B2 (ja) * 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム

Also Published As

Publication number Publication date
US10614265B2 (en) 2020-04-07
US20170270086A1 (en) 2017-09-21
JP2017167368A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
JP6605995B2 (ja) 音声認識誤り修正装置、方法及びプログラム
USRE49762E1 (en) Method and device for performing voice recognition using grammar model
JP7111682B2 (ja) 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US8504350B2 (en) User-interactive automatic translation device and method for mobile device
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
US9558733B1 (en) Audibly indicating secondary content with spoken text
US10025772B2 (en) Information processing apparatus, information processing method, and program
US10276150B2 (en) Correction system, method of correction, and computer program product
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2008268478A (ja) アクセント調整可能な音声合成装置
JPWO2018043137A1 (ja) 情報処理装置及び情報処理方法
KR20170132643A (ko) 문자 디스플레이 방법 및 그 장치
CN113268981A (zh) 一种信息处理方法、装置及电子设备
JP5008248B2 (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
US11544301B2 (en) Identification method with multi-type input and electronic device using the same
JP2022511139A (ja) 情報処理方法、装置および記憶媒体
CN110782899A (zh) 信息处理装置、存储介质及信息处理方法
US20210217437A1 (en) Method and apparatus for processing voice
CN113393864A (zh) 一种口语发音纠正方法、装置、设备及存储介质
CN112685126A (zh) 文档内容显示方法及装置
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법
JP2020118872A (ja) 情報入力システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191017

R151 Written notification of patent or utility model registration

Ref document number: 6605995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151