JP2011002656A - 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム - Google Patents

音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム Download PDF

Info

Publication number
JP2011002656A
JP2011002656A JP2009145519A JP2009145519A JP2011002656A JP 2011002656 A JP2011002656 A JP 2011002656A JP 2009145519 A JP2009145519 A JP 2009145519A JP 2009145519 A JP2009145519 A JP 2009145519A JP 2011002656 A JP2011002656 A JP 2011002656A
Authority
JP
Japan
Prior art keywords
recognition result
speech recognition
correct
correctness
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009145519A
Other languages
English (en)
Inventor
Hitoshi Yamamoto
山本  仁
Seiichi Miki
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009145519A priority Critical patent/JP2011002656A/ja
Publication of JP2011002656A publication Critical patent/JP2011002656A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識誤り処理装置では、認識誤りの自動検出を誤りなく行うことは困難である。
【解決手段】本発明による音声認識結果修正候補検出装置200は、処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶手段201と、処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶手段202と、処理対象の音声認識結果のうち、編集事例と正誤判定結果とが一致するものの中から、編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出手段203とを含むことを特徴とする。
【選択図】図10

Description

本発明は、音声を文字列に変換する音声書き起こし支援装置、音声書き起こし支援方法及び音声書き起こし支援プログラムに関する。また、本発明は、音声認識結果の正誤を判定する音声認識結果修正候補検出装置に関する。
例えば、議会の議事録作成や、ニュース放送の字幕作成などの場面では、音声の発話内容を表す文字列である「書き起こし」を人手によって作成する音声書き起こし作業が行われている。この作業を行う作業者を支援するための装置として、対象音声を自動音声認識処理した結果として得られるテキスト(文字データ)などの種々の情報を用いる音声書き起こし支援装置が知られている。音声書き起こし支援装置を使用する作業者は、音声を聞きながら、それに対応する音声書き起こし支援装置による認識結果であるテキスト(文字データ)を見て、認識誤りの部分を発見し、正しいテキスト(文字データ)に修正する。
このような、自動音声認識機能を用いる音声書き起こし支援装置では、自動音声認識の結果として得られるテキストにしばしば含まれる認識誤りを、作業者が効率よく修正できるように工夫することが重要である。この目的のために、一般に、自動音声認識による認識誤りを自動的に検出して修正箇所の候補として作業者に提示し、修正箇所を発見しやすくすることにより、修正作業を支援する技術が知られている。このような技術を備える装置として、例えば、特許文献1に記載されている音声認識誤り処理装置がある。
特開2002−162992号公報(第6頁、図1)
しかしながら、特許文献1に記載されている音声認識誤り処理装置を用いたとしても、必ずしも認識誤りを正しく検出できるとは限らない。そのため、認識誤りの自動検出に失敗した場合には、作業者の書き起こし作業を支援する効果を損なうおそれがある。例えば、このような装置が、修正候補として、自動音声認識処理の結果が正しく修正が不要である箇所を提示すると、作業者が、誤った提示情報に注意を奪われるがために本来修正すべき箇所を見逃してしまうことがある。そのため、このような場合には、かえって作業効率を低下させるおそれがある。
また、特許文献1に記載された装置を用いても、認識誤りの自動検出の失敗が多い場合には、提示される修正箇所の信頼性が低いため、作業者は、結果的に認識結果のテキスト全体を注意深く確認しなければならない。そのため、作業者にとって、修正箇所の提示がない場合よりも作業の負担が重くなる可能性もある。これらの装置では、認識誤りの自動検出を誤りなく行うことは困難であるため、このような問題を避けることは難しい。
本発明は、上記課題を解決するためになされたものであって、音声書き起こしの作成に際し、修正候補となる箇所を高い精度で検出し、作業者の修正作業の負担を軽減する音声認識結果修正候補検出装置、音声書き起こし支援装置、音声書き起こし支援方法及び音声書き起こし支援プログラムを提供することを目的とする。
本発明による音声書き起こし支援装置は、処理対象の音声認識結果の正誤を判定する正誤判定手段と、正誤判定手段による正誤判定結果と、処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出手段とを備えたことを特徴とする。
本発明による音声認識結果修正候補検出装置は、処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶手段と、処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶手段と、処理対象の音声認識結果のうち、編集事例と正誤判定結果とが一致するものの中から、編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出手段とを含むことを特徴とする。
本発明による音声書き起こし支援方法は、処理対象の音声認識結果の正誤を判定する正誤判定ステップと、正誤判定ステップにおける正誤判定結果と、処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出ステップとを含むことを特徴とする。
本発明による音声書き起こし支援プログラムは、コンピュータに、処理対象の音声認識結果の正誤を判定する正誤判定処理と、正誤判定処理による正誤判定結果と、処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出処理とを実行させることを特徴とする。
本発明によれば、音声書き起こしの作成に際し、修正候補となる箇所を高い精度で検出し、作業者の修正作業の負担を軽減することができる。
本発明による音声書き起こし支援装置の構成例を示すブロック図である。 第1の実施形態にかかる音声書き起こし支援装置の動作の一例を示すフローチャートである。 線形識別器で用いる特徴(素性)fの例を示す説明図である。 編集事例の表現例を示す説明図である。 音声書き起こし作業者に提示する画面の例を示す説明図である。 音声書き起こし作業者に提示する画面の例を示す説明図である。 音声書き起こし作業者に提示する画面の例を示す説明図である。 本発明による第2の実施形態にかかる音声書き起こし支援装置の構成例を示すブロック図である。 第2の実施形態にかかる音声書き起こし支援装置の動作の一例を示すフローチャートである。 本発明による音声認識結果修正候補検出装置の最小の構成例を示すブロック図である。 本発明による音声書き起こし支援装置の最小の構成例を示すブロック図である。
第1の実施形態.
以下、本発明の第1の実施形態について図面を参照して説明する。音声書き起こし支援装置101は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
音声書き起こし支援装置101は、図示しない中央処理装置(CPU)、記憶装置(例えば、メモリやハードディスク駆動装置)、入力装置及び出力装置を搭載する。例えば、音声書き起こし支援装置101は、入力されたデータを、CPUを用いて情報処理を行うものであればよい。例えば、音声書き起こし支援装置101は、プログラムに従って動作するパーソナルコンピュータ(PC)やサーバ装置などのような、ハードウェアとソフトウェアとの任意の組み合わせによって実現されていてもよい。この他にも、音声書き起こし支援装置101は、例えば、ネットワーク接続用インタフェース等の各種インタフェースを搭載していてもよい。そして、その実現方法と装置にはいろいろな変形例があることは、当業者には理解されるところである。
出力装置は、画像情報用の出力装置と音声情報用の出力装置とを含む。出力装置は、CPUにより出力された画像情報に基づいて、文字および図形を含む画像を、例えば、ディスプレイ装置に表示させる機能を備えている。また、出力装置は、CPUにより生成された音声情報に基づいて、音声をスピーカやヘッドホンから出力させる機能を備えている。
入力装置は、音声書き起こし支援装置101に各種データを入力するための装置であり、より具体的には、データ入力装置およびその入力を受け付ける制御部によって実現される。本実施形態では、音声書き起こし支援装置101は、作業者操作用の入力装置と音声情報用の入力装置とを備える。音声書き起こし支援装置101は、キーボードおよびマウスを介して、作業者の操作に基づく情報が入力されるように構成されている。また、音声書き起こし支援装置101は、マイクロホンを介して、マイクロホンの周囲(すなわち音声書き起こし支援装置101の外部)の音声を表す音声情報が入力されるように構成されている。また、音声書き起こし支援装置101は、データ記憶媒体やネットワークなどを介して、あらかじめ録音されていた音声情報が入力されるように構成されていてもよい。
なお、本実施形態では、音声書き起こし支援装置101は、外部から入力装置を介して入力される音声情報および音声認識結果の修正情報を入力情報とし、音声認識結果および修正箇所の候補を出力情報として出力するように構成されている。
図1は、本発明による音声書き起こし支援装置101の構成例を示すブロック図である。図1に示すように、音声書き起こし支援装置101は、音声認識部11と、音声認識結果記憶部12と、正誤判定部21と、正誤判定モデル記憶部22と、正誤判定結果記憶部23と、修正候補検出部31と、認識結果表示制御部41と、編集事例取得部42と、編集事例記憶部43とを含む。なお、本実施形態において、音声認識結果修正候補検出装置は、正誤判定装置100に相当し、具体的には、正誤判定結果記憶部23、修正候補検出部31及び編集事例記憶部43によって実現される。
音声認識部11は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声認識部11は、外部から入力装置(図示せず)を介して音声情報を受け取り(入力し)、音声情報を認識する自動音声認識処理を行う機能を備えている。また、音声認識部11は、音声情報に対応する音声認識結果を、音声認識結果記憶部12に出力する(記憶させる)機能を備えている。
音声認識部11は、音声認識処理において、入力された音声情報に対して、例えば、音声認識を行うためのモデル(例えば、音響モデルや言語モデル、単語辞書等を含む)の与えるスコアに従って、音声情報に適合する単語列を探索するといった一般的な処理を行う。ここで、音声認識部11は、例えば、音響モデルとして、隠れマルコフモデルを用い、言語モデルとして、単語トライグラムなどを用いるようにしてもよい。なお、音声書き起こし支援装置101は、これらの音声認識モデルを予めハードディスク装置等の記憶装置に記憶している。
音声認識部11は、音声認識結果として、例えば、1つの単語列として表現した結果情報を出力する。また、音声認識部11は、音声認識結果として、例えば、複数の単語列を含む単語グラフやNベスト単語列の形式で表現した結果情報を出力するようにしてもよい。また、音声認識部11は、音声認識結果として、音声認識結果の各単語が、入力された音声情報のどの区間に対応するかを表す時間情報を含むように表現した結果情報を出力するようにしてもよい。
正誤判定部21は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。正誤判定部21は、音声認識部11が音声認識結果記憶部12に入力した(記憶させた)音声認識結果から、正誤判定に関わる特徴を示す特徴情報を抽出する機能を備えている。また、正誤判定部21は、正誤判定モデル記憶部22が記憶する正誤判定モデルを参照して求めた(算出した)スコアに基づいて、音声認識結果のどの部分が正しく又は誤って認識されたかを判定する機能を備えている。また、正誤判定部21は、判定結果を特徴情報やスコアとともに正誤判定結果記憶部23に出力する(記憶させる)機能を備えている。
正誤判定部21は、例えば、音声認識結果の単語列に含まれる各単語の正誤を判定し、判定結果を出力する。正誤判定部21は、判定処理を適用する単位として、例えば、音声認識結果に含まれるひとつひとつの文字や単語、文節などを用いる。また、正誤判定部21は、判定処理を適用する単位として、入力された音声情報の一部に対応する時間区間を用いるようにしてもよい。なお、正誤判定部21は、判定処理の結果として、例えば、認識結果が「正しい」「誤り」「どちらでもない」というラベルや、それぞれのラベルである度合いを表すスコアなどで表現した判定結果を出力する。
正誤判定モデル記憶部22は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。正誤判定モデル記憶部22は、音声認識結果の正誤とその特徴との関係を示す情報として、正誤判定のための識別モデルのパラメタや規則(ルール)の形式の情報を格納(記憶)する。例えば、音声認識結果の正誤とその特徴との関係は、正誤判定モデルとして線形識別器を用いる場合、それぞれの特徴に対する重み係数として表現される。このとき、正誤判定モデルを次の式(1)のように記述できる。
y=Σ(α・f) …式(1)
式(1)において、yは、出力する正誤判定結果であり、fは、入力される特徴情報のうちi番目の特徴情報がとる値であり、αは、i番目の特徴情報に対応する重み係数(モデルのパラメタ)である。このように、正誤判定モデル記憶部22では、例えば、線形識別器のパラメタの情報を保持(記憶)するようにしてもよい。また、正誤判定モデルとして、例えば、サポートベクタマシンなどを用いてもよい。
本実施形態における音声書き起こし支援装置101では、正誤判定の特徴として、音声認識結果の正解らしさや誤りらしさと関連する性質を有する情報を用いる。このように、多種の特徴情報を用いることにより、音声書き起こし支援装置101は、正誤判定の精度を高めることができる。例えば、音声書き起こし支援装置101は、正誤判定の特徴として、音声認識結果の言語情報や音声認識計算に関する情報を用いてもよい。なお、正誤判定処理の対象となる単位に係る特徴として、処理対象の単位のデータだけでなく、例えば、その前後の単位のデータを用いて抽出することも可能である。
本実施形態における音声書き起こし支援装置101は、音声認識結果の言語情報として、例えば、音声認識結果に含まれる単語の表層や品詞などを用いた情報を出力してもよい。音声書き起こし支援装置101は、単語の表層を特徴情報として用いることで、頻出する音声認識誤り表現(パターン)を扱うことができる。なお、単語の表層とは、単語を構成する漢字・かな・記号などからなる文字列(記号列)のことである。
また、音声認識計算に関する特徴として、例えば、音響尤度や言語尤度などの、音声認識結果のよさを表しうる値を用いるようにしてよい。音声認識結果が誤りの場合には、これらの値が小さいことがあるからである。また、音声認識計算に関する特徴として、例えば、単語グラフから計算(算出)される単語事後確率のように、音声認識結果の信頼性を示しうる尺度を用いるようにしてもよい。また、音声認識計算に関する特徴として、例えば、音声認識計算時に音声認識結果と競合する候補の数を用いてもよい。競合する候補が多い場合には、音声認識を誤ることがあるからである。
以下、音声認識結果の単語列に対して、正誤判定モデルとして線形識別器を用いる場合に、正誤判定部21において音声認識結果の各単語の正誤を判定する方法について具体的に説明する。例えば、ある音声認識結果の単語列に含まれるひとつの単語に着目したときに、その単語には、認識結果として誤っていた場合(又は正しかった場合)に、「前の単語の品詞=助詞」や「その単語の品詞=動詞」、「その単語の事後確率=0.4」、「次の単語の品詞=動詞」といった特徴があるとわかったとする。このような場合には、正誤判定部21は、図3に示すように、これらの特徴を線形識別器で用いる特徴(素性)として表現した情報を求めてもよい。図3は、線形識別器で用いる特徴(素性)fの例を示す説明図である。図3では、「f(前の単語の品詞=助詞)=1」と「f(その単語の品詞=動詞)=1」と「f(その単語の事後確率)=0.4」と「f(次の単語の品詞=動詞)=1」という素性の例が示されている。正誤判定部21は、例えば、これらの素性と、それぞれの素性に対する重みαをかけた値とを求め、その値と所定の閾値との大小関係に基づいて、判定結果を確定する。
編集事例取得部42は、音声書き起こし作業者の入力を受け付けて(入力操作に従って)、取得(入力)した編集事例を編集事例蓄積部43に出力する機能を備えている。編集事例取得部42は、例えば、プログラムに従って動作する情報処理装置のCPU及びキーボードやマウス等の入力装置によって実現される。編集事例取得部42は、例えば、作業者によるキーボード(入力装置)の操作に従って文字列を入力したり、作業者によるマウス(入力装置)操作に従って文字列の範囲を指定したりする機能を備えている。そのため、音声書き起こし作業者は、それらの操作を行うことにより、音声認識結果を修正(編集)することができる。また、編集事例取得部42は、音声認識結果が正しいことを示す情報を入力する機能を備えるようにしてもよい。なお、編集事例とは、例えば、作業者の操作によって削除された音声認識結果(音声認識誤り)を特定するための文字列や時間に関する情報、作業者が入力装置を操作して入力した文字列などの情報である。また、編集事例とは、作業者によって正しいと確認された音声認識結果を特定する情報であってもよい。
図4は、編集事例の表現例を示す説明図である。図4では、「修正前=置き」、「修正後=お聞き」、「始端位置=12.34秒」及び「終端位置=12.59秒」という情報により、編集事例を構成する例が示されている。ここで、編集事例は、修正前と修正後とが異なる場合には、音声認識結果が誤っていたことを示し、同じである場合には、音声認識結果が正しかったことを示す。
修正候補検出部31は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。修正候補検出部31は、音声認識部11が音声認識結果記憶部12に入力した(記憶させた)音声認識結果から、正誤判定結果記憶部23が記憶する正誤判定結果と、編集事例記憶部43が記憶する編集事例とに基づいて、音声認識結果に含まれる修正候補(修正対象の候補となる箇所)を検出する機能を備えている。また、修正候補検出部31は、検出した修正候補(修正対象の候補となる箇所)を認識結果表示制御部41に出力する機能を備えている。
例えば、修正候補検出部31は、修正候補の検出処理において、正誤判定結果を編集した事例を示す情報を用いて、検出対象を絞り込む。このようにすることで、修正候補検出部21は、修正候補となる箇所を高い精度で検出することができる。なお、修正候補検出部31が検出する修正候補(修正対象の候補となる箇所)とは、例えば、音声認識結果であるテキスト中に含まれる単語や句などである。
修正候補検出部31は、検出処理において、例えば、音声認識結果に含まれる単語の中から、編集事例の単語の正誤判定用特徴と類似する正誤判定用特徴を有する単語を検出するようにしてもよい。ここで、検出対象とする音声認識結果とは、編集事例が入力される時点に対して、それよりも前に生成されたもの(過去に蓄積されたもの、認識結果表示制御部41で表示されるもの)でもよいし、それより後に生成されるもの(今後入力されるもの)でもよい。修正候補検出部31は、正誤判定用特徴の類似度として、例えば、共通する素性の数を用いる。また、修正候補検出部31は、正誤判定用特徴の類似度として、例えば、素性ベクトル同士のユークリッド距離やコサイン類似度を用いるようにしてもよい。
以下、修正候補検出部31において、音声認識結果に含まれる単語の中から、編集事例の単語の特徴と類似する特徴を有する単語を検出する方法について具体的に説明する。例えば、音声認識結果のある単語に着目すると、その単語に関する、正誤判定の線形識別器で用いる特徴(素性)が、「f(前の単語の品詞=助詞)=1」と「f(その単語の品詞=動詞)=1」と「f(その単語の事後確率)=0.6」と「f(次の単語の品詞=動詞)=1」とであったとする。また、編集事例が、図4に示すものであったとし、その修正前の単語に関する、正誤判定の線形識別器で用いる特徴(素性)が、図3に示すものであったとする。修正候補検出部31は、これらの2つの正誤判定用特徴に共通する素性を計数する。そして、修正候補検出部31は、その値が所定の閾値を超える場合には、類似すると判定し、そうでない場合には、類似しないと判定する。そして、修正候補検出部31は、類似すると判定した場合に、音声認識結果を修正候補とする。このような方法により、修正候補検出部31は、音声書き起こし作業者が修正した認識誤りと類似する特徴を有する認識結果を検出できる。
また、修正候補検出部31は、編集事例を参照する際に、その編集事例の音声認識結果についての作業者による編集作業に基づく正誤情報と、その編集事例の音声認識結果についての正誤判定部21の判定処理に基づく正誤情報とが一致するかどうかによって、その編集事例に類似する音声認識結果の検出処理を行なうかどうかを判定するようにしてもよい。例えば、編集事例が認識誤りを修正するものであった場合には、修正候補検出部31は、その編集事例の正誤判定結果が「誤り」である場合にのみ、その編集事例に類似する修正候補の検出を行うとしてもよい。この際、修正候補検出部31は、当該編集事例のみでなく、他の編集事例に関する同様の情報を参照してもよい。
同様に、修正候補検出部31は、編集事例の音声認識結果に対する作業者の編集作業に基づく正誤情報が、検出対象の音声認識結果の正誤判定部21による正誤判定結果と一致するかどうかを、類似度に含めてもよい。例えば、編集事例が認識誤りを修正するものであった場合には、修正候補検出部31は、正誤判定結果が「誤り」である音声認識結果のみを検出対象としてよい。同様に、編集事例が認識正解を示すものであれば、修正候補検出部31は、正誤判定結果が「正解」の音声認識結果のみを検出対象としてよい。
上記の通り、正誤判定部21は、音声認識結果から多次元ベクトルで表現される特徴情報を抽出し、抽出した特徴情報を特徴空間において正誤判定するようあらかじめ学習された識別モデルに入力して、正誤判定を行うことができる。この識別モデルでは、数多くの訓練事例を用いて学習することにより正誤判定精度を高めることができるが、正誤判定の特徴空間において訓練事例が十分に得られなかった領域や外れ値に相当する特徴情報に対しては、正誤判定を誤ることがある。
ある音声認識結果に対する正誤判定部21の判定結果が、作業者の編集に基づく正誤情報と一致しない場合とは、正誤判定部21の判定結果が誤りであることを示している。このとき、正誤判定の特徴空間において、その音声認識結果の特徴情報に相当する点およびその点に類似する領域では、正誤判定結果の信頼性は低く、修正候補を誤検出するおそれがある。よって、正誤判定部21の判定結果が、作業者の編集に基づく正誤情報と一致する場合にのみ、修正候補検出を行うようにすることにより、検出精度を高めることができる。
認識結果表示制御部41は、音声認識結果記憶部12に蓄積された音声認識結果と、修正候補検出部31から入力された修正候補に関する情報とを用いて、所定の画像を音声書き起こしの作業者に提示する(所定の画像を表示部に表示させる)機能を備えている。認識結果表示制御部41は、画像の表示には、例えば、ディスプレイ装置等の出力(表示)装置を用いる。認識結果表示制御部41は、例えば、プログラムに従って動作する情報処理装置のCPUによって実現される。認識結果表示制御部41は、図5に例示するように、音声認識結果の文字列を表示部の画面に表示するように制御する。また、認識結果表示制御部41は、修正候補については、それが通常の音声認識結果と異なることが音声書き起こし作業者にわかるように、例えば、異なる色にしたり、下線をひくなどの装飾をしたりして表示するように制御する。
(第1の実施形態の動作)
次に、図2を参照して、本発明による第1の実施形態にかかる音声書き起こし支援装置101の動作について説明する。図2は、本発明による第1の実施形態にかかる音声書き起こし支援装置101の動作の一例を示すフローチャートである。
図2に示すように、音声書き起こし支援装置101は、作業者によって起動されると、音声認識結果記憶部12や正誤判定モデル記憶部22、正誤判定結果記憶部23、編集事例記憶部43を実現している記憶デバイスから必要なデータを読み出す。そして、音声書き起こし支援装置101は、音声認識部11、正誤判定部21、修正候補検出部31及び認識結果表示制御部41から参照できるように、読み出したデータを展開する等の初期化処理を行う(ステップS11)。
そして、例えば、議会が開始され、書き起こし対象の発言が始まると、音声認識部11は、音声書き起こし支援装置101が備えている音声情報用の入力装置からの通知に応じて、音声情報を受け付ける(入力する)(ステップS12)。なお、音声認識部11は、例えば、作業者により入力された音声情報を受け付ける(入力する)ように構成されていてもよい。
続いて、音声認識部11は、受信した音声情報に対して音声認識処理を実行して音声認識結果を生成し、生成した音声認識結果を音声認識結果記憶部12に出力する(記憶させる)(ステップS13)。なお、認識結果表示制御部41は、例えば、この時点での音声認識結果を提示(表示部の画面に表示)するように構成されていてもよい。
次いで、音声認識結果記憶部12に新たな音声認識結果が入力(記憶)されると、正誤判定部21は、入力(記憶)された音声認識結果に対して、正誤判定に用いる特徴情報を抽出する。そして、正誤判定部21は、抽出した特徴情報と正誤判定モデル記憶部22に記憶されている正誤判定モデルとを参照し、音声認識結果の正誤を判定し、その判定結果を正誤判定結果記憶部23に出力する(記憶させる)(ステップS14)。ここで、正誤判定部21は、例えば、正誤判定モデル記憶部22が記憶する正誤判定モデルを用いて算出したスコアに基づいて、音声認識結果が正しく又は誤って認識されたかを判定する。
次いで、音声書き起こし支援装置101は、修正候補の検出を行うかどうかを判定する(ステップS15)。例えば、編集事例取得部42が新たな編集事例を取得し、編集事例記憶部43に出力した(記憶させた)場合には、音声書き起こし支援装置101は、修正候補の検出を行うと判定する。一方、編集事例の取得の終了や、一連の処理を終了することが通知された場合には、音声書き起こし支援装置101は、修正候補の検出を行わずに、一連の処理を終了すると判定する。
ステップS15において、修正候補の検出を行うと判定した場合、修正候補検出部31は、音声認識結果記憶部12に記憶された音声認識結果から、それに対応する正誤判定結果記憶部23に記憶された正誤判定結果と、編集事例記憶部43に記憶された編集事例とに基づいて、修正候補を検出する。そして、修正候補検出部31は、検出した修正候補を認識結果表示制御部41に出力する。そして、認識結果表示制御部41は、音声認識結果と修正候補検出結果とを合わせて、所定の方法で作業者に提示する制御をおこなう(ステップS16)。例えば、認識結果表示制御部41は、音声認識結果と修正候補検出結果とを合わせて、表示部の画面に表示させるように制御する。
ここで、編集事例取得部42が、音声書き起こし作業者による編集事例を取得して、認識結果表示制御部41が表示部の画面に表示する(作業者に提示する)ように制御する情報を変更する様子を具体的に説明する。画面には音声認識結果の文字列を提示するとして、作業者が修正を行う前の画面例を図5に示す。
図5に示すように、認識結果表示制御部41が表示部の画面に表示させた音声認識結果のうち、1文目の「置き」が認識誤りであるとする。
これに対して、作業者が入力装置を用いて、「置き」を「お聞き」に修正する操作を行うと、音声書き起こし支援装置101は、作業者の操作に従って、音声認識結果を修正する。このとき、編集事例取得部42は、これら作業者の操作を編集事例として取得(入力)し、取得(入力)した編集事例を編集事例記憶部43に出力する(記憶させる)。
次いで、認識結果表示制御部41は、修正した音声認識結果を表示部の画面に表示させる。このとき、認識結果表示制御部41は、例えば、図6に示すように、修正部分の表示方法を通常の文字から下線付きの文字に変更してもよい。
また、修正候補検出部31が、編集事例記憶部43に新たに入力(記憶)された編集事例と、正誤判定結果と基づいて、音声認識結果から、「三回」を修正対象箇所の候補として検出した場合には、認識結果表示制御部41は、音声認識結果とともに修正対象箇所の候補を表示部の画面に表示させる。このとき、認識結果表示制御部41は、例えば、図7に示すように、その修正対象箇所の候補を通常の文字から囲い文字に変更して表示させる。
なお、図5〜7に示す例では、作業者が編集操作を行うと、その操作による修正を編集事例として、同じ音声認識結果のテキストの以降の部分に含まれる修正候補を検出する例について説明したが、修正候補の検出の仕方は、本実施形態で示したものに限られない。例えば、音声書き起こし支援装置101は、過去の操作による編集事例を履歴として蓄積しておき、これらの履歴に基づいて、修正対象箇所の候補を検出するようにしてもよい。
すなわち、本実施形態では、音声書き起こし支援装置101は、処理対象の音声認識結果とは異なる音声認識結果を事例(サンプルデータ)として用いて、修正候補となる箇所を絞り込んで検出するのであるが、処理対象の音声認識結果に対応する音声とは全く異なる音声の音声認識結果を事例として用いてもよいし、同じ音声の音声認識結果のある部分を事例として用いて他の部分から修正候補を検出してもよい。
このように、書き起こし作業者が修正を進め、編集事例が増えるにつれて、提示される修正候補が増える。修正候補を高い精度で提示することにより、作業者は、修正候補を絞り込みやすくなるため、音声書き起こし作業の効率を高めることができる。
(第1の実施形態の効果)
このように、本実施形態によれば、音声書き起こし支援装置101は、音声認識結果の正誤判定結果をそのまま提示するのではなく、音声書き起こし作業者の編集作業の履歴情報(認識誤りの位置を含む)を取得して、その編集事例と正誤判定特徴が類似する音声認識結果のみを修正候補として提示する。そのため、音声書き起こし支援装置101は、作業者に提示する修正候補の精度を高めることができる。また、修正候補の検出精度を向上するため、作業者に提示する認識誤りの誤検出を抑制でき、作業者の修正作業の負担を軽減することができる。
また、本実施形態によれば、編集事例記憶部43は、作業者による編集事例を記憶する。そのため、音声書き起こし支援装置101は、編集事例が増えるにつれ、精度を損なわずに、提示する認識誤りを増やすことができる。
第2の実施形態.
次に、本発明による第2の実施形態にかかる音声書き起こし支援装置について説明する。図8は、本発明による第2の実施形態にかかる音声書き起こし支援装置201の構成を示すブロック図である。
図8に示すように、音声書き起こし支援装置201は、第1の実施形態で示した音声書き起こし支援装置101の構成要素に加えて、正誤判定モデル更新部24を含む。
正誤判定モデル更新部24は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。正誤判定モデル更新部24は、編集事例記憶部43に記憶されている編集事例に基づいて、正誤判定モデルを学習するためのデータ(以下、教師データという)を作成する機能を備えている。また、正誤判定モデル更新部24は、所定の基準に従って、作成した教師データを選別し、選別した教師データに基づいて、正誤判定モデル記憶部22に記憶されている正誤判定モデルを学習する機能を備えている。また、正誤判定モデル更新部24は、学習結果に基づいて、正誤モデルを更新し、更新した正誤判定モデルを正誤判定モデル記憶部22に出力する(記憶させる)機能を備えている。なお、本実施形態における学習とは、機械学習技術における学習処理であり、例えば、情報処理装置が、データの解析を行い、そのデータから有用な規則や判断基準などを抽出する処理をいう。具体的には、本実施形態では、教師データを用いて、正誤判定モデルの精度を繰り返し評価し、正誤判定モデルを繰り返し更新する処理を行う。
ここで、正誤判定モデルの学習に用いる教師データは、正誤判定の正解ラベルと正誤判定用特徴との組である。正誤判定モデル更新部24は、教師データの正解ラベルとして、例えば、作業者の編集事例に基づく正誤情報を用いてもよいし、正誤判定結果記憶部23に記憶されている正誤情報を用いてもよい。また、正誤判定モデル更新部24は、教師データのうち、正解ラベルが「誤り」であるもののみを用いるように選別してもよい。また、正誤判定モデル更新部24は、正誤判定モデルの更新を、所定のタイミングで行う。例えば、正誤判定モデル更新部24は、正誤判定モデルの更新を、教師データを所定より多く取得すると行うようにしてもよいし、教師データをひとつ取得するたびに行うようにしてもよい。
ある音声認識結果に対する正誤判定部21の判定結果が、作業者の編集に基づく正誤情報と一致しない場合とは、正誤判定部21の判定結果が誤りであることを示している。このとき、正誤判定の特徴空間において、その音声認識結果の特徴情報に相当する点及びその点に類似する領域では、正誤判定結果の信頼性は低く、修正候補を誤検出するおそれがある。よって、正誤判定結果の信頼性が低い場合には、正誤判定モデル更新部24がその事例を用いて正誤判定モデルを再度訓練(学習)することにより、正誤判定の精度を高めることができる。
(第2の実施形態の動作)
次に、図9を参照して、本発明による第2の実施形態にかかる音声書き起こし支援装置201の動作について説明する。図9は、本発明による第2の実施形態にかかる音声書き起こし支援装置201の動作の一例を示すフローチャートである。
図9に示す動作のうち、音声書き起こし支援装置201が、入力された音声情報に基づいて、音声認識結果を生成するまでのステップS21〜S23は、第1の実施形態にかかる音声書き起こし支援装置101について説明した図2に示すステップS11〜S13の動作と同一である。したがって、ここでの詳細な説明は省略する。
ステップS23において、音声認識結果記憶部12が音声認識結果を記憶すると、正誤判定部21は、正誤判定処理を行う条件が成立するかどうかを判定する(ステップS27)。例えば、音声認識結果記憶部12に新たな音声認識結果が入力(記憶)された場合や、正誤判定モデル記憶部22に記憶されている正誤判定モデルが更新された場合に、正誤判定部21は、正誤判定処理を行うと判定する。一方、前述の条件に当てはまらない場合には、正誤判定部21は、正誤判定処理を行わないと判定する。
ステップS27において、正誤判定処理を行うと判定すると、正誤判定部21は、音声認識結果記憶部12に記憶された音声認識結果に対して、正誤に関する特徴情報を抽出する。そして、正誤判定部21は、抽出した特徴情報と、正誤判定モデル記憶部22に記憶されている正誤判定モデルとを参照し、音声認識結果の正誤を判定して、判定結果を正誤判定結果記憶部23に出力(記憶させる)する(ステップS24)。
音声書き起こし支援装置201が編集事例の検出処理を行うステップS25〜S26は、本発明による第1の実施形態にかかる音声書き起こし支援装置101について説明した図2に示すステップS15〜S16の動作と同一である。したがって、ここでの詳細な説明は省略する。
ステップS26における処理が完了すると、正誤判定モデル更新部24は、編集事例記憶部43に記憶されている編集事例を用いて、所定の基準に従って事例を選別し、正誤判定モデル記憶部22に記憶されている正誤判定モデルを再学習する。そして、正誤判定モデル更新部24は、更新した正誤判定モデルを正誤判定モデル記憶部22に出力(記憶させる)する(ステップS28)。その後、音声書き起こし支援装置201は、処理をステップS27に移行する。
(第2の実施形態の効果)
このように、本実施形態によれば、音声書き起こし支援装置201は、音声書き起こし作業者による編集事例を用いて、正誤判定モデルを再度学習するので、正誤判定の精度を高めることができる。そのため、作業者に提示する認識誤りの誤検出を抑制することができる。
以上、本発明を上記実施形態に即して説明したが、本発明は上述の構成のみに制限されるものでなく、本発明の範囲内で当業者によりなし得る各種変形や修正を含むことは勿論である。
次に、本発明による音声認識結果修正候補検出装置の最小構成について説明する。図10に示す正誤判定装置200は、音声認識結果正誤判定装置の最小の構成例を示すブロック図である。図10に示すように、正誤判定装置200は、最小の構成要素として、正誤判定結果記憶手段201、編集事例記憶手段202及び修正候補検出手段203を含む。
図1に示す最小構成の音声認識結果修正候補検出装置では、正誤判定結果記憶手段201は、音声情報を音声認識した音声認識結果の正誤を判定した正誤判定結果を記憶する。そして、編集事例記憶手段202は、音声認識結果を編集した事例を示す情報である編集事例を記憶する。そして、修正候補検出手段203は、音声認識結果のうち、編集事例と正誤判定結果とが一致するものの中から、編集事例と類似する箇所を、修正対象箇所の候補として検出する。
したがって、図10に示す最小構成の音声認識結果修正候補検出装置によれば、編集履歴に基づいて修正対象箇所の候補を検出することができる。そのため、作業者に提示する修正対象箇所の精度を高めることができる。
次に、本発明による音声書き起こし支援装置の最小構成について説明する。図11は、音声書き起こし支援装置の最小の構成例を示すブロック図である。図11に示すように、音声書き起こし支援装置301は、最小の構成要素として、正誤判定手段311及び修正候補検出手段312を含む。
図11に示す最小構成の音声書き起こし支援装置では、正誤判定手段312は、音声情報を音声認識する音声認識結果の正誤を判定する。そして、修正候補検出手段313は、正誤判定手段312による正誤判定結果と、音声認識結果を修正した事例を示す修正事例情報とに基づいて、音声認識結果から修正対象箇所の候補を検出する。
したがって、図11に示す最小構成の音声書き起こし支援装置301によれば、修正履歴に基づいて修正対象箇所の候補を検出することができる。そのため、音声書き起こし支援装置301は、作業者に提示する修正対象箇所の精度を高めることができる。なお、最小構成の音声書き起こし支援装置が用いる修正事例情報と、第1の実施形態及び第2の実施形態において音声書き起こし支援装置が用いる編集事例とは、同一のものである。
なお、本実施形態では、以下の(1)に示すような音声認識結果修正候補検出装置の特徴的構成が示されている。
(1)音声認識結果正誤判定装置(例えば、正誤判定装置100によって実現される)は、処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶手段(例えば、正誤判定結果記憶部22によって実現される)と、処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶手段(例えば、編集事例記憶部43によって実現される)と、処理対象の音声認識結果のうち、編集事例と正誤判定結果とが一致するものの中から、編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出手段(例えば、修正候補検出部31によって実現される)とを備えたことを特徴とする。
また、本実施形態では、以下の(1)〜(8)に示すような音声書き起こし支援装置の特徴的構成が示されている。
(1)音声書き起こし支援装置は、処理対象の音声認識結果の正誤を判定する正誤判定手段(例えば、正誤判断部21によって実現される)と、正誤判定手段による正誤判定結果と、処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報(例えば、図4に示す編集事例)とに基づいて、処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出手段(例えば、修正候補検出部31によって実現される)とを備えたことを特徴とする。
(2)音声書き起こし支援装置において、正誤判定手段は、機械学習モデルである正誤判定モデル(例えば、式(1))を用いて音声認識結果の正誤を判定し、修正事例情報を学習用データとして正誤判定モデルを学習し、正誤判定モデルを更新する正誤判定モデル更新手段(例えば、正誤判定モデル更新部24によって実現される)を備えるように構成されていてもよい。
(3)音声書き起こし支援装置は、音声情報を音声認識して音声認識結果を出力する音声認識手段(例えば、音声認識部11によって実現される)と、音声認識結果を記憶する音声認識結果記憶手段(例えば、音声認識結果記憶部12によって実現される)と、音声認識結果の正誤と特徴との関係を含む、音声認識の正誤を判定するための音声認識結果の正誤の判定に用いる正誤判定モデル(例えば、式(1)によって実現される)を記憶する正誤判定モデル記憶手段(例えば、正誤判定モデル記憶部22によって実現される)と、音声認識結果の特徴を示す特徴情報と正誤判定モデルとに基づいて正誤判定処理を実行し、音声認識結果に対する正誤判定結果を出力する正誤判定手段(例えば、正誤判定部21によって実現される)と、正誤判定結果を記憶する正誤判定結果記憶手段(例えば、正誤判定結果記憶部23によって実現される)と、作業者の入力操作に基づく音声認識結果の編集事例を取得する編集事例取得手段(例えば、編集事例取得部42によって実現される)と、音声認識結果記憶手段が記憶する音声認識結果のうち、編集事例と正誤判定結果とが一致するものの中から、編集事例と類似する箇所を検出して修正対象箇所の候補として出力する修正候補検出手段(例えば、修正候補検出部31によって実現される)と、音声認識結果及び修正対象箇所の候補を表示部に表示する制御を行う認識結果表示制御手段(例えば、認識結果表示制御部41によって実現される)とを備えたことを特徴とする。
(4)音声書き起こし支援装置は、編集事例に基づいて作成された、音声認識結果の正誤判定に用いた正誤判定特徴と正誤判定結果との組で表される教師データを用いて、正誤判定モデルの学習を行い、学習結果に基づいて正誤判定モデルを更新する正誤判定モデル更新手段(例えば、正誤判定モデル更新部24によって実現される)を備えるように構成されていてもよい。
(5)音声書き起こし支援装置において、修正候補検出手段は、処理対象の音声認識結果のうち、修正事例情報と正誤判定結果とが一致するものの中から、修正事例情報と類似する箇所を、修正対象箇所の候補として検出するように構成されていてもよい。
(6)音声書き起こし支援装置において、修正候補検出手段は、音声認識結果に含まれる単語の正誤判定用の素性(例えば、段落0037に示す「f(前の単語の品詞=助詞)=1」、「f(その単語の品詞=動詞)=1」、「f(その単語の事後確率)=0.6」及び「f(次の単語の品詞=動詞)=1」)と、修正事例情報に含まれる修正前の単語の正誤判定用の素性(例えば、図3に示す線形識別器で用いる特徴(素性)f)とのうち、共通する素性を計数し、計数した値が所定の閾値を超える場合に、類似する箇所であると判定するように構成されていてもよい。
(7)音声書き起こし支援装置において、修正候補検出手段は、正誤判定用の特徴の類似度として、素性ベクトル同士のユークリッド距離又はコサイン類似度を用いるように構成されていてもよい。
(8)音声書き起こし支援装置において、修正候補検出手段は、前記修正事例情報の音声認識結果についての作業者による修正作業に基づく正誤情報と、前記修正事例情報の音声認識結果についての正誤判定手段の判定処理に基づく正誤情報とが一致するか否かを判定し、当該正誤情報が一致するか否かの判定結果に基づいて、前記修正事例情報に類似する音声認識結果の検出処理を実行するか否かを判定するように構成されていてもよい。
本発明は、音声の書き起こし作業を支援する用途に適用可能である。
11 音声認識部
12 音声認識結果記憶部
21 正誤判定部
22 正誤判定モデル記憶部
23 正誤判定結果記憶部
24 正誤判定モデル更新部
31 修正候補検出部
41 認識結果表示制御部
42 編集事例取得部
43 編集事例記憶部
100 正誤判定装置
101,201,301 音声書き起こし支援装置
200 音声認識結果修正候補検出装置
201 正誤判定結果記憶手段
202 編集事例記憶手段
203,312 修正候補検出手段
311 正誤判定手段

Claims (15)

  1. 処理対象の音声認識結果の正誤を判定する正誤判定手段と、
    前記正誤判定手段による正誤判定結果と、前記処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、前記処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出手段とを
    備えたことを特徴とする音声書き起こし支援装置。
  2. 正誤判定手段は、音声認識の正誤を判定するための正誤判定モデルを用いて音声認識結果の正誤を判定し、
    修正事例情報を用いて前記正誤判定モデルを学習し、当該学習結果に基づいて前記正誤判定モデルを更新する正誤判定モデル更新手段を備えた
    請求項1記載の音声書き起こし支援装置。
  3. 音声情報を音声認識して音声認識結果を出力する音声認識手段と、
    前記音声認識結果を記憶する音声認識結果記憶手段と、
    音声認識結果の正誤と特徴との関係を含む、音声認識結果の正誤を判定するための正誤判定モデルを記憶する正誤判定モデル記憶手段と、
    前記音声認識結果の特徴を示す特徴情報と前記正誤判定モデルとに基づいて正誤判定処理を実行し、前記音声認識結果に対する正誤判定結果を出力する正誤判定手段と、
    前記正誤判定結果を記憶する正誤判定結果記憶手段と、
    作業者の入力操作に基づく音声認識結果の編集事例を取得する編集事例取得手段と、
    前記音声認識結果記憶手段が記憶する前記音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を検出して修正対象箇所の候補として出力する修正候補検出手段と、
    前記音声認識結果及び前記修正対象箇所の候補を表示部に表示する制御を行う認識結果表示制御手段とを
    備えたことを特徴とする音声書き起こし支援装置。
  4. 編集事例に基づいて作成された、音声認識結果の正誤判定に用いた正誤判定特徴と正誤判定結果との組で表される学習用データを用いて、正誤判定モデルの学習を行い、当該学習結果に基づいて前記正誤判定モデルを更新する正誤判定モデル更新手段を備えた
    請求項3記載の音声書き起こし支援装置。
  5. 修正候補検出手段は、処理対象の音声認識結果のうち、修正事例情報と正誤判定結果とが一致するものの中から、前記修正事例情報と類似する箇所を、修正対象箇所の候補として検出する
    請求項1又は請求項2記載の音声書き起こし支援装置。
  6. 修正候補検出手段は、音声認識結果に含まれる単語の正誤判定用の素性と、修正事例情報に含まれる修正前の単語の正誤判定用の素性とのうち、共通する素性を計数し、計数した値が所定の閾値を超える場合に、類似する箇所であると判定する
    請求項5記載の音声書き起こし支援装置。
  7. 修正候補検出手段は、正誤判定用の特徴の類似度として、素性ベクトル同士のユークリッド距離又はコサイン類似度を用いる
    請求項5記載の音声書き起こし支援装置。
  8. 修正候補検出手段は、修正事例情報の音声認識結果についての作業者による修正作業に基づく正誤情報と、前記修正事例情報の音声認識結果についての正誤判定手段の判定処理に基づく正誤情報とが一致するか否かを判定し、当該正誤情報が一致するか否かの判定結果に基づいて、前記修正事例情報に類似する音声認識結果の検出処理を実行するか否かを判定する
    請求項5記載の音声書き起こし支援装置。
  9. 処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶手段と、
    前記処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶手段と、
    前記処理対象の音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出手段とを
    備えたことを特徴とする音声認識結果修正候補検出装置。
  10. 処理対象の音声認識結果の正誤を判定する正誤判定ステップと、
    前記正誤判定ステップにおける正誤判定結果と、前記処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、前記処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出ステップとを
    含むことを特徴とする音声書き起こし支援方法。
  11. 音声情報を音声認識して音声認識結果を出力する音声認識ステップと、
    前記音声認識結果を記憶する音声認識結果記憶ステップと、
    音声認識結果の正誤と特徴との関係を含む、音声認識結果の正誤を判定するための正誤判定モデルを記憶する正誤判定モデル記憶ステップと、
    前記音声認識結果の特徴を示す特徴情報と前記正誤判定モデルとに基づいて正誤判定処理を実行し、前記音声認識結果に対する正誤判定結果を出力する正誤判定ステップと、
    前記正誤判定結果を記憶する正誤判定結果記憶ステップと、
    作業者の入力操作に基づく音声認識結果の編集事例を取得する編集事例取得ステップと、
    記憶した前記音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を検出して修正対象箇所の候補として出力する修正候補検出ステップと、
    前記音声認識結果及び前記修正対象箇所の候補を表示部に表示する制御を行う認識結果表示制御ステップとを
    含むことを特徴とする音声書き起こし支援方法。
  12. 処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶ステップと、
    前記処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶ステップと、
    前記処理対象の音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出ステップとを
    含むことを特徴とする音声認識結果修正候補検出方法。
  13. コンピュータに、
    処理対象の音声認識結果の正誤を判定する正誤判定処理と、
    前記正誤判定処理による正誤判定結果と、前記処理対象の音声認識結果とは異なる音声認識結果を修正した事例である修正事例情報とに基づいて、前記処理対象の音声認識結果から修正対象箇所の候補を検出する修正候補検出処理とを
    実行させるための音声書き起こし支援プログラム。
  14. コンピュータに、
    音声情報を音声認識して音声認識結果を出力する音声認識処理と、
    前記音声認識結果を記憶する音声認識結果記憶処理と、
    音声認識結果の正誤と特徴との関係を含む、音声認識結果の正誤を判定するための正誤判定モデルを記憶する正誤判定モデル記憶処理と、
    前記音声認識結果の特徴を示す特徴情報と前記正誤判定モデルとに基づいて正誤判定処理を実行し、前記音声認識結果に対する正誤判定結果を出力する正誤判定処理と、
    前記正誤判定結果を記憶する正誤判定結果記憶処理と、
    作業者の入力操作に基づく音声認識結果の編集事例を取得する編集事例取得処理と、
    記憶した前記音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を検出して修正対象箇所の候補として出力する修正候補検出処理と、
    前記音声認識結果及び前記修正対象箇所の候補を表示部に表示する制御を行う認識結果表示制御処理とを
    実行させるための音声書き起こし支援プログラム。
  15. コンピュータに、
    処理対象の音声認識結果の正誤を判定した正誤判定結果を記憶する正誤判定結果記憶処理と、
    前記処理対象の音声認識結果とは異なる音声認識結果を編集した事例を示す情報である編集事例を記憶する編集事例記憶処理と、
    前記処理対象の音声認識結果のうち、前記編集事例と前記正誤判定結果とが一致するものの中から、前記編集事例と類似する箇所を、修正対象箇所の候補として検出する修正候補検出処理とを
    実行させるための音声認識結果修正候補検出プログラム。
JP2009145519A 2009-06-18 2009-06-18 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム Pending JP2011002656A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009145519A JP2011002656A (ja) 2009-06-18 2009-06-18 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009145519A JP2011002656A (ja) 2009-06-18 2009-06-18 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2011002656A true JP2011002656A (ja) 2011-01-06

Family

ID=43560653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009145519A Pending JP2011002656A (ja) 2009-06-18 2009-06-18 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2011002656A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012043168A1 (ja) * 2010-09-29 2012-04-05 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法および記録媒体
JP2014115646A (ja) * 2012-12-07 2014-06-26 Postech Academy - Industry Foundation 音声認識のエラー修正方法及び装置
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
WO2015156011A1 (ja) * 2014-04-08 2015-10-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2018135302A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
JP2020148814A (ja) * 2019-03-11 2020-09-17 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
JP2021039326A (ja) * 2019-09-05 2021-03-11 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のためのシステムおよび方法
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11314221B2 (en) 2019-03-25 2022-04-26 Fanuc Corporation Machine tool and management system
US11453095B2 (en) 2019-03-28 2022-09-27 Fanuc Corporation Control device and machine tool
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012043168A1 (ja) * 2010-09-29 2014-02-06 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法およびプログラム
JP5874640B2 (ja) * 2010-09-29 2016-03-02 日本電気株式会社 音声変換装置、携帯電話端末、音声変換方法およびプログラム
WO2012043168A1 (ja) * 2010-09-29 2012-04-05 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法および記録媒体
JP2014115646A (ja) * 2012-12-07 2014-06-26 Postech Academy - Industry Foundation 音声認識のエラー修正方法及び装置
US9318102B2 (en) 2012-12-07 2016-04-19 Postech Academy—Industry Foundation Method and apparatus for correcting speech recognition error
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
CN104715005B (zh) * 2013-12-13 2018-02-16 株式会社东芝 信息处理设备以及方法
WO2015156011A1 (ja) * 2014-04-08 2015-10-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
JPWO2018135302A1 (ja) * 2017-01-18 2019-11-21 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2018135302A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP7107228B2 (ja) 2017-01-18 2022-07-27 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
US11107469B2 (en) 2017-01-18 2021-08-31 Sony Corporation Information processing apparatus and information processing method
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
US11710488B2 (en) 2018-02-26 2023-07-25 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11935540B2 (en) 2018-12-04 2024-03-19 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10971153B2 (en) 2018-12-04 2021-04-06 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10672383B1 (en) 2018-12-04 2020-06-02 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11145312B2 (en) 2018-12-04 2021-10-12 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11594221B2 (en) 2018-12-04 2023-02-28 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
JP2020148814A (ja) * 2019-03-11 2020-09-17 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
JP7096634B2 (ja) 2019-03-11 2022-07-06 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
US11314221B2 (en) 2019-03-25 2022-04-26 Fanuc Corporation Machine tool and management system
US11453095B2 (en) 2019-03-28 2022-09-27 Fanuc Corporation Control device and machine tool
JP7066667B2 (ja) 2019-09-05 2022-05-13 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のための方法、プログラム、および、システム
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP2021039326A (ja) * 2019-09-05 2021-03-11 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のためのシステムおよび方法
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Similar Documents

Publication Publication Date Title
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US11238845B2 (en) Multi-dialect and multilingual speech recognition
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
EP2880652B1 (en) Alignment of corresponding media content portions
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US10037758B2 (en) Device and method for understanding user intent
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US20090228273A1 (en) Handwriting-based user interface for correction of speech recognition errors
JP4680714B2 (ja) 音声認識装置および音声認識方法
US10019986B2 (en) Acoustic model training using corrected terms
JP4784120B2 (ja) 音声書き起こし支援装置及びその方法ならびにプログラム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20130191125A1 (en) Transcription supporting system and transcription supporting method
JP4736478B2 (ja) 音声書き起こし支援装置およびその方法ならびにプログラム
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP2009031328A (ja) 音声認識装置
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP2000056795A (ja) 音声認識装置
JP2005128130A (ja) 音声認識装置、音声認識方法及びプログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2008243076A (ja) 翻訳装置、方法及びプログラム