JP5451982B2

JP5451982B2 - 支援装置、プログラムおよび支援方法

Info

Publication number: JP5451982B2
Application number: JP2008113190A
Authority: JP
Inventors: 晃太郎宮本; 隆斉藤
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2014-03-26
Anticipated expiration: 2028-04-23
Also published as: KR101054699B1; JP2009265276A; KR20090112581A; US20090271193A1; US8275614B2

Description

本発明は、支援装置、プログラムおよび支援方法に関する。特に本発明は、音声データからのテキスト作成を支援する支援装置、プログラムおよび支援方法に関する。

聴覚障害者および高齢者等に対するアクセシビリティを高くすることを目的として、音声の内容を表すテキストが付与されたコンテンツの提供が行われている。音声の内容を表すテキストは、例えば、音声データからテキストを自動作成する音声認識装置（例えば、非特許文献１〜３参照）を用いて生成される。

特開２０００−３２４３９５号公報特開２００３−４６８６１号公報特開２００６−２２７３１９号公報赤川達也，岩野公司，古井貞煕、「ＨＭＭを用いた話し言葉音声合成におけるモデルの構築とその合成音声への影響」、日本音響学会講演論文集、２００７年３月、ｐ．２０１−２０２山田善之，宮島千代美，伊藤克亘，武田一哉、「音素長伸縮による対話音声認識性能の向上手法」、情報処理学会研究報告.ＳＬＰ，音声言語情報処理 IPSJ SIG Notes Vol.2005，No.103(20051021)、ｐ．１−６馬場朗、「音声認識のための高齢者向け音響モデルの評価法」、松下電工技報特集「顧客価値を解析評価技術」、２００２年１１月、ｐ．２０−２６

ところで、音声認識装置は、現状において、音声データから１００パーセントの信頼性でテキストを生成することは難しい。すなわち、現状において、音声認識装置によって音声データから生成されたテキストには、信頼性が比較的低い未確定部分が含まれる。

ここで、音声認識装置によって音声データから生成されたテキストのうち、信頼性が比較的に低い未確定部分については、オペレータが、例えば手動で文字列を入力して修正しなければならない。しかしながら、このような修正には多くの作業時間が必要となってしまう。

また、音声認識装置は、音声データからテキストを生成する過程において、音声データを分割した分割部分毎に多数の候補文字列を発生させ、これら多数の候補文字列の中から一つの文字列を選択する処理を実行する。従って、オペレータは、これら多数の候補文字列を表示させ、これらの中から手動で正しい文字列を選択することにより、信頼性が比較的に低い未確定部分を修正してもよい。しかしながら、音声認識装置により生成される候補文字列は膨大に存在するので、これらの中から手動で一つの文字列を選択した場合も、多くの作業時間が必要となってしまう。

また、オペレータは、このような修正作業を、例えば当該未確定部分の前方から所定範囲毎（例えば数文字毎）に順次に行っていく。このような場合、テキストを修正して内容が確定した文字列に対応する音声データの範囲を自動的に特定し、次にテキストを修正すべき音声データの先頭を自動的に見つけ出す支援装置が存在すると、オペレータは、音声データを自分で聞きながら次にテキストを確定すべき音声データの先頭を見つけ出す作業を行わなくてよいので、作業が容易となる。

ここで、音声データ中におけるテキストが確定された範囲を自動的に特定するためには、音声データをコンピュータにより音響解析しなければならない。しかしながら、現状において、このような方法では、音声データ中におけるテキストが確定された範囲を精度良く特定することは困難であった。

また、音声データの時間範囲を特定する技術として、特許文献１〜３が知られている。特許文献１には、字幕の基となる字幕テキストを分割し、基準となるタイミング情報と、文字種、文字数および発音記号列を含む文字情報とに基づいて、各分割箇所にタイミング情報を付与する技術が記載されている。特許文献２には、モニタに字幕を表示して、キー入力があったときに、操作タイミングおよびキー種別を記録する技術が記載されている。特許文献３には、音素または音節等の構成要素の継続時間長の確率分布および発話速度の確率分布を推定する技術が記載されている。

しかしながら、特許文献１〜３に記載された技術を用いても、音声データ中におけるテキストが確定された範囲を精度良く特定することはできなかった。従って、現状において、オペレータは、テキストを確定した確定文字列に対応する音声データの範囲を、音声データを自分で聞きながら特定しなければならなかった。

そこで本発明は、上記の課題を解決することのできる支援装置、プログラムおよび支援方法を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

上記課題を解決するために、本発明の第１の形態においては、音声データからのテキスト作成を支援する支援装置であって、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出部と、音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得部と、複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、音声データ中における未確定部分の発話時間により近い候補文字列を優先して選択する選択部と、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定部とを備える支援装置、コンピュータを当該支援装置として機能させるプログラム、および、当該支援装置による支援方法を提供する。

本発明の第２の形態においては、話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援装置であって、動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出部と、
動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得部と、複数の候補文字列のうち、確定表現速度で表現した場合の表現時間が、動画像データ中における未確定部分の表現時間により近い候補文字列を優先して選択する選択部と、テキストの一部分が確定文字列に確定されたことに応じて、動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から確定文字列を確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定部とを備える支援装置、コンピュータを当該支援装置として機能させるプログラム、および、当該支援装置による支援方法を提供する。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係る音声認識システム１０の構成を示す。音声認識システム１０は、音声データに含まれる音声の内容を表わすテキスト（即ち、文字列）を生成する。

音声認識システム１０は、音声データベース１２と、音声認識装置１４と、確定データベース１６と、候補データベース１８と、支援装置２０と、ユーザインターフェイス２２とを備える。音声データベース１２は、テキストを生成する対象となる音声データを格納する。

音声認識装置１４は、対象となる音声データを音声認識する。音声認識装置１４は、一例として、音声認識プログラムを実行したコンピュータにより実現されてよい。音声認識装置１４は、音声認識プログラムの一例であるＩＢＭＶｉａＶｏｉｃｅ（登録商標）を実行したコンピュータにより実現されてよい。

確定データベース１６は、音声認識装置１４が音声データを音声認識した結果得られた、テキストおよび形態素列を格納する。テキストは、音声データに含まれる音声の内容を表わす文字列である。形態素列は、音声データに含まれる音声の音を表わす音素列を、言語の最小の意味単位毎に分割した情報である。形態素列に含まれる各音素には、一例として、当該音素が出力された時刻を表わすタイムスタンプが対応付けられていてよい。

さらに、確定データベース１６は、一例として、音声認識結果が確定しているか未確定であるかを表わす文字属性を、テキストのそれぞれの文字に対応させて格納してよい。音声認識が確定している部分は、一例として、文字の確からしさが基準値以上であってよい。また、音声認識が未確定である部分は、一例として、文字の確からしさが基準値未満の文字であってよい。

候補データベース１８は、音声認識装置１４が音声データを音声認識した結果得られた、複数の候補文字列を格納する。音声認識装置１４は、音声データからテキストを生成する過程において、音声データを分割した分割部分毎に多数の候補文字列を発生させ、これら多数の候補文字列の中から一つの文字列を選択する処理を実行する。候補データベース１８は、確定データベース１６に格納されたテキストに含まれる複数の文字列のそれぞれに対応させて、このような候補文字列を格納する。

支援装置２０は、音声データからのテキスト作成を支援する。より詳しくは、支援装置２０は、音声認識装置１４が音声データを音声認識した結果として確定データベース１６に格納されているテキストのうち、音声認識結果が未確定である未確定部分のテキストについて、当該音声認識システム１０の使用者であるオペレータが正しい文字列に修正する作業を支援する。このような支援装置２０は、一例として、支援プログラムを実行したコンピュータにより実現されてよい。

ユーザインターフェイス２２は、オペレータから情報を受け取り、当該オペレータに情報を出力する。ユーザインターフェイス２２は、一例として、キーボード、マウス、モニタおよびスピーカ等であってよい。

このような構成の音声認識システム１０は、まず、第１段階において、音声認識装置１４が対象となる音声データを音声認識する。続く第２段階において、音声認識装置１４による音声認識結果が未確定であるテキストについて、部分毎に順次に、支援装置２０を用いてオペレータが正しい文字列に修正する。

なお、音声認識システム１０は、音声データベース１２および音声認識装置１４を備えない構成であってもよい。このような場合、音声認識システム１０は、既に音声認識された結果を外部から受け取り、外部から受け取った音声認識結果を確定データベース１６および候補データベース１８に格納させる。

図２は、本実施形態に係る支援装置２０の構成を、確定データベース１６および候補データベース１８とともに示す。支援装置２０は、入力部３２と、候補取得部３４と、確定速度算出部３６と、候補時間算出部３８と、未確定発話時間算出部４０と、選択部４２と、提示部４４と、確定部４６と、確定時間算出部４８と、特定部５０と、先頭位置設定部５２とを備える。入力部３２は、オペレータがユーザインターフェイス２２を用いて入力した情報を受け取る。

候補取得部３４は、音声データ中におけるテキストが未確定である未確定部分の先頭位置を指定するフォーカスを受け取る。フォーカスは、一例として、テキストが未確定である未確定部分の先頭の音素を指定する情報であってよい。支援装置２０は、このようなフォーカスを用いて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を指定することにより、次に文字列を確定すべき音声データの範囲を指定することができる。

候補取得部３４は、先頭位置設定部５２からフォーカスを受け取る。作業開始時においては、候補取得部３４は、一例として、音声データにおける任意位置を指定するフォーカスが、オペレータからユーザインターフェイス２２を介して与えられてよい。

さらに、候補取得部３４は、音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を候補データベース１８から取得する。候補取得部３４は、一例として、フォーカスにより指定された位置から所定範囲（例えば、所定の文字数の範囲、所定の音素数の範囲または所定の形態素数の範囲）のテキストを生成する処理において用いられた複数の候補文字列を、候補データベース１８から取得してよい。

確定速度算出部３６は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。確定速度算出部３６は、一例として、音声データ中における既にテキストが確定された確定済部分の、単位時間当たりに発話されたモーラ数または音節数を確定発話速度として算出してよい。これにより、確定速度算出部３６は、対象の音声データ中において音声を発している対象話者の固有の発話速度を算出できる。

候補時間算出部３８は、候補取得部３４が取得した複数の候補文字列を受け取る。そして、候補時間算出部３８は、受け取った複数の候補文字列のそれぞれについて、当該候補文字列のモーラ数または音節数と確定発話速度とに基づいて、当該候補文字列を確定発話速度で発話した場合の発話時間を算出する。これにより、候補時間算出部３８は、対象話者が複数の候補文字列のそれぞれを発話した場合の、推定の発話時間を算出することができる。

未確定発話時間算出部４０は、音声データ中におけるテキストが未確定である未確定部分の音声の発話時間を算出する。未確定発話時間算出部４０は、一例として、フォーカスにより指定された位置から、当該フォーカスにより指定された位置以降の最初の無音部分の直前位置までの範囲の時間幅を、未確定部分の音声の発話時間として算出してよい。これにより、未確定発話時間算出部４０は、テキストが未確定である未確定部分におけるこれから文字列を修正させる部分についての実際の音声の発話時間を算出することができる。

選択部４２は、候補取得部３４が取得した複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、未確定発話時間算出部４０が算出した音声データ中における未確定部分の発話時間により近い候補文字列を優先して選択する。選択部４２は、一例として、複数の候補文字列についての確定発話速度で発話した場合の推定の発話時間のそれぞれと、音声データ中における未確定部分の実際の音声の発話時間との、差又は比率を算出することにより比較してよい。そして、選択部４２は、差がより小さいまたは比率がより１に近い１又は複数の候補文字列を選択してよい。これにより、選択部４２は、対象話者により発話された場合の推定の発話時間が、音声データ中の実際の音声の発話時間とより近い候補文字列を選択することができる。すなわち、選択部４２は、候補データベース１８から受け取った複数の候補文字列のうち、より確からしい候補文字列を選択することができる。

提示部４４は、選択部４２により選択された１又は複数の候補文字列をユーザインターフェイス２２を介してオペレータに提示する。提示部４４は、一例として、選択部４２により選択された１又は複数の候補文字列を、より確からしい候補文字列が上位に位置するように並べ替えてモニタに表示してよい。これにより、提示部４４は、オペレータに対して、より確からしい候補文字列を最初に参照させて、音声認識結果が未確定である部分のテキストを正しい文字列に修正させることができる。

確定部４６は、音声認識結果が未確定である部分のテキストをオペレータがユーザインターフェイス２２により修正した文字列を、確定文字列として受け取る。確定部４６は、一例として、フォーカスにより指定された位置から所定範囲のテキストを修正した文字列を、確定文字列として受け取ってよい。確定部４６は、受け取った確定文字列を、確定データベース１６に書き込む。そして、確定部４６は、確定文字列に対応する文字属性を、確定していることを示す値に書き換える。これにより、確定部４６は、音声認識装置１４による音声認識結果が未確定であった部分のテキストを、正しい文字列に確定することができる。

確定時間算出部４８は、確定部４６により確定された確定文字列のモーラ数または音節数と、確定速度算出部３６により算出された確定発話速度とに基づいて、当該確定文字列を確定発話速度で発話した場合の発話時間を算出する。このような確定時間算出部４８は、確定部４６により確定された確定文字列を対象話者が発話した場合の発話時間を算出することができる。

特定部５０は、確定部４６により確定された確定文字列に対応する音声データの範囲を特定する。より詳しくは、特定部５０は、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定する。

特定部５０は、一例として、確定前においてフォーカスにより指定されていた位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定してよい。すなわち、特定部５０は、一例として、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から、確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素までの範囲を、確定範囲として特定してよい。

先頭位置設定部５２は、テキストの一部分が確定文字列に確定されたことに応じて、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から特定部５０により特定された確定範囲分進めた位置に移動させる。すなわち、先頭位置設定部５２は、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から確定文字列を確定発話速度で発話した場合の発話時間分進めた位置に移動させる。

先頭位置設定部５２は、一例として、フォーカスが音声データ中におけるテキストが未確定である未確定部分の先頭の音素を指定する場合であれば、フォーカスが指定する音素を、確定前においてフォーカスが指定していた音素から特定部５０により特定された確定範囲内の末尾音素の次の音素に移動させてよい。すなわち、先頭位置設定部５２は、一例として、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させてよい。これにより、先頭位置設定部５２は、当該確定文字列に続く次の文字列をオペレータに修正させる場合において、次に文字列を確定すべき音声データにおける部分を、自動的に指定することができる。

図３は、本実施形態に係る支援装置２０の処理フローを示す。支援装置２０は、例えばオペレータから開始指示が与えられると、図３に示されるステップＳ１１〜ステップＳ１８の処理を実行する。

まず、ステップＳ１１において、候補取得部３４は、フォーカスを受け取る。候補取得部３４は、一例として、オペレータにより入力された位置を指定するフォーカスを受け取ってよい。

続いて、ステップＳ１２において、確定部４６は、フォーカスにより指定された位置以降の所定範囲（例えば、所定の文字数の範囲、所定の音素数の範囲または所定の形態素数の範囲）のテキストが確定されている否かを判断する。確定部４６は、一例として、フォーカスにより指定された位置以降の所定範囲の文字属性が確定されていることを示す値か否かを判断してよい。音声データベース１２は、テキストが確定されている場合には処理をステップＳ１３に進め、テキストが確定されていない場合には処理をステップＳ１４に進める。

ステップＳ１２でテキストが確定されていると判断された場合、ステップＳ１３において、特定部５０は、フォーカスにより指定された位置以降の所定範囲の文字列（即ち、確定文字列）に対応する音声データの範囲（即ち、確定範囲）を特定する。特定部５０は、一例として、確定文字列に対応する音素列における先頭の音素から末尾の音素までの範囲を、確定範囲として特定してよい。特定部５０は、確定範囲を特定すると、処理をステップＳ１７に進める。

ステップＳ１２でテキストが未確定であると判断された場合、ステップＳ１４において、支援装置２０は、１又は複数の候補文字列を、オペレータに提示する。なお、ステップＳ１４の処理については、その詳細を図４において説明する。

続いて、ステップＳ１５において、確定部４６は、フォーカスにより指定された位置以降の所定範囲のテキストをオペレータに修正させ、オペレータにより修正された文字列を、確定文字列として受け取る。そして、確定部４６は、受け取った確定文字列を確定データベース１６に書き込む。さらに、確定部４６は、確定文字列に対応する文字属性を、確定していることを示す値に書き換える。

続いて、ステップＳ１６において、特定部５０は、ステップＳ１５で確定した確定文字列に対応する音声データの確定範囲を特定する。なお、ステップＳ１６の処理については、その詳細を図６において説明する。

続いて、ステップＳ１７において、先頭位置設定部５２は、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から、ステップＳ１３またはステップＳ１６で特定した確定範囲分進めた位置に移動させる。

続いて、ステップＳ１８において、先頭位置設定部５２は、フォーカスが指定する位置が音声データの末尾に達したか否かを判断する。先頭位置設定部５２は、フォーカスが指定する位置が音声データの末尾に達していない場合には、処理をステップＳ１２に進める。先頭位置設定部５２は、フォーカスが指定する位置が音声データの末尾に達した場合には、当該フローを終了する。

図４は、図３における処理フローのステップＳ１４の処理フローの一例を示す。支援装置２０は、図３における処理フローのステップＳ１４において、一例として、図４に示されるステップＳ２１〜ステップＳ２９の処理を実行してよい。

まず、ステップＳ２１において、確定速度算出部３６は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。確定速度算出部３６は、一例として、音声データ中における既にテキストが確定された確定済部分の、単位時間当たりに発話されたモーラ数または音節数を確定発話速度として算出してよい。

確定速度算出部３６は、一例として、既にテキストが確定された確定済部分のうち連続して音声を発話している部分（即ち、発話が途切れた区間を含まない部分）の音声認識結果を確定データベース１６から取得する。続いて、確定速度算出部３６は、一例として、取得した音声認識結果から、確定済部分の発話時間および確定済部分の文字列を発話した場合のモーラ数または音節数を算出する。確定速度算出部３６は、一例として、確定済部分の先頭の音素のタイムスタンプと末尾の音素のタイムスタンプとの差を、確定済部分の発話時間として算出してよい。また、確定速度算出部３６は、一例として、音素列と、モーラ数または音節数との対応付けがされたテーブル等を参照して、確定済部分の文字列を発話した場合のモーラ数または音節数を算出してよい。

そして、確定速度算出部３６は、一例として、確定済部分の文字列を発話した場合のモーラ数または音節数を、確定済部分の発話時間で除算した結果を、確定発話速度として算出してよい。例えば、確定済部分の文字列をｓｔｒＤ、与えられた文字列からモーラ数または音節数を算出する関数をｍｏｒａ（）、確定済部分の発話時間をｔｉｍｅＤＡｌｌとした場合、確定速度算出部３６は、一例として、下記の式（１）の演算をして確定発話速度（式（１）のｓｐｅｅｄＡ）を算出してよい。

ｓｐｅｅｄＡ＝ｍｏｒａ（ｓｔｄＤ）／ｔｉｍｅＤＡｌｌ …（１）
このようにして、確定速度算出部３６は、対象話者の固有の発話速度を表わす確定発話速度を算出することができる。

続いて、ステップＳ２２において、未確定発話時間算出部４０は、フォーカスにより指定された位置から、当該フォーカスにより指定された位置以降の最初の無音部分の直前位置までの範囲の時間幅を算出する。これにより、未確定発話時間算出部４０は、フォーカスにより指定された位置以降のテキストが未確定である未確定部分の実際の音声の発話時間を算出することができる。

未確定発話時間算出部４０は、一例として、フォーカスにより指定された音素から、当該フォーカスにより指定された音素以降の最初の無音部分の直前の音素までの範囲の時間幅を、テキストが未確定である未確定部分の音声の発話時間として算出してよい。例えば「ありがとうございます」といったように音声が発話されると、多くの場合、発話された音声の前後が無音となる。従って、未確定発話時間算出部４０は、無音部分の直前の音素を検出することにより、発話された音声の末尾位置を検出することができる。

また、フォーカスは、一例として、テキストが未確定である未確定部分の先頭の音素を指定する。従って、未確定発話時間算出部４０は、フォーカスにより指定された音素を取得することにより、テキストが未確定である未確定部分の音声の先頭位置を検出することができる。このように、未確定発話時間算出部４０は、フォーカスにより指定された位置から、無音部分の直前位置までの範囲の時間を検出することにより、テキストが未確定である未確定部分の音声の発話時間を算出することができる。

また、未確定発話時間算出部４０は、一例として、確定データベース１６に格納された各音素のタイムスタンプの間隔を検出し、一定間隔以上の部分を無音区間と判断してよい。これに代えて、未確定発話時間算出部４０は、音声データベース１２内の音声データの振幅を検出し、一定以下の振幅の部分を無音区間と判断してもよい。

続いて、ステップＳ２３において、候補取得部３４は、フォーカスにより指定された位置以降の音声認識結果である複数の候補文字列を候補データベース１８から取得する。候補取得部３４は、一例として、フォーカスにより指定された位置以降の所定範囲のテキストを生成する処理において用いられた複数の候補文字列を候補データベース１８から取得してよい。

さらに、ステップＳ２３において、入力部３２は、一例として、音声データ中におけるテキストが未確定である未確定部分に対応する文字列の少なくとも一部（例えば、先頭の所定個の文字）をオペレータから受け取ってよい。そして、この場合において、候補取得部３４は、音声データ中におけるテキストが未確定である未確定部分の音声認識結果から、オペレータから入力された文字列を、例えば先頭部分に含む複数の候補文字列を取得してよい。これにより、入力部３２は、候補データベース１８に格納された複数の候補文字列のうち、より正しい候補文字列を抽出することができる。

続いて、候補時間算出部３８及び選択部４２は、ステップＳ２３で取得された複数の候補文字列毎に、ステップＳ２５及びステップＳ２６の処理を実行する（Ｓ２４、Ｓ２７）。ステップＳ２５において、候補時間算出部３８は、当該候補文字列のモーラ数または音節数と、ステップＳ２１で算出した確定発話速度とに基づいて、当該候補文字列を確定発話速度で発話した場合の発話時間を算出する。

これにより、候補時間算出部３８は、対象話者が、複数の候補文字列のそれぞれを発話した場合の、推定の発話時間を算出することができる。なお、このような処理を行う候補時間算出部３８の構成の一例については、その詳細を図５において説明する。

続いて、ステップＳ２６において、選択部４２は、ステップＳ２２で算出された実際の音声の発話時間と、ステップＳ２５で算出された当該候補文字列を確定発話速度で発話した場合の推定の発話時間との差の絶対値を算出する。これにより、選択部４２は、値がより小さいほど、当該候補文字列を発話した場合の推定の発話時間が音声データ中の実際の音声の発話時間により近いことを表わす比較値を算出することができる。

全ての候補文字列についてステップＳ２５及びステップＳ２６の処理を終えると、候補時間算出部３８及び選択部４２は、処理をステップＳ２８に進める。続いて、ステップＳ２８において、選択部４２は、ステップＳ２３で取得された複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、音声データ中における未確定部分の実際の音声の発話時間により近い候補文字列を優先して選択する。

選択部４２は、一例として、ステップＳ２６で算出された比較値が、予め定められた値より小さい１又は複数の候補文字列を選択してよい。また、選択部４２は、一例として、ステップＳ２６で算出された比較値が小さい方から順に予め定められた数の複数の候補文字列を選択してよい。これにより、選択部４２は、より確からしい１又は複数の候補文字列を優先して選択することができる。

続いて、ステップＳ２９において、提示部４４は、ステップＳ２８で優先的に選択された１又は複数の候補文字列をユーザインターフェイス２２を介してオペレータに提示する。提示部４４は、一例として、選択した複数の候補文字列を、ステップＳ２６で算出された比較値が小さい方から順に並べてモニタに表示してよい。

このように、支援装置２０は、対象話者により発話された場合の推定の発話時間が、実際の音声の発話時間とより近い候補文字列をオペレータに提示することができる。従って、支援装置２０は、音声認識装置１４が音声データからテキストを生成する過程において発生させた多数の候補文字列のうち、より確からしい候補文字列をオペレータに提示することができる。これにより、支援装置２０によれば、テキストが未確定である未確定部分の文字列を修正するためのオペレータによる処理負担を軽減することができる。

図５は、本実施形態に係る候補時間算出部３８の構成の一例を示す。候補時間算出部３８は、一例として、音素列生成部６２と、モーラ数算出部６４と、補正係数算出部６６と、発話時間算出部６８とを有してよい。

音素列生成部６２は、候補データベース１８から候補文字列を受け取る。音素列生成部６２は、受け取った候補文字列の音素列を生成する。音素列生成部６２は、一例として、文字と音素との対応付けがされたテーブルを参照して、候補文字列に対応する音素列を生成してよい。

モーラ数算出部６４は、候補文字列のモーラ数を算出する。補正係数算出部６６は、一例として、音素列と、モーラ数との対応付けがされたテーブル等を参照して、候補文字列を発話した場合のモーラ数を算出してよい。

補正係数算出部６６は、候補文字列の音素列に基づく補正係数を算出する。補正係数算出部６６は、一例として、音素の標準時間長に対する候補文字列の音素列に含まれる複数の音素の個別時間長の比率を、平均した値を表わす補正係数を算出する。より具体的には、補正係数算出部６６は、一例として、候補文字列の音素列に含まれる複数の音素のそれぞれの標準時間長に対する個別時間長の比率を、例えば予め作成されたテーブル等から読み出す。そして、補正係数算出部６６は、一例として、読み出した複数の比率を平均化した値を補正係数として出力してよい。

発話時間算出部６８は、モーラ数算出部６４により算出された候補文字列のモーラ数に補正係数算出部６６により算出された補正係数を乗じた値を、未確定発話時間算出部４０により算出された確定発話速度で除算する。そして、発話時間算出部６８は、除算値を、候補文字列を確定発話速度で発話した場合の発話時間として出力する。

例えば、ｓｔｒＣ［ｎ］をｎ番目（ｎは任意の自然数）の候補文字列、与えられた文字列のモーラ数を算出する関数をｍｏｒａ（）、与えられた文字列に含まれる音素列を算出する関数をｐｈｏｎｅｍｅ（）、与えられた音素列の補正係数を算出する関数をｖｐ（）、確定発話速度をｓｐｅｅｄＡとする。この場合、発話時間算出部６８は、一例として、下記の式（２）の演算をして、候補文字列を確定発話速度で発話した場合の発話時間（式（２）のｔｉｍｅ（ｓｔｒＣ［ｎ］）を算出してよい。

ｔｉｍｅ（ｓｔｒＣ［ｎ］）＝
{ｖｐ（ｐｈｏｎｅｍｅ（ｓｔｒＣ［ｎ］））×ｍｏｒａ（ｓｔｒＣ［ｎ］）}／ｓｐｅｅｄＡ
…（２）
文字列を発話した場合の発話時間は、当該文字列に含まれる音素の種類に応じて異なる。従って、このような候補時間算出部３８は、候補文字列を確定発話速度で発話した場合の発話時間を、候補文字列に含まれる音素の種類に関わらず正確に算出することができる。

図６は、図３の処理フローにおけるステップＳ１６の処理フローの一例を、ステップＳ１７とともに示す。特定部５０は、図３の処理フローにおけるステップＳ１６において、以下のステップＳ４１〜ステップＳ４６の処理を実行する。

まず、ステップＳ４１において、特定部５０は、音声データ中における未確定部分の先頭位置からの音声認識結果の文字列または音素列と、確定文字列または確定文字列の音素列との一致度を算出する。すなわち、特定部５０は、確定部４６により確定された確定文字列と、音声認識装置１４による音声認識結果として確定データベース１６に格納されたテキストのうち、フォーカスにより指定された位置以降の確定文字列に対応する部分の文字列とが、どれだけ一致しているかを表わす一致度を算出する。これに代えて、特定部５０は、確定部４６により確定された確定文字列の音素列と、音声認識装置１４による音声認識結果として確定データベース１６に格納された音素列のうち、フォーカスにより指定された位置以降の確定文字列に対応する部分の音素列とが、どれだけ一致しているかを表わす一致値を算出してもよい。特定部５０は、一例として、確定文字列の全体の文字数又は音素数に対する、互いに一致する文字数または音素数の比率を一致度として算出してよい。

続いて、ステップＳ４２において、特定部５０は、ステップＳ４１で算出した一致度が基準一致度より高いか否かを判断する。特定部５０は、一致度が基準一致度より高いことを条件として、処理をステップＳ４３に進める。また、特定部５０は、一致度が基準一致度以下であることを条件として、処理をステップＳ４４に進める。

ステップＳ４１で算出された一致度が基準一致度より高い場合、ステップＳ４３において、特定部５０は、確定文字列に対応する音声データの範囲（即ち、確定範囲）を特定する。より詳しくは、特定部５０は、音声認識結果の文字列または音素列に確定文字列または確定文字列の音素列をマッチングさせ、マッチングされた先頭の音素から末尾の音素までを、確定範囲とする。

ステップＳ４３の処理としてより具体的には、特定部５０は、一例として、フォーカスにより指定された位置以降の文字列または当該文字列の音素列と、確定文字列または当該確定文字列の音素列との、個々の文字同士または音素同士の対応付けをする。そして、特定部５０は、確定文字列の先頭文字または先頭音素と対応付けられた、フォーカスにより指定された位置以降の文字または音素を、確定範囲の先頭とする。さらに、特定部５０は、確定文字列の末尾文字または末尾音素と対応付けられた、フォーカスにより指定された位置以降の文字または音素を、確定範囲の末尾とする。

このようにして、特定部５０は、音声認識結果の文字列または当該文字列の音素列に対して、確定文字列または当該確定文字列の音素列をマッチングさせることにより、確定範囲を算出することができる。特定部５０は、ステップＳ４３の処理を終えると、処理をステップＳ１７に進める。

ステップＳ４１で算出された一致度が基準一致度以下である場合、ステップＳ４４において、特定部５０は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。特定部５０は、一例として、確定速度算出部３６により算出された確定発話速度を取得してよい。これに代えて、特定部５０は、確定速度算出部３６と同様の処理を実行してもよい。

続いて、ステップＳ４５において、特定部５０は、確定文字列を確定発話速度で発話した場合の発話時間を算出する。これにより、特定部５０は、対象話者が確定文字列を発話した場合の推定の発話時間を算出することができる。

特定部５０は、一例として、確定文字列のモーラ数または音節数と、ステップＳ４４により算出した確定発話速度とに基づいて、確定文字列を確定発話速度で発話した場合の発話時間を算出してよい。特定部５０は、一例として、図５に示された候補時間算出部３８と同様の構成を有し、候補文字列に代えて確定文字列を処理することにより、確定文字列の発話時間を算出してよい。これにより、特定部５０は、候補文字列を確定発話速度で発話した場合の発話時間を正確に算出することができる。

続いて、ステップＳ４６において、特定部５０は、確定文字列に対応する音声データの範囲（即ち、確定範囲）を特定する。より詳しくは、ステップＳ４６において、特定部５０は、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定する。これにより、特定部５０は、当該確定文字列に続く文字列を確定させる作業を行う場合において、音声データにおける次に文字列を確定すべき部分を、自動的に指定することができる。

特定部５０は、以上のよう処理を実行することにより、確定文字列に対応する音声データの範囲（即ち、確定範囲）を特定することができる。そして、特定部５０は、以上のステップＳ４１〜ステップＳ４６の処理を終えると、処理をステップＳ１７に進める。なお、特定部５０は、一例として、ステップＳ４１〜ステップＳ４３を実行しなくてもよい。

図７は、先頭位置設定部５２により移動されるフォーカスの一例を示す。先頭位置設定部５２は、ステップＳ１７において、フォーカスを移動させる。すなわち、先頭位置設定部５２は、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を移動させる。

より具体的には、先頭位置設定部５２は、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から、特定部５０により特定された確定範囲分進めた位置に移動させる。例えば、フォーカスが音声データ中におけるテキストが未確定である未確定部分の先頭の音素を指定する場合、先頭位置設定部５２は、一例として、フォーカスにより指定される音素を、特定部５０により特定された確定範囲内の末尾の音素の次の音素に移動させる。

このような支援装置２０は、音声データ中におけるテキストが未確定である未確定部分について例えば前方から順次に所定文字ずつ修正していく場合において、テキストの一部が確定文字列に確定したことに応じて、音声データ中における次にテキストを確定すべき未確定部分の先頭位置を、自動的に指定することができる。これにより、本実施形態に係る支援装置２０によれば、オペレータの処理負担を軽減させることができる。

図８は、本実施形態の第１変形例に係る支援装置２０を示す。本変形例に係る支援装置２０は、図２に示した同一符号の部材と略同一の構成および機能を採るので、以下相違点を除き説明を省略する。

本変形例に係る支援装置２０は、置換部８０を更に備える。置換部８０は、音声データ中における確定文字列に対応する確定済部分の音声の置換を指示されたことに応じて、確定文字列に対応する部分の音声データを、確定文字列を読み上げた音声データに置換する。

音声認識装置１４による誤認識は、対象話者の誤った発音等による場合がある。本円形例に係る支援装置２０によれば、このような話者の発音に誤りがある部分について、元の音声データを正しい音声の音声データに置き換えることができる。

また、本変形例に係る支援装置２０において、選択部４２は、更に、複数の候補文字列のうち、既にテキストが確定された部分に含まれる候補文字列を優先して選択してよい。音声認識装置１４は、専門用語等の特殊な用語を、正確に認識できない可能性が高い。また、話者の口癖又は方言等を含む話者固有の音声も、正確に認識できない可能性が高い。そして、同一話者の音声には、同一の用語が頻出する場合も多い。

本変形例に係る選択部４２は、既にテキストが確定された候補文字列を優先して選択するので、このような用語を他の用語と比較して優先して選択することができる。従って、本変形例に係る支援装置２０によれば、特殊な用語および話者特有の音声等が頻出して音声認識装置１４が誤認識した場合であっても、オペレータに対して正しい文字列に容易に修正させることができる。

図９は、本実施形態の第２変形例に係る支援装置２０を示す。本変形例に係る支援装置２０は、図２に示した同一符号の部材と略同一の構成および機能を採るので、以下相違点を除き説明を省略する。

本変形例に係る支援装置２０は、話者が動作によって文章を表現する動画像データからのテキスト作成を支援する。例えば、本変形例に係る支援装置２０は、手話を表現した動画像データからのテキスト作成を支援する。

本変形例に係る支援装置２０は、確定速度算出部３６に代えて、確定表現速度算出部８２を備える。また、本変形例に係る支援装置２０は、未確定発話時間算出部４０に代えて、未確定表現時間算出部８４を備える。

確定表現速度算出部８２は、動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する。未確定表現時間算出部８４は、動画像データ中におけるテキストが未確定である未確定部分の表現の表現時間を算出する。

更に、本変形例の各部材は、音声データを音声認識した音声認識結果に代えて、手話等を表現した動画像データを認識した動画像認識結果を取り扱う。さらに、候補取得部３４は、動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する。選択部４２は、複数の候補文字列のうち、確定表現速度で表現した場合の表現時間が、動画像データ中における未確定部分の表現時間により近い候補文字列を優先して選択する。

このような支援装置２０によれば、動画像認識結果を修正する場合において、より確からしい候補文字列をオペレータに提示することができる。これにより、支援装置２０によれば、テキストが未確定である未確定部分の文字列を修正するためのオペレータによる処理負担を軽減することができる。

また、図９に示される変形例に係る支援装置２０は、音楽データからの楽譜作成を支援するものであってもよい。この場合において、支援装置２０の各部材は、音声データを音声認識した音声認識結果に代えて、音楽データから音符を自動認識した自動採譜結果を取り扱う。

さらに、確定表現速度算出部８２は、音楽データにおける既に音符が確定された確定済部分の表現速度（例えば、テンポ）である確定表現速度を算出する。未確定発話時間算出部８４は、音楽データ中における音符が未確定である未確定部分の表現の表現時間を算出する。

そして、候補取得部３４は、音楽データにおける音符が未確定である未確定部分の自動採譜結果である複数の候補音符列を取得する。選択部４２は、複数の候補音符列のうち、確定表現速度で表現した場合の表現時間が、音楽データ中における未確定部分の表現時間により近い候補文字列を優先して選択する。

このような支援装置２０によれば、自動採譜結果を修正する場合において、より確からしい音符列をオペレータに提示することができる。これにより、支援装置２０によれば、音符が未確定である未確定部分の音符列を修正するためのオペレータによる処理負担を軽減することができる。

図１０は、本実施形態に係るコンピュータ１９００のハードウェア構成の一例を示す。本実施形態に係るコンピュータ１９００は、ホスト・コントローラ２０８２により相互に接続されるＣＰＵ２０００、ＲＡＭ２０２０、グラフィック・コントローラ２０７５、及び表示装置２０８０を有するＣＰＵ周辺部と、入出力コントローラ２０８４によりホスト・コントローラ２０８２に接続される通信インターフェイス２０３０、ハードディスクドライブ２０４０、及びＣＤ−ＲＯＭドライブ２０６０を有する入出力部と、入出力コントローラ２０８４に接続されるＲＯＭ２０１０、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０を有するレガシー入出力部とを備える。

ホスト・コントローラ２０８２は、ＲＡＭ２０２０と、高い転送レートでＲＡＭ２０２０をアクセスするＣＰＵ２０００及びグラフィック・コントローラ２０７５とを接続する。ＣＰＵ２０００は、ＲＯＭ２０１０及びＲＡＭ２０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ２０７５は、ＣＰＵ２０００等がＲＡＭ２０２０内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置２０８０上に表示させる。これに代えて、グラフィック・コントローラ２０７５は、ＣＰＵ２０００等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。

入出力コントローラ２０８４は、ホスト・コントローラ２０８２と、比較的高速な入出力装置である通信インターフェイス２０３０、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０を接続する。通信インターフェイス２０３０は、ネットワークを介して他の装置と通信する。ハードディスクドライブ２０４０は、コンピュータ１９００内のＣＰＵ２０００が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ２０６０は、ＣＤ−ＲＯＭ２０９５からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。

また、入出力コントローラ２０８４には、ＲＯＭ２０１０と、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０の比較的低速な入出力装置とが接続される。ＲＯＭ２０１０は、コンピュータ１９００が起動時に実行するブート・プログラム、及び／又は、コンピュータ１９００のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ２０５０は、フレキシブルディスク２０９０からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。入出力チップ２０７０は、フレキシブルディスク・ドライブ２０５０を入出力コントローラ２０８４へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ２０８４へと接続する。

ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供されるプログラムは、フレキシブルディスク２０９０、ＣＤ−ＲＯＭ２０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、ＲＡＭ２０２０を介してコンピュータ１９００内のハードディスクドライブ２０４０にインストールされ、ＣＰＵ２０００において実行される。

コンピュータ１９００にインストールされ、コンピュータ１９００を図２に示される支援装置２０として機能させるプログラムは、入力モジュールと、候補取得モジュールと、確定速度算出モジュールと、候補時間算出モジュールと、未確定発話時間算出モジュールと、選択モジュールと、提示モジュールと、確定モジュールと、確定時間算出モジュールと、特定モジュールと、先頭位置設定モジュールとを備える。これらのプログラム又はモジュールは、ＣＰＵ２０００等に働きかけて、コンピュータ１９００を、入力部３２、候補取得部３４、確定速度算出部３６、候補時間算出部３８、未確定発話時間算出部４０、選択部４２、提示部４４、確定部４６、確定時間算出部４８、特定部５０および先頭位置設定部５２としてそれぞれ機能させる。

また、コンピュータ１９００にインストールされ、コンピュータ１９００を図８に示される支援装置２０として機能させるプログラムは、置換モジュールを更に備える。これらのプログラム又はモジュールは、ＣＰＵ２０００等に働きかけて、コンピュータ１９００を、更に、置換部８０として機能させる。

また、コンピュータ１９００にインストールされ、コンピュータ１９００を図９に示される支援装置２０として機能させるプログラムは、確定表現速度算出モジュールと、未確定発話時間算出モジュールとを更に備える。これらのプログラム又はモジュールは、ＣＰＵ２０００等に働きかけて、コンピュータ１９００を、更に、確定表現速度算出部８２および未確定発話時間算出部８４として機能させる。

これらのプログラムに記述された情報処理は、コンピュータ１９００に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である入力部３２、候補取得部３４、確定速度算出部３６、候補時間算出部３８、未確定発話時間算出部４０、選択部４２、提示部４４、確定部４６、確定時間算出部４８、特定部５０、先頭位置設定部５２、置換部８０、確定表現速度算出部８２および未確定発話時間算出部８４として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ１９００の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の支援装置２０が構築される。

一例として、コンピュータ１９００と外部の装置等との間で通信を行う場合には、ＣＰＵ２０００は、ＲＡＭ２０２０上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス２０３０に対して通信処理を指示する。通信インターフェイス２０３０は、ＣＰＵ２０００の制御を受けて、ＲＡＭ２０２０、ハードディスクドライブ２０４０、フレキシブルディスク２０９０、又はＣＤ−ＲＯＭ２０９５等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス２０３０は、ＤＭＡ（ダイレクト・メモリ・アクセス）方式により記憶装置との間で送受信データを転送してもよく、これに代えて、ＣＰＵ２０００が転送元の記憶装置又は通信インターフェイス２０３０からデータを読み出し、転送先の通信インターフェイス２０３０又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。

また、ＣＰＵ２０００は、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０（ＣＤ−ＲＯＭ２０９５）、フレキシブルディスク・ドライブ２０５０（フレキシブルディスク２０９０）等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をＤＭＡ転送等によりＲＡＭ２０２０へと読み込ませ、ＲＡＭ２０２０上のデータに対して各種の処理を行う。そして、ＣＰＵ２０００は、処理を終えたデータを、ＤＭＡ転送等により外部記憶装置へと書き戻す。このような処理において、ＲＡＭ２０２０は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはＲＡＭ２０２０および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、ＣＰＵ２０００は、ＲＡＭ２０２０の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはＲＡＭ２０２０の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもＲＡＭ２０２０、メモリ、及び／又は記憶装置に含まれるものとする。

また、ＣＰＵ２０００は、ＲＡＭ２０２０から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、ＲＡＭ２０２０へと書き戻す。例えば、ＣＰＵ２０００は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合（又は不成立であった場合）に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。

また、ＣＰＵ２０００は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第１属性の属性値に対し第２属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、ＣＰＵ２０００は、記憶装置に格納されている複数のエントリの中から第１属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第２属性の属性値を読み出すことにより、所定の条件を満たす第１属性に対応付けられた第２属性の属性値を得ることができる。

以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク２０９０、ＣＤ−ＲＯＭ２０９５の他に、ＤＶＤ又はＣＤ等の光学記録媒体、ＭＯ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ１９００に提供してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、本実施形態に係る音声認識システム１０の構成を示す。図２は、本実施形態に係る支援装置２０の構成を、確定データベース１６および候補データベース１８とともに示す。図３は、本実施形態に係る支援装置２０の処理フローを示す。図４は、図３における処理フローのステップＳ１４の処理フローの一例を示す。図５は、本実施形態に係る候補時間算出部３８の構成の一例を示す。図６は、図３の処理フローにおけるステップＳ１６の処理フローの一例を、ステップＳ１７とともに示す。図７は、先頭位置設定部５２により移動されるフォーカスの一例を示す。図８は、本実施形態の第１変形例に係る支援装置２０を示す。図９は、本実施形態の第２変形例に係る支援装置２０を示す。図１０は、本実施形態に係るコンピュータ１９００のハードウェア構成の一例を示す。

符号の説明

１０音声認識システム
１２音声データベース
１４音声認識装置
１６確定データベース
１８候補データベース
２０支援装置
２２ユーザインターフェイス
３２入力部
３４候補取得部
３６確定速度算出部
３８候補時間算出部
４０未確定発話時間算出部
４２選択部
４４提示部
４６確定部
４８確定時間算出部
５０特定部
５２先頭位置設定部
６２音素列生成部
６４モーラ数算出部
６６補正係数算出部
６８発話時間算出部
８０置換部
８２確定表現速度算出部
８４未確定発話時間算出部
１９００コンピュータ
２０００ＣＰＵ
２０１０ＲＯＭ
２０２０ＲＡＭ
２０３０通信インターフェイス
２０４０ハードディスクドライブ
２０５０フレキシブルディスク・ドライブ
２０６０ＣＤ−ＲＯＭドライブ
２０７０入出力チップ
２０７５グラフィック・コントローラ
２０８０表示装置
２０８２ホスト・コントローラ
２０８４入出力コントローラ
２０９０フレキシブルディスク
２０９５ＣＤ−ＲＯＭ

Claims

音声データからのテキスト作成を支援する支援装置であって、
前記音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出部と、
前記音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得部と、
前記複数の候補文字列のうち、前記確定発話速度で発話した場合の発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する選択部と、
前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定部と
を備える支援装置。
前記先頭位置設定部は、
前記音声データ中における前記未確定部分の先頭位置からの音声認識結果の文字列または音素列と、前記確定文字列または前記確定文字列の音素列との一致度が基準一致度より高いことを条件として、音声認識結果の文字列または音素列に前記確定文字列または前記確定文字列の音素列をマッチングさせ、マッチングされた末尾の音素の次の音素を前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素とし、
前記一致度が前記基準一致度以下であることを条件として、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる
請求項１に記載の支援装置。
前記確定速度算出部は、前記音声データ中における既にテキストが確定された前記確定済部分の、単位時間当たりに発話されたモーラ数または音節数を前記確定発話速度として算出し、
前記複数の候補文字列のそれぞれについて、当該候補文字列のモーラ数または音節数と前記確定発話速度とに基づいて、当該候補文字列を前記確定発話速度で発話した場合の発話時間を算出する候補時間算出部を更に備え、
前記選択部は、前記複数の候補文字列のうち、前記候補時間算出部により算出された前記発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する
請求項１または２に記載の支援装置。
前記候補時間算出部は、
前記候補文字列の音素列を生成する音素列生成部と、
前記候補文字列の音素列に基づく補正係数を算出する補正係数算出部と、
前記候補文字列のモーラ数に前記補正係数を乗じた値を、前記確定発話速度で除算した値を、前記候補文字列を前記確定発話速度で発話した場合の発話時間として算出する発話時間算出部と、
を有する請求項３に記載の支援装置。
前記音声データ中における前記確定文字列に対応する確定済部分の音声の置換を指示されたことに応じて、前記確定文字列に対応する部分の音声データを、前記確定文字列を読み上げた音声データに置換する置換部を更に備える請求項１から４のいずれか一項に記載の支援装置。
前記音声データ中におけるテキストが未確定である前記未確定部分に対応する文字列の少なくとも一部を使用者から受け取る入力部を更に備え、
前記候補取得部は、前記音声データ中におけるテキストが未確定である前記未確定部分の音声認識結果から、使用者から入力された文字列を含む前記複数の候補文字列を取得する請求項１から５のいずれか一項に記載の支援装置。
話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援装置であって、
前記動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出部と、
前記動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得部と、
前記複数の候補文字列のうち、前記確定表現速度で表現した場合の表現時間が、前記動画像データ中における前記未確定部分の表現時間により近い候補文字列を優先して選択する選択部と、
前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定部と
を備える支援装置。
前記先頭位置設定部は、
前記動画像データ中における前記未確定部分の先頭位置からの画像認識結果の文字列と、前記確定文字列との一致度が基準一致度より高いことを条件として、画像認識結果の文字列に前記確定文字列をマッチングさせ、マッチングされた末尾の動画像の次の動画像を前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像とし、
前記一致度が前記基準一致度以下であることを条件として、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる
請求項７に記載の支援装置。
音声データからのテキスト作成を支援する請求項１から６のいずれか一項に記載の支援装置として、コンピュータを機能させるプログラム。
話者が動作によって文章を表現する動画像データからのテキスト作成を支援する請求項７または８に記載の支援装置として、コンピュータを機能させるプログラム。
音声データからのテキスト作成を支援する支援方法であって、
前記音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出ステップと、
前記音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得ステップと、
前記複数の候補文字列のうち、前記確定発話速度で発話した場合の発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する選択ステップと、
前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定ステップと
を備える支援方法。
前記先頭位置設定ステップは、
前記音声データ中における前記未確定部分の先頭位置からの音声認識結果の文字列または音素列と、前記確定文字列または前記確定文字列の音素列との一致度が基準一致度より高いことを条件として、音声認識結果の文字列または音素列に前記確定文字列または前記確定文字列の音素列をマッチングさせ、マッチングされた末尾の音素の次の音素を前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素とし、
前記一致度が前記基準一致度以下であることを条件として、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる
請求項１１に記載の支援方法。
話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援方法であって、
前記動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出ステップと、
前記動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得ステップと、
前記複数の候補文字列のうち、前記確定表現速度で表現した場合の表現時間が、前記動画像データ中における前記未確定部分の表現時間により近い候補文字列を優先して選択する選択ステップと、
前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定ステップと
を備える支援方法。
前記先頭位置設定ステップは、
前記動画像データ中における前記未確定部分の先頭位置からの画像認識結果の文字列と、前記確定文字列との一致度が基準一致度より高いことを条件として、画像認識結果の文字列に前記確定文字列をマッチングさせ、マッチングされた末尾の動画像の次の動画像を前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像とし、
前記一致度が前記基準一致度以下であることを条件として、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる
請求項１３に記載の支援方法。