JP5451982B2 - 支援装置、プログラムおよび支援方法 - Google Patents

支援装置、プログラムおよび支援方法 Download PDF

Info

Publication number
JP5451982B2
JP5451982B2 JP2008113190A JP2008113190A JP5451982B2 JP 5451982 B2 JP5451982 B2 JP 5451982B2 JP 2008113190 A JP2008113190 A JP 2008113190A JP 2008113190 A JP2008113190 A JP 2008113190A JP 5451982 B2 JP5451982 B2 JP 5451982B2
Authority
JP
Japan
Prior art keywords
character string
confirmed
text
unconfirmed
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008113190A
Other languages
English (en)
Other versions
JP2009265276A (ja
Inventor
晃太郎 宮本
隆 斉藤
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Priority to JP2008113190A priority Critical patent/JP5451982B2/ja
Priority to KR1020090035109A priority patent/KR101054699B1/ko
Priority to US12/428,907 priority patent/US8275614B2/en
Publication of JP2009265276A publication Critical patent/JP2009265276A/ja
Application granted granted Critical
Publication of JP5451982B2 publication Critical patent/JP5451982B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、支援装置、プログラムおよび支援方法に関する。特に本発明は、音声データからのテキスト作成を支援する支援装置、プログラムおよび支援方法に関する。
聴覚障害者および高齢者等に対するアクセシビリティを高くすることを目的として、音声の内容を表すテキストが付与されたコンテンツの提供が行われている。音声の内容を表すテキストは、例えば、音声データからテキストを自動作成する音声認識装置(例えば、非特許文献1〜3参照)を用いて生成される。
特開2000−324395号公報 特開2003−46861号公報 特開2006−227319号公報 赤川達也,岩野公司,古井貞煕、「HMMを用いた話し言葉音声合成におけるモデルの構築とその合成音声への影響」、日本音響学会講演論文集、2007年3月、p.201−202 山田善之,宮島千代美,伊藤克亘,武田一哉、「音素長伸縮による対話音声認識性能の向上手法」、情報処理学会研究報告.SLP,音声言語情報処理 IPSJ SIG Notes Vol.2005,No.103(20051021)、p.1−6 馬場朗、「音声認識のための高齢者向け音響モデルの評価法」、松下電工技報 特集「顧客価値を解析評価技術」、2002年11月、p.20−26
ところで、音声認識装置は、現状において、音声データから100パーセントの信頼性でテキストを生成することは難しい。すなわち、現状において、音声認識装置によって音声データから生成されたテキストには、信頼性が比較的低い未確定部分が含まれる。
ここで、音声認識装置によって音声データから生成されたテキストのうち、信頼性が比較的に低い未確定部分については、オペレータが、例えば手動で文字列を入力して修正しなければならない。しかしながら、このような修正には多くの作業時間が必要となってしまう。
また、音声認識装置は、音声データからテキストを生成する過程において、音声データを分割した分割部分毎に多数の候補文字列を発生させ、これら多数の候補文字列の中から一つの文字列を選択する処理を実行する。従って、オペレータは、これら多数の候補文字列を表示させ、これらの中から手動で正しい文字列を選択することにより、信頼性が比較的に低い未確定部分を修正してもよい。しかしながら、音声認識装置により生成される候補文字列は膨大に存在するので、これらの中から手動で一つの文字列を選択した場合も、多くの作業時間が必要となってしまう。
また、オペレータは、このような修正作業を、例えば当該未確定部分の前方から所定範囲毎(例えば数文字毎)に順次に行っていく。このような場合、テキストを修正して内容が確定した文字列に対応する音声データの範囲を自動的に特定し、次にテキストを修正すべき音声データの先頭を自動的に見つけ出す支援装置が存在すると、オペレータは、音声データを自分で聞きながら次にテキストを確定すべき音声データの先頭を見つけ出す作業を行わなくてよいので、作業が容易となる。
ここで、音声データ中におけるテキストが確定された範囲を自動的に特定するためには、音声データをコンピュータにより音響解析しなければならない。しかしながら、現状において、このような方法では、音声データ中におけるテキストが確定された範囲を精度良く特定することは困難であった。
また、音声データの時間範囲を特定する技術として、特許文献1〜3が知られている。特許文献1には、字幕の基となる字幕テキストを分割し、基準となるタイミング情報と、文字種、文字数および発音記号列を含む文字情報とに基づいて、各分割箇所にタイミング情報を付与する技術が記載されている。特許文献2には、モニタに字幕を表示して、キー入力があったときに、操作タイミングおよびキー種別を記録する技術が記載されている。特許文献3には、音素または音節等の構成要素の継続時間長の確率分布および発話速度の確率分布を推定する技術が記載されている。
しかしながら、特許文献1〜3に記載された技術を用いても、音声データ中におけるテキストが確定された範囲を精度良く特定することはできなかった。従って、現状において、オペレータは、テキストを確定した確定文字列に対応する音声データの範囲を、音声データを自分で聞きながら特定しなければならなかった。
そこで本発明は、上記の課題を解決することのできる支援装置、プログラムおよび支援方法を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、音声データからのテキスト作成を支援する支援装置であって、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出部と、音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得部と、複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、音声データ中における未確定部分の発話時間により近い候補文字列を優先して選択する選択部と、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定部とを備える支援装置、コンピュータを当該支援装置として機能させるプログラム、および、当該支援装置による支援方法を提供する。
本発明の第2の形態においては、話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援装置であって、動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出部と、
動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得部と、複数の候補文字列のうち、確定表現速度で表現した場合の表現時間が、動画像データ中における未確定部分の表現時間により近い候補文字列を優先して選択する選択部と、テキストの一部分が確定文字列に確定されたことに応じて、動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から確定文字列を確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定部とを備える支援装置、コンピュータを当該支援装置として機能させるプログラム、および、当該支援装置による支援方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係る音声認識システム10の構成を示す。音声認識システム10は、音声データに含まれる音声の内容を表わすテキスト(即ち、文字列)を生成する。
音声認識システム10は、音声データベース12と、音声認識装置14と、確定データベース16と、候補データベース18と、支援装置20と、ユーザインターフェイス22とを備える。音声データベース12は、テキストを生成する対象となる音声データを格納する。
音声認識装置14は、対象となる音声データを音声認識する。音声認識装置14は、一例として、音声認識プログラムを実行したコンピュータにより実現されてよい。音声認識装置14は、音声認識プログラムの一例であるIBM ViaVoice(登録商標)を実行したコンピュータにより実現されてよい。
確定データベース16は、音声認識装置14が音声データを音声認識した結果得られた、テキストおよび形態素列を格納する。テキストは、音声データに含まれる音声の内容を表わす文字列である。形態素列は、音声データに含まれる音声の音を表わす音素列を、言語の最小の意味単位毎に分割した情報である。形態素列に含まれる各音素には、一例として、当該音素が出力された時刻を表わすタイムスタンプが対応付けられていてよい。
さらに、確定データベース16は、一例として、音声認識結果が確定しているか未確定であるかを表わす文字属性を、テキストのそれぞれの文字に対応させて格納してよい。音声認識が確定している部分は、一例として、文字の確からしさが基準値以上であってよい。また、音声認識が未確定である部分は、一例として、文字の確からしさが基準値未満の文字であってよい。
候補データベース18は、音声認識装置14が音声データを音声認識した結果得られた、複数の候補文字列を格納する。音声認識装置14は、音声データからテキストを生成する過程において、音声データを分割した分割部分毎に多数の候補文字列を発生させ、これら多数の候補文字列の中から一つの文字列を選択する処理を実行する。候補データベース18は、確定データベース16に格納されたテキストに含まれる複数の文字列のそれぞれに対応させて、このような候補文字列を格納する。
支援装置20は、音声データからのテキスト作成を支援する。より詳しくは、支援装置20は、音声認識装置14が音声データを音声認識した結果として確定データベース16に格納されているテキストのうち、音声認識結果が未確定である未確定部分のテキストについて、当該音声認識システム10の使用者であるオペレータが正しい文字列に修正する作業を支援する。このような支援装置20は、一例として、支援プログラムを実行したコンピュータにより実現されてよい。
ユーザインターフェイス22は、オペレータから情報を受け取り、当該オペレータに情報を出力する。ユーザインターフェイス22は、一例として、キーボード、マウス、モニタおよびスピーカ等であってよい。
このような構成の音声認識システム10は、まず、第1段階において、音声認識装置14が対象となる音声データを音声認識する。続く第2段階において、音声認識装置14による音声認識結果が未確定であるテキストについて、部分毎に順次に、支援装置20を用いてオペレータが正しい文字列に修正する。
なお、音声認識システム10は、音声データベース12および音声認識装置14を備えない構成であってもよい。このような場合、音声認識システム10は、既に音声認識された結果を外部から受け取り、外部から受け取った音声認識結果を確定データベース16および候補データベース18に格納させる。
図2は、本実施形態に係る支援装置20の構成を、確定データベース16および候補データベース18とともに示す。支援装置20は、入力部32と、候補取得部34と、確定速度算出部36と、候補時間算出部38と、未確定発話時間算出部40と、選択部42と、提示部44と、確定部46と、確定時間算出部48と、特定部50と、先頭位置設定部52とを備える。入力部32は、オペレータがユーザインターフェイス22を用いて入力した情報を受け取る。
候補取得部34は、音声データ中におけるテキストが未確定である未確定部分の先頭位置を指定するフォーカスを受け取る。フォーカスは、一例として、テキストが未確定である未確定部分の先頭の音素を指定する情報であってよい。支援装置20は、このようなフォーカスを用いて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を指定することにより、次に文字列を確定すべき音声データの範囲を指定することができる。
候補取得部34は、先頭位置設定部52からフォーカスを受け取る。作業開始時においては、候補取得部34は、一例として、音声データにおける任意位置を指定するフォーカスが、オペレータからユーザインターフェイス22を介して与えられてよい。
さらに、候補取得部34は、音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を候補データベース18から取得する。候補取得部34は、一例として、フォーカスにより指定された位置から所定範囲(例えば、所定の文字数の範囲、所定の音素数の範囲または所定の形態素数の範囲)のテキストを生成する処理において用いられた複数の候補文字列を、候補データベース18から取得してよい。
確定速度算出部36は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。確定速度算出部36は、一例として、音声データ中における既にテキストが確定された確定済部分の、単位時間当たりに発話されたモーラ数または音節数を確定発話速度として算出してよい。これにより、確定速度算出部36は、対象の音声データ中において音声を発している対象話者の固有の発話速度を算出できる。
候補時間算出部38は、候補取得部34が取得した複数の候補文字列を受け取る。そして、候補時間算出部38は、受け取った複数の候補文字列のそれぞれについて、当該候補文字列のモーラ数または音節数と確定発話速度とに基づいて、当該候補文字列を確定発話速度で発話した場合の発話時間を算出する。これにより、候補時間算出部38は、対象話者が複数の候補文字列のそれぞれを発話した場合の、推定の発話時間を算出することができる。
未確定発話時間算出部40は、音声データ中におけるテキストが未確定である未確定部分の音声の発話時間を算出する。未確定発話時間算出部40は、一例として、フォーカスにより指定された位置から、当該フォーカスにより指定された位置以降の最初の無音部分の直前位置までの範囲の時間幅を、未確定部分の音声の発話時間として算出してよい。これにより、未確定発話時間算出部40は、テキストが未確定である未確定部分におけるこれから文字列を修正させる部分についての実際の音声の発話時間を算出することができる。
選択部42は、候補取得部34が取得した複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、未確定発話時間算出部40が算出した音声データ中における未確定部分の発話時間により近い候補文字列を優先して選択する。選択部42は、一例として、複数の候補文字列についての確定発話速度で発話した場合の推定の発話時間のそれぞれと、音声データ中における未確定部分の実際の音声の発話時間との、差又は比率を算出することにより比較してよい。そして、選択部42は、差がより小さいまたは比率がより1に近い1又は複数の候補文字列を選択してよい。これにより、選択部42は、対象話者により発話された場合の推定の発話時間が、音声データ中の実際の音声の発話時間とより近い候補文字列を選択することができる。すなわち、選択部42は、候補データベース18から受け取った複数の候補文字列のうち、より確からしい候補文字列を選択することができる。
提示部44は、選択部42により選択された1又は複数の候補文字列をユーザインターフェイス22を介してオペレータに提示する。提示部44は、一例として、選択部42により選択された1又は複数の候補文字列を、より確からしい候補文字列が上位に位置するように並べ替えてモニタに表示してよい。これにより、提示部44は、オペレータに対して、より確からしい候補文字列を最初に参照させて、音声認識結果が未確定である部分のテキストを正しい文字列に修正させることができる。
確定部46は、音声認識結果が未確定である部分のテキストをオペレータがユーザインターフェイス22により修正した文字列を、確定文字列として受け取る。確定部46は、一例として、フォーカスにより指定された位置から所定範囲のテキストを修正した文字列を、確定文字列として受け取ってよい。確定部46は、受け取った確定文字列を、確定データベース16に書き込む。そして、確定部46は、確定文字列に対応する文字属性を、確定していることを示す値に書き換える。これにより、確定部46は、音声認識装置14による音声認識結果が未確定であった部分のテキストを、正しい文字列に確定することができる。
確定時間算出部48は、確定部46により確定された確定文字列のモーラ数または音節数と、確定速度算出部36により算出された確定発話速度とに基づいて、当該確定文字列を確定発話速度で発話した場合の発話時間を算出する。このような確定時間算出部48は、確定部46により確定された確定文字列を対象話者が発話した場合の発話時間を算出することができる。
特定部50は、確定部46により確定された確定文字列に対応する音声データの範囲を特定する。より詳しくは、特定部50は、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定する。
特定部50は、一例として、確定前においてフォーカスにより指定されていた位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定してよい。すなわち、特定部50は、一例として、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から、確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素までの範囲を、確定範囲として特定してよい。
先頭位置設定部52は、テキストの一部分が確定文字列に確定されたことに応じて、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から特定部50により特定された確定範囲分進めた位置に移動させる。すなわち、先頭位置設定部52は、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から確定文字列を確定発話速度で発話した場合の発話時間分進めた位置に移動させる。
先頭位置設定部52は、一例として、フォーカスが音声データ中におけるテキストが未確定である未確定部分の先頭の音素を指定する場合であれば、フォーカスが指定する音素を、確定前においてフォーカスが指定していた音素から特定部50により特定された確定範囲内の末尾音素の次の音素に移動させてよい。すなわち、先頭位置設定部52は、一例として、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させてよい。これにより、先頭位置設定部52は、当該確定文字列に続く次の文字列をオペレータに修正させる場合において、次に文字列を確定すべき音声データにおける部分を、自動的に指定することができる。
図3は、本実施形態に係る支援装置20の処理フローを示す。支援装置20は、例えばオペレータから開始指示が与えられると、図3に示されるステップS11〜ステップS18の処理を実行する。
まず、ステップS11において、候補取得部34は、フォーカスを受け取る。候補取得部34は、一例として、オペレータにより入力された位置を指定するフォーカスを受け取ってよい。
続いて、ステップS12において、確定部46は、フォーカスにより指定された位置以降の所定範囲(例えば、所定の文字数の範囲、所定の音素数の範囲または所定の形態素数の範囲)のテキストが確定されている否かを判断する。確定部46は、一例として、フォーカスにより指定された位置以降の所定範囲の文字属性が確定されていることを示す値か否かを判断してよい。音声データベース12は、テキストが確定されている場合には処理をステップS13に進め、テキストが確定されていない場合には処理をステップS14に進める。
ステップS12でテキストが確定されていると判断された場合、ステップS13において、特定部50は、フォーカスにより指定された位置以降の所定範囲の文字列(即ち、確定文字列)に対応する音声データの範囲(即ち、確定範囲)を特定する。特定部50は、一例として、確定文字列に対応する音素列における先頭の音素から末尾の音素までの範囲を、確定範囲として特定してよい。特定部50は、確定範囲を特定すると、処理をステップS17に進める。
ステップS12でテキストが未確定であると判断された場合、ステップS14において、支援装置20は、1又は複数の候補文字列を、オペレータに提示する。なお、ステップS14の処理については、その詳細を図4において説明する。
続いて、ステップS15において、確定部46は、フォーカスにより指定された位置以降の所定範囲のテキストをオペレータに修正させ、オペレータにより修正された文字列を、確定文字列として受け取る。そして、確定部46は、受け取った確定文字列を確定データベース16に書き込む。さらに、確定部46は、確定文字列に対応する文字属性を、確定していることを示す値に書き換える。
続いて、ステップS16において、特定部50は、ステップS15で確定した確定文字列に対応する音声データの確定範囲を特定する。なお、ステップS16の処理については、その詳細を図6において説明する。
続いて、ステップS17において、先頭位置設定部52は、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から、ステップS13またはステップS16で特定した確定範囲分進めた位置に移動させる。
続いて、ステップS18において、先頭位置設定部52は、フォーカスが指定する位置が音声データの末尾に達したか否かを判断する。先頭位置設定部52は、フォーカスが指定する位置が音声データの末尾に達していない場合には、処理をステップS12に進める。先頭位置設定部52は、フォーカスが指定する位置が音声データの末尾に達した場合には、当該フローを終了する。
図4は、図3における処理フローのステップS14の処理フローの一例を示す。支援装置20は、図3における処理フローのステップS14において、一例として、図4に示されるステップS21〜ステップS29の処理を実行してよい。
まず、ステップS21において、確定速度算出部36は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。確定速度算出部36は、一例として、音声データ中における既にテキストが確定された確定済部分の、単位時間当たりに発話されたモーラ数または音節数を確定発話速度として算出してよい。
確定速度算出部36は、一例として、既にテキストが確定された確定済部分のうち連続して音声を発話している部分(即ち、発話が途切れた区間を含まない部分)の音声認識結果を確定データベース16から取得する。続いて、確定速度算出部36は、一例として、取得した音声認識結果から、確定済部分の発話時間および確定済部分の文字列を発話した場合のモーラ数または音節数を算出する。確定速度算出部36は、一例として、確定済部分の先頭の音素のタイムスタンプと末尾の音素のタイムスタンプとの差を、確定済部分の発話時間として算出してよい。また、確定速度算出部36は、一例として、音素列と、モーラ数または音節数との対応付けがされたテーブル等を参照して、確定済部分の文字列を発話した場合のモーラ数または音節数を算出してよい。
そして、確定速度算出部36は、一例として、確定済部分の文字列を発話した場合のモーラ数または音節数を、確定済部分の発話時間で除算した結果を、確定発話速度として算出してよい。例えば、確定済部分の文字列をstrD、与えられた文字列からモーラ数または音節数を算出する関数をmora()、確定済部分の発話時間をtimeDAllとした場合、確定速度算出部36は、一例として、下記の式(1)の演算をして確定発話速度(式(1)のspeedA)を算出してよい。
speedA=mora(stdD)/timeDAll …(1)
このようにして、確定速度算出部36は、対象話者の固有の発話速度を表わす確定発話速度を算出することができる。
続いて、ステップS22において、未確定発話時間算出部40は、フォーカスにより指定された位置から、当該フォーカスにより指定された位置以降の最初の無音部分の直前位置までの範囲の時間幅を算出する。これにより、未確定発話時間算出部40は、フォーカスにより指定された位置以降のテキストが未確定である未確定部分の実際の音声の発話時間を算出することができる。
未確定発話時間算出部40は、一例として、フォーカスにより指定された音素から、当該フォーカスにより指定された音素以降の最初の無音部分の直前の音素までの範囲の時間幅を、テキストが未確定である未確定部分の音声の発話時間として算出してよい。例えば「ありがとうございます」といったように音声が発話されると、多くの場合、発話された音声の前後が無音となる。従って、未確定発話時間算出部40は、無音部分の直前の音素を検出することにより、発話された音声の末尾位置を検出することができる。
また、フォーカスは、一例として、テキストが未確定である未確定部分の先頭の音素を指定する。従って、未確定発話時間算出部40は、フォーカスにより指定された音素を取得することにより、テキストが未確定である未確定部分の音声の先頭位置を検出することができる。このように、未確定発話時間算出部40は、フォーカスにより指定された位置から、無音部分の直前位置までの範囲の時間を検出することにより、テキストが未確定である未確定部分の音声の発話時間を算出することができる。
また、未確定発話時間算出部40は、一例として、確定データベース16に格納された各音素のタイムスタンプの間隔を検出し、一定間隔以上の部分を無音区間と判断してよい。これに代えて、未確定発話時間算出部40は、音声データベース12内の音声データの振幅を検出し、一定以下の振幅の部分を無音区間と判断してもよい。
続いて、ステップS23において、候補取得部34は、フォーカスにより指定された位置以降の音声認識結果である複数の候補文字列を候補データベース18から取得する。候補取得部34は、一例として、フォーカスにより指定された位置以降の所定範囲のテキストを生成する処理において用いられた複数の候補文字列を候補データベース18から取得してよい。
さらに、ステップS23において、入力部32は、一例として、音声データ中におけるテキストが未確定である未確定部分に対応する文字列の少なくとも一部(例えば、先頭の所定個の文字)をオペレータから受け取ってよい。そして、この場合において、候補取得部34は、音声データ中におけるテキストが未確定である未確定部分の音声認識結果から、オペレータから入力された文字列を、例えば先頭部分に含む複数の候補文字列を取得してよい。これにより、入力部32は、候補データベース18に格納された複数の候補文字列のうち、より正しい候補文字列を抽出することができる。
続いて、候補時間算出部38及び選択部42は、ステップS23で取得された複数の候補文字列毎に、ステップS25及びステップS26の処理を実行する(S24、S27)。ステップS25において、候補時間算出部38は、当該候補文字列のモーラ数または音節数と、ステップS21で算出した確定発話速度とに基づいて、当該候補文字列を確定発話速度で発話した場合の発話時間を算出する。
これにより、候補時間算出部38は、対象話者が、複数の候補文字列のそれぞれを発話した場合の、推定の発話時間を算出することができる。なお、このような処理を行う候補時間算出部38の構成の一例については、その詳細を図5において説明する。
続いて、ステップS26において、選択部42は、ステップS22で算出された実際の音声の発話時間と、ステップS25で算出された当該候補文字列を確定発話速度で発話した場合の推定の発話時間との差の絶対値を算出する。これにより、選択部42は、値がより小さいほど、当該候補文字列を発話した場合の推定の発話時間が音声データ中の実際の音声の発話時間により近いことを表わす比較値を算出することができる。
全ての候補文字列についてステップS25及びステップS26の処理を終えると、候補時間算出部38及び選択部42は、処理をステップS28に進める。続いて、ステップS28において、選択部42は、ステップS23で取得された複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、音声データ中における未確定部分の実際の音声の発話時間により近い候補文字列を優先して選択する。
選択部42は、一例として、ステップS26で算出された比較値が、予め定められた値より小さい1又は複数の候補文字列を選択してよい。また、選択部42は、一例として、ステップS26で算出された比較値が小さい方から順に予め定められた数の複数の候補文字列を選択してよい。これにより、選択部42は、より確からしい1又は複数の候補文字列を優先して選択することができる。
続いて、ステップS29において、提示部44は、ステップS28で優先的に選択された1又は複数の候補文字列をユーザインターフェイス22を介してオペレータに提示する。提示部44は、一例として、選択した複数の候補文字列を、ステップS26で算出された比較値が小さい方から順に並べてモニタに表示してよい。
このように、支援装置20は、対象話者により発話された場合の推定の発話時間が、実際の音声の発話時間とより近い候補文字列をオペレータに提示することができる。従って、支援装置20は、音声認識装置14が音声データからテキストを生成する過程において発生させた多数の候補文字列のうち、より確からしい候補文字列をオペレータに提示することができる。これにより、支援装置20によれば、テキストが未確定である未確定部分の文字列を修正するためのオペレータによる処理負担を軽減することができる。
図5は、本実施形態に係る候補時間算出部38の構成の一例を示す。候補時間算出部38は、一例として、音素列生成部62と、モーラ数算出部64と、補正係数算出部66と、発話時間算出部68とを有してよい。
音素列生成部62は、候補データベース18から候補文字列を受け取る。音素列生成部62は、受け取った候補文字列の音素列を生成する。音素列生成部62は、一例として、文字と音素との対応付けがされたテーブルを参照して、候補文字列に対応する音素列を生成してよい。
モーラ数算出部64は、候補文字列のモーラ数を算出する。補正係数算出部66は、一例として、音素列と、モーラ数との対応付けがされたテーブル等を参照して、候補文字列を発話した場合のモーラ数を算出してよい。
補正係数算出部66は、候補文字列の音素列に基づく補正係数を算出する。補正係数算出部66は、一例として、音素の標準時間長に対する候補文字列の音素列に含まれる複数の音素の個別時間長の比率を、平均した値を表わす補正係数を算出する。より具体的には、補正係数算出部66は、一例として、候補文字列の音素列に含まれる複数の音素のそれぞれの標準時間長に対する個別時間長の比率を、例えば予め作成されたテーブル等から読み出す。そして、補正係数算出部66は、一例として、読み出した複数の比率を平均化した値を補正係数として出力してよい。
発話時間算出部68は、モーラ数算出部64により算出された候補文字列のモーラ数に補正係数算出部66により算出された補正係数を乗じた値を、未確定発話時間算出部40により算出された確定発話速度で除算する。そして、発話時間算出部68は、除算値を、候補文字列を確定発話速度で発話した場合の発話時間として出力する。
例えば、strC[n]をn番目(nは任意の自然数)の候補文字列、与えられた文字列のモーラ数を算出する関数をmora()、与えられた文字列に含まれる音素列を算出する関数をphoneme()、与えられた音素列の補正係数を算出する関数をvp()、確定発話速度をspeedAとする。この場合、発話時間算出部68は、一例として、下記の式(2)の演算をして、候補文字列を確定発話速度で発話した場合の発話時間(式(2)のtime(strC[n])を算出してよい。
time(strC[n])=
{vp(phoneme(strC[n]))×mora(strC[n])}/speedA
…(2)
文字列を発話した場合の発話時間は、当該文字列に含まれる音素の種類に応じて異なる。従って、このような候補時間算出部38は、候補文字列を確定発話速度で発話した場合の発話時間を、候補文字列に含まれる音素の種類に関わらず正確に算出することができる。
図6は、図3の処理フローにおけるステップS16の処理フローの一例を、ステップS17とともに示す。特定部50は、図3の処理フローにおけるステップS16において、以下のステップS41〜ステップS46の処理を実行する。
まず、ステップS41において、特定部50は、音声データ中における未確定部分の先頭位置からの音声認識結果の文字列または音素列と、確定文字列または確定文字列の音素列との一致度を算出する。すなわち、特定部50は、確定部46により確定された確定文字列と、音声認識装置14による音声認識結果として確定データベース16に格納されたテキストのうち、フォーカスにより指定された位置以降の確定文字列に対応する部分の文字列とが、どれだけ一致しているかを表わす一致度を算出する。これに代えて、特定部50は、確定部46により確定された確定文字列の音素列と、音声認識装置14による音声認識結果として確定データベース16に格納された音素列のうち、フォーカスにより指定された位置以降の確定文字列に対応する部分の音素列とが、どれだけ一致しているかを表わす一致値を算出してもよい。特定部50は、一例として、確定文字列の全体の文字数又は音素数に対する、互いに一致する文字数または音素数の比率を一致度として算出してよい。
続いて、ステップS42において、特定部50は、ステップS41で算出した一致度が基準一致度より高いか否かを判断する。特定部50は、一致度が基準一致度より高いことを条件として、処理をステップS43に進める。また、特定部50は、一致度が基準一致度以下であることを条件として、処理をステップS44に進める。
ステップS41で算出された一致度が基準一致度より高い場合、ステップS43において、特定部50は、確定文字列に対応する音声データの範囲(即ち、確定範囲)を特定する。より詳しくは、特定部50は、音声認識結果の文字列または音素列に確定文字列または確定文字列の音素列をマッチングさせ、マッチングされた先頭の音素から末尾の音素までを、確定範囲とする。
ステップS43の処理としてより具体的には、特定部50は、一例として、フォーカスにより指定された位置以降の文字列または当該文字列の音素列と、確定文字列または当該確定文字列の音素列との、個々の文字同士または音素同士の対応付けをする。そして、特定部50は、確定文字列の先頭文字または先頭音素と対応付けられた、フォーカスにより指定された位置以降の文字または音素を、確定範囲の先頭とする。さらに、特定部50は、確定文字列の末尾文字または末尾音素と対応付けられた、フォーカスにより指定された位置以降の文字または音素を、確定範囲の末尾とする。
このようにして、特定部50は、音声認識結果の文字列または当該文字列の音素列に対して、確定文字列または当該確定文字列の音素列をマッチングさせることにより、確定範囲を算出することができる。特定部50は、ステップS43の処理を終えると、処理をステップS17に進める。
ステップS41で算出された一致度が基準一致度以下である場合、ステップS44において、特定部50は、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する。特定部50は、一例として、確定速度算出部36により算出された確定発話速度を取得してよい。これに代えて、特定部50は、確定速度算出部36と同様の処理を実行してもよい。
続いて、ステップS45において、特定部50は、確定文字列を確定発話速度で発話した場合の発話時間を算出する。これにより、特定部50は、対象話者が確定文字列を発話した場合の推定の発話時間を算出することができる。
特定部50は、一例として、確定文字列のモーラ数または音節数と、ステップS44により算出した確定発話速度とに基づいて、確定文字列を確定発話速度で発話した場合の発話時間を算出してよい。特定部50は、一例として、図5に示された候補時間算出部38と同様の構成を有し、候補文字列に代えて確定文字列を処理することにより、確定文字列の発話時間を算出してよい。これにより、特定部50は、候補文字列を確定発話速度で発話した場合の発話時間を正確に算出することができる。
続いて、ステップS46において、特定部50は、確定文字列に対応する音声データの範囲(即ち、確定範囲)を特定する。より詳しくは、ステップS46において、特定部50は、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定する。これにより、特定部50は、当該確定文字列に続く文字列を確定させる作業を行う場合において、音声データにおける次に文字列を確定すべき部分を、自動的に指定することができる。
特定部50は、一例として、確定前においてフォーカスにより指定されていた位置から、確定文字列を確定発話速度で発話した場合の発話時間分進めた位置までの範囲を、確定範囲として特定してよい。すなわち、特定部50は、一例として、確定前において音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から、確定文字列を確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素までの範囲を、確定範囲として特定してよい。
特定部50は、以上のよう処理を実行することにより、確定文字列に対応する音声データの範囲(即ち、確定範囲)を特定することができる。そして、特定部50は、以上のステップS41〜ステップS46の処理を終えると、処理をステップS17に進める。なお、特定部50は、一例として、ステップS41〜ステップS43を実行しなくてもよい。
図7は、先頭位置設定部52により移動されるフォーカスの一例を示す。先頭位置設定部52は、ステップS17において、フォーカスを移動させる。すなわち、先頭位置設定部52は、テキストの一部分が確定文字列に確定されたことに応じて、音声データ中におけるテキストが未確定である未確定部分の先頭位置を移動させる。
より具体的には、先頭位置設定部52は、フォーカスが指定する位置を、確定前においてフォーカスが指定していた位置から、特定部50により特定された確定範囲分進めた位置に移動させる。例えば、フォーカスが音声データ中におけるテキストが未確定である未確定部分の先頭の音素を指定する場合、先頭位置設定部52は、一例として、フォーカスにより指定される音素を、特定部50により特定された確定範囲内の末尾の音素の次の音素に移動させる。
このような支援装置20は、音声データ中におけるテキストが未確定である未確定部分について例えば前方から順次に所定文字ずつ修正していく場合において、テキストの一部が確定文字列に確定したことに応じて、音声データ中における次にテキストを確定すべき未確定部分の先頭位置を、自動的に指定することができる。これにより、本実施形態に係る支援装置20によれば、オペレータの処理負担を軽減させることができる。
図8は、本実施形態の第1変形例に係る支援装置20を示す。本変形例に係る支援装置20は、図2に示した同一符号の部材と略同一の構成および機能を採るので、以下相違点を除き説明を省略する。
本変形例に係る支援装置20は、置換部80を更に備える。置換部80は、音声データ中における確定文字列に対応する確定済部分の音声の置換を指示されたことに応じて、確定文字列に対応する部分の音声データを、確定文字列を読み上げた音声データに置換する。
音声認識装置14による誤認識は、対象話者の誤った発音等による場合がある。本円形例に係る支援装置20によれば、このような話者の発音に誤りがある部分について、元の音声データを正しい音声の音声データに置き換えることができる。
また、本変形例に係る支援装置20において、選択部42は、更に、複数の候補文字列のうち、既にテキストが確定された部分に含まれる候補文字列を優先して選択してよい。音声認識装置14は、専門用語等の特殊な用語を、正確に認識できない可能性が高い。また、話者の口癖又は方言等を含む話者固有の音声も、正確に認識できない可能性が高い。そして、同一話者の音声には、同一の用語が頻出する場合も多い。
本変形例に係る選択部42は、既にテキストが確定された候補文字列を優先して選択するので、このような用語を他の用語と比較して優先して選択することができる。従って、本変形例に係る支援装置20によれば、特殊な用語および話者特有の音声等が頻出して音声認識装置14が誤認識した場合であっても、オペレータに対して正しい文字列に容易に修正させることができる。
図9は、本実施形態の第2変形例に係る支援装置20を示す。本変形例に係る支援装置20は、図2に示した同一符号の部材と略同一の構成および機能を採るので、以下相違点を除き説明を省略する。
本変形例に係る支援装置20は、話者が動作によって文章を表現する動画像データからのテキスト作成を支援する。例えば、本変形例に係る支援装置20は、手話を表現した動画像データからのテキスト作成を支援する。
本変形例に係る支援装置20は、確定速度算出部36に代えて、確定表現速度算出部82を備える。また、本変形例に係る支援装置20は、未確定発話時間算出部40に代えて、未確定表現時間算出部84を備える。
確定表現速度算出部82は、動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する。未確定表現時間算出部84は、動画像データ中におけるテキストが未確定である未確定部分の表現の表現時間を算出する。
更に、本変形例の各部材は、音声データを音声認識した音声認識結果に代えて、手話等を表現した動画像データを認識した動画像認識結果を取り扱う。さらに、候補取得部34は、動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する。選択部42は、複数の候補文字列のうち、確定表現速度で表現した場合の表現時間が、動画像データ中における未確定部分の表現時間により近い候補文字列を優先して選択する。
このような支援装置20によれば、動画像認識結果を修正する場合において、より確からしい候補文字列をオペレータに提示することができる。これにより、支援装置20によれば、テキストが未確定である未確定部分の文字列を修正するためのオペレータによる処理負担を軽減することができる。
また、図9に示される変形例に係る支援装置20は、音楽データからの楽譜作成を支援するものであってもよい。この場合において、支援装置20の各部材は、音声データを音声認識した音声認識結果に代えて、音楽データから音符を自動認識した自動採譜結果を取り扱う。
さらに、確定表現速度算出部82は、音楽データにおける既に音符が確定された確定済部分の表現速度(例えば、テンポ)である確定表現速度を算出する。未確定発話時間算出部84は、音楽データ中における音符が未確定である未確定部分の表現の表現時間を算出する。
そして、候補取得部34は、音楽データにおける音符が未確定である未確定部分の自動採譜結果である複数の候補音符列を取得する。選択部42は、複数の候補音符列のうち、確定表現速度で表現した場合の表現時間が、音楽データ中における未確定部分の表現時間により近い候補文字列を優先して選択する。
このような支援装置20によれば、自動採譜結果を修正する場合において、より確からしい音符列をオペレータに提示することができる。これにより、支援装置20によれば、音符が未確定である未確定部分の音符列を修正するためのオペレータによる処理負担を軽減することができる。
図10は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部とを備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を図2に示される支援装置20として機能させるプログラムは、入力モジュールと、候補取得モジュールと、確定速度算出モジュールと、候補時間算出モジュールと、未確定発話時間算出モジュールと、選択モジュールと、提示モジュールと、確定モジュールと、確定時間算出モジュールと、特定モジュールと、先頭位置設定モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、入力部32、候補取得部34、確定速度算出部36、候補時間算出部38、未確定発話時間算出部40、選択部42、提示部44、確定部46、確定時間算出部48、特定部50および先頭位置設定部52としてそれぞれ機能させる。
また、コンピュータ1900にインストールされ、コンピュータ1900を図8に示される支援装置20として機能させるプログラムは、置換モジュールを更に備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、更に、置換部80として機能させる。
また、コンピュータ1900にインストールされ、コンピュータ1900を図9に示される支援装置20として機能させるプログラムは、確定表現速度算出モジュールと、未確定発話時間算出モジュールとを更に備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、更に、確定表現速度算出部82および未確定発話時間算出部84として機能させる。
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である入力部32、候補取得部34、確定速度算出部36、候補時間算出部38、未確定発話時間算出部40、選択部42、提示部44、確定部46、確定時間算出部48、特定部50、先頭位置設定部52、置換部80、確定表現速度算出部82および未確定発話時間算出部84として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の支援装置20が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060(CD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、本実施形態に係る音声認識システム10の構成を示す。 図2は、本実施形態に係る支援装置20の構成を、確定データベース16および候補データベース18とともに示す。 図3は、本実施形態に係る支援装置20の処理フローを示す。 図4は、図3における処理フローのステップS14の処理フローの一例を示す。 図5は、本実施形態に係る候補時間算出部38の構成の一例を示す。 図6は、図3の処理フローにおけるステップS16の処理フローの一例を、ステップS17とともに示す。 図7は、先頭位置設定部52により移動されるフォーカスの一例を示す。 図8は、本実施形態の第1変形例に係る支援装置20を示す。 図9は、本実施形態の第2変形例に係る支援装置20を示す。 図10は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。
符号の説明
10 音声認識システム
12 音声データベース
14 音声認識装置
16 確定データベース
18 候補データベース
20 支援装置
22 ユーザインターフェイス
32 入力部
34 候補取得部
36 確定速度算出部
38 候補時間算出部
40 未確定発話時間算出部
42 選択部
44 提示部
46 確定部
48 確定時間算出部
50 特定部
52 先頭位置設定部
62 音素列生成部
64 モーラ数算出部
66 補正係数算出部
68 発話時間算出部
80 置換部
82 確定表現速度算出部
84 未確定発話時間算出部
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 フレキシブルディスク・ドライブ
2060 CD−ROMドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示装置
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 フレキシブルディスク
2095 CD−ROM

Claims (14)

  1. 音声データからのテキスト作成を支援する支援装置であって、
    前記音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出部と、
    前記音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得部と、
    前記複数の候補文字列のうち、前記確定発話速度で発話した場合の発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する選択部と、
    前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定部と
    を備える支援装置。
  2. 前記先頭位置設定部は、
    前記音声データ中における前記未確定部分の先頭位置からの音声認識結果の文字列または音素列と、前記確定文字列または前記確定文字列の音素列との一致度が基準一致度より高いことを条件として、音声認識結果の文字列または音素列に前記確定文字列または前記確定文字列の音素列をマッチングさせ、マッチングされた末尾の音素の次の音素を前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素とし、
    前記一致度が前記基準一致度以下であることを条件として、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる
    請求項1に記載の支援装置。
  3. 前記確定速度算出部は、前記音声データ中における既にテキストが確定された前記確定済部分の、単位時間当たりに発話されたモーラ数または音節数を前記確定発話速度として算出し、
    前記複数の候補文字列のそれぞれについて、当該候補文字列のモーラ数または音節数と前記確定発話速度とに基づいて、当該候補文字列を前記確定発話速度で発話した場合の発話時間を算出する候補時間算出部を更に備え、
    前記選択部は、前記複数の候補文字列のうち、前記候補時間算出部により算出された前記発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する
    請求項1または2に記載の支援装置。
  4. 前記候補時間算出部は、
    前記候補文字列の音素列を生成する音素列生成部と、
    前記候補文字列の音素列に基づく補正係数を算出する補正係数算出部と、
    前記候補文字列のモーラ数に前記補正係数を乗じた値を、前記確定発話速度で除算した値を、前記候補文字列を前記確定発話速度で発話した場合の発話時間として算出する発話時間算出部と、
    を有する請求項3に記載の支援装置。
  5. 前記音声データ中における前記確定文字列に対応する確定済部分の音声の置換を指示されたことに応じて、前記確定文字列に対応する部分の音声データを、前記確定文字列を読み上げた音声データに置換する置換部を更に備える請求項1から4のいずれか一項に記載の支援装置。
  6. 前記音声データ中におけるテキストが未確定である前記未確定部分に対応する文字列の少なくとも一部を使用者から受け取る入力部を更に備え、
    前記候補取得部は、前記音声データ中におけるテキストが未確定である前記未確定部分の音声認識結果から、使用者から入力された文字列を含む前記複数の候補文字列を取得する請求項1から5のいずれか一項に記載の支援装置。
  7. 話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援装置であって、
    前記動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出部と、
    前記動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得部と、
    前記複数の候補文字列のうち、前記確定表現速度で表現した場合の表現時間が、前記動画像データ中における前記未確定部分の表現時間により近い候補文字列を優先して選択する選択部と、
    前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定部と
    を備える支援装置。
  8. 前記先頭位置設定部は、
    前記動画像データ中における前記未確定部分の先頭位置からの画像認識結果の文字列と、前記確定文字列との一致度が基準一致度より高いことを条件として、画像認識結果の文字列に前記確定文字列をマッチングさせ、マッチングされた末尾の動画像の次の動画像を前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像とし、
    前記一致度が前記基準一致度以下であることを条件として、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる
    請求項に記載の支援装置。
  9. 音声データからのテキスト作成を支援する請求項1からのいずれか一項に記載の支援装置として、コンピュータを機能させるプログラム。
  10. 話者が動作によって文章を表現する動画像データからのテキスト作成を支援する請求項またはに記載の支援装置として、コンピュータを機能させるプログラム。
  11. 音声データからのテキスト作成を支援する支援方法であって、
    前記音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出ステップと、
    前記音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得ステップと、
    前記複数の候補文字列のうち、前記確定発話速度で発話した場合の発話時間が、前記音声データ中における前記未確定部分の発話時間により近い候補文字列を優先して選択する選択ステップと、
    前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる先頭位置設定ステップと
    を備える支援方法。
  12. 前記先頭位置設定ステップは、
    前記音声データ中における前記未確定部分の先頭位置からの音声認識結果の文字列または音素列と、前記確定文字列または前記確定文字列の音素列との一致度が基準一致度より高いことを条件として、音声認識結果の文字列または音素列に前記確定文字列または前記確定文字列の音素列をマッチングさせ、マッチングされた末尾の音素の次の音素を前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素とし、
    前記一致度が前記基準一致度以下であることを条件として、前記音声データ中におけるテキストが未確定である未確定部分の先頭の音素を、確定前において前記音声データ中におけるテキストが未確定であった未確定部分の先頭の音素から前記確定文字列を前記確定発話速度で発話した場合の発話時間内に発話される音素分進めた末尾音素の次の音素に移動させる
    請求項11に記載の支援方法。
  13. 話者が動作によって文章を表現する動画像データからのテキスト作成を支援する支援方法であって、
    前記動画像データにおける既にテキストが確定された確定済部分の表現速度である確定表現速度を算出する確定表現速度算出ステップと、
    前記動画像データにおけるテキストが未確定である未確定部分の画像認識結果である複数の候補文字列を取得する候補取得ステップと、
    前記複数の候補文字列のうち、前記確定表現速度で表現した場合の表現時間が、前記動画像データ中における前記未確定部分の表現時間により近い候補文字列を優先して選択する選択ステップと、
    前記未確定部分において未確定であったテキストの一部分が前記候補文字列の中からの選択に基づき確定文字列に確定されたことに応じて、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる先頭位置設定ステップと
    を備える支援方法。
  14. 前記先頭位置設定ステップは、
    前記動画像データ中における前記未確定部分の先頭位置からの画像認識結果の文字列と、前記確定文字列との一致度が基準一致度より高いことを条件として、画像認識結果の文字列に前記確定文字列をマッチングさせ、マッチングされた末尾の動画像の次の動画像を前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像とし、
    前記一致度が前記基準一致度以下であることを条件として、前記動画像データ中におけるテキストが未確定である未確定部分の先頭の動画像を、確定前において前記動画像データ中におけるテキストが未確定であった未確定部分の先頭の動画像から前記確定文字列を前記確定表現速度で表現した場合の表現時間内に表現される動画像分進めた末尾動画像の次の動画像に移動させる
    請求項13に記載の支援方法。
JP2008113190A 2008-04-23 2008-04-23 支援装置、プログラムおよび支援方法 Expired - Fee Related JP5451982B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008113190A JP5451982B2 (ja) 2008-04-23 2008-04-23 支援装置、プログラムおよび支援方法
KR1020090035109A KR101054699B1 (ko) 2008-04-23 2009-04-22 지원 디바이스, 프로그램 및 지원 방법
US12/428,907 US8275614B2 (en) 2008-04-23 2009-04-23 Support device, program and support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008113190A JP5451982B2 (ja) 2008-04-23 2008-04-23 支援装置、プログラムおよび支援方法

Publications (2)

Publication Number Publication Date
JP2009265276A JP2009265276A (ja) 2009-11-12
JP5451982B2 true JP5451982B2 (ja) 2014-03-26

Family

ID=41215879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008113190A Expired - Fee Related JP5451982B2 (ja) 2008-04-23 2008-04-23 支援装置、プログラムおよび支援方法

Country Status (3)

Country Link
US (1) US8275614B2 (ja)
JP (1) JP5451982B2 (ja)
KR (1) KR101054699B1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
CN102541965B (zh) * 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
KR20140008835A (ko) 2012-07-12 2014-01-22 삼성전자주식회사 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
JP7028179B2 (ja) * 2016-09-29 2022-03-02 日本電気株式会社 情報処理装置、情報処理方法およびコンピュータ・プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254500A (ja) * 1989-03-29 1990-10-15 Sharp Corp 発声速度推定装置
JPH02297598A (ja) * 1989-05-12 1990-12-10 Sharp Corp 音声認識装置
JP3114389B2 (ja) * 1991-10-02 2000-12-04 松下電器産業株式会社 音声認識装置
JPH06282293A (ja) * 1993-03-29 1994-10-07 Sony Corp 音声認識装置
JPH11184491A (ja) * 1997-12-18 1999-07-09 Ricoh Co Ltd 音声認識装置
JP3795692B2 (ja) * 1999-02-12 2006-07-12 マイクロソフト コーポレーション 文字処理装置および方法
JP3623394B2 (ja) * 1999-03-30 2005-02-23 株式会社日立製作所 手話認識装置および該装置を実現させるためのプログラムを記録した記録媒体
JP4140745B2 (ja) 1999-05-14 2008-08-27 独立行政法人情報通信研究機構 字幕へのタイミング情報付与方法
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
JP2003046861A (ja) 2001-07-27 2003-02-14 Telecommunication Advancement Organization Of Japan 字幕番組制作における試写・修正支援システム
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7069213B2 (en) * 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
JP3986009B2 (ja) * 2002-11-01 2007-10-03 日本放送協会 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP4189336B2 (ja) * 2004-02-25 2008-12-03 株式会社東芝 音声情報処理システム、音声情報処理方法及びプログラム
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP4711111B2 (ja) * 2005-02-17 2011-06-29 日本電気株式会社 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법

Also Published As

Publication number Publication date
KR101054699B1 (ko) 2011-08-08
JP2009265276A (ja) 2009-11-12
KR20090112581A (ko) 2009-10-28
US20090271193A1 (en) 2009-10-29
US8275614B2 (en) 2012-09-25

Similar Documents

Publication Publication Date Title
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US9202466B2 (en) Spoken dialog system using prominence
JP4129989B2 (ja) テキスト音声合成を支援するシステム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
US8566091B2 (en) Speech recognition system
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2010197644A (ja) 音声認識システム
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JPH1195793A (ja) 音声入力解釈装置及び音声入力解釈方法
JP3378547B2 (ja) 音声認識方法及び装置
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2013195928A (ja) 音声素片切出装置
CN110136720B (zh) 编辑支援装置、编辑支援方法以及程序
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131001

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees