JP2002132287A - 音声収録方法および音声収録装置および記憶媒体 - Google Patents

音声収録方法および音声収録装置および記憶媒体

Info

Publication number
JP2002132287A
JP2002132287A JP2000321435A JP2000321435A JP2002132287A JP 2002132287 A JP2002132287 A JP 2002132287A JP 2000321435 A JP2000321435 A JP 2000321435A JP 2000321435 A JP2000321435 A JP 2000321435A JP 2002132287 A JP2002132287 A JP 2002132287A
Authority
JP
Japan
Prior art keywords
character string
voice
recorded
recording
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000321435A
Other languages
English (en)
Other versions
JP2002132287A5 (ja
Inventor
Hiroaki Yoshino
宏昭 吉野
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000321435A priority Critical patent/JP2002132287A/ja
Priority to US09/976,098 priority patent/US20020049590A1/en
Publication of JP2002132287A publication Critical patent/JP2002132287A/ja
Publication of JP2002132287A5 publication Critical patent/JP2002132287A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】音声の切出し等が正しく収録されているか否か
のチェックを自動で行うことにより発声ミスの少ない音
声データを効率よく収録する。 【解決手段】音声認識処理における学習処理を行うため
に音声を収録するにおいて、学習のための収録文を提示
し、これに対して入力された音声を認識して認識文字列
を得る(ステップS302〜S304)。得られた認識
文字列と、上記提示した収録文とをDPマッチングによ
って比較し、両者の一致度が所定レベルを越えるか否か
を判定する(ステップS305、S306)。ここで、
一致度が所定レベルを越えると判定された場合は、当該
入力された音声を学習のためのデータとして収録し(ス
テップS308)、そうでなければ、収録文と認識文字
列との間の不一致部分をユーザに提示し(ステップS3
07)、当該収録分に対する再入力を促す(ステップS
307、S303)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識のための
音声データ収録方法および装置、並びにこれを用いた音
声認識装置および方法に関する。
【0002】
【従来の技術】一般に、音声認識は音響モデルおよび大
量の音声データを収録した音声データベースが用いられ
る。このような音響モデルや音声データベースを構築す
るためには、大量の音声データを収録する必要がある。
【0003】一般に音声認識は次の手順で行われる。ま
ずマイクなどから入力された音声をAD変換して音声デ
ータを得る。ここで、マイクを通じて入力された音声に
は非音声区間も含まれるため、音声区間検出を行う。そ
して、音声区間検出がなされた音声データを音響分析す
ることにより、ケプストラムなどの特徴量を計算する。
音響分析により計算された音声データの特徴量から、音
響モデル(HMM)に対する音響尤度の計算を行う。そ
の後、言語探索を行って認識結果を得る。
【0004】音響モデルとは、音素などの音声単位につ
いて、様々な発声者がどのように発声したかを記述した
データである。音声認識システムでは音声認識を開始す
る前処理としてユーザに少数の単語または文章を発声さ
せ、その音声に基づいて音響モデルの修正(学習)を行
うことで認識精度を高めている。また、音声認識の精度
は音響モデル、ひいては大量の音声データを登録した音
声データベースに負うところが大きく、その重要性はま
すます向上している。
【0005】
【発明が解決しようとする課題】しかしながら、上記音
響モデルの学習のためにユーザが発声した内容について
は、所定の単語または文章を間違いなく発声していると
仮定するか、音声認識を用いて認識率からその単語また
は文章を正しく発声したかどうか判定するのみの簡単な
正誤判定しか行っていない。また、音声データベースを
構築するための、大量の音声データの収録・整備に要す
る時間とコストは非常に大きいため、この種の作業の効
率化を図ることの必要性が高まっている。
【0006】従って、本発明は、上記の課題に鑑みてな
されたものであり、音声の切出し等が正しく収録されて
いるか否かのチェックを自動で行い、発声ミスの少ない
音声データを効率よく収録可能とすることを目的とす
る。
【0007】また、本発明の他の目的は、音声収録の際
に、発生ミスをユーザにわかりやすく提示することによ
り、音声収録に係る時間とコストを減らし、発声ミスの
少ない音声データ収集を可能とすることにある。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声収録装置は、例えば以下の構成を
備える。すなわち、音声認識処理における学習処理を行
うために音声を収録する装置であって、音声収録の対象
となる文を表す収録文字列を格納する格納手段と、学習
のために入力された音声を認識して認識文字列を得る認
識手段と、前記認識文字列と前記収録文字列とを比較
し、両者の一致度が所定レベルを越えるか否かを判定す
る判定手段と、前記判定手段によって前記一致度が前記
所定レベルを越えると判定された場合、当該入力された
音声を学習のためのデータとして収録する収録手段とを
備える。
【0009】また、好ましくは、前記判定手段は、前記
収録文字列と前記認識文字列との間でDPマッチングを
実行することによりその一致度を求め、前記判定手段に
よるDPマッチングの実行の結果、前記収録文字列と前
記認識文字列との間の不一致部分をユーザに提示する提
示手段を更に備える。
【0010】また、上記の目的を達成するための本発明
による音声収録方法は、音声認識処理における学習処理
を行うために音声を収録する方法であって、学習のため
に入力された音声を認識して認識文字列を得る認識工程
と、前記認識文字列と、音声収録の対象となる文を表す
収録文字列とを比較し、両者の一致度が所定レベルを越
えるか否かを判定する判定工程と、前記判定工程によっ
て前記一致度が前記所定レベルを越えると判定された場
合、当該入力された音声を学習のためのデータとして収
録する収録工程とを備える。
【0011】また、好ましくは、前記判定工程は、前記
収録文字列と前記認識文字列との間でDPマッチングを
実行することによりその一致度を求め、前記判定工程に
よるDPマッチングの実行の結果、前記収録文字列と前
記認識文字列との間の不一致部分をユーザに提示する提
示工程を更に備える。
【0012】また、本発明によれば、上記音声収録装置
を備えた音声認識装置、音声収録方法を備えた音声認識
方法が提供される。更に、本発明によれば、これら音声
収録方法或いは音声認識方法をコンピュータによって実
現させるための制御プログラムを格納する記憶媒体が提
供される。
【0013】
【発明の実施の形態】以下、添付の図面を参照して、本
発明の好適な実施形態を説明する。
【0014】<第1の実施形態>図1は、第1の実施形
態による音声認識装置の音声収録に関わる機能構成を示
すブロック図である。本実施形態の音声認識装置は、音
声データベースの構築や音響モデルの学習のための音声
収録に関して、以下の構成要素を備える。
【0015】101は音声入力部であり、ユーザによる
発声を電気信号に変化する。102はA/D変換部であ
り、音声入力部101からの音声信号をデジタルデータ
に変換する。103は表示部であり、音声収録すべき発
声内容を表す発声リストを表示し、また、後述のマッチ
ング部105によるマッチングの結果を表示する。10
4は音声認識部であり、A/D変換部102で得られる
音声信号のデジタルデータに基づいて音声認識を行う。
105はマッチング部であり、音声認識部104で得ら
れた音声認識結果と発声リスト内容とのマッチングを行
う。106は記憶部であり、マッチング部105によっ
て正しく発声していると判別された音声データを保存
(収録)する。なお、以上の機能構成による音声収録処
理は、図3のフローチャートにより更に詳細に後述す
る。
【0016】図2は、本実施形態による音声収録装置の
ハードウェア構成を示すブロック図である。図2におい
て201はマイクであり、音声入力部101として機能
する。202はA/D変換器であり、A/D変換部10
2として機能し、マイク201からの音声信号をデジタ
ルデータ(以下、音声データという)に変換する。20
3は入力インターフェースであり、A/D変換器202
より得られる音声データをコンピュータバス212上に
取り込む。
【0017】204はCPUであり、当該音声認識装置
の全体の制御を司るべく演算を行う。205はメモリで
あり、CPU204からの参照が可能である。メモリ2
05には、音声認識ソフトウエア206が格納される。
音声認識ソフトウエア206は音声収録処理のための制
御プログラムを含み、CPU204はこれを実行するこ
とにより、表示部103、音声認識部104、マッチン
グ部105、記憶部106の各機能を実現する。また、
メモリ205には、その音声認識および収録処理に必要
となる音響モデル207、認識対象単語リスト208お
よび言語モデル209が格納されている。更に、メモリ
205には、音声収録のための発声内容を表す収録文リ
スト212が格納されている。
【0018】210は出力インターフェースであり、コ
ンピュータバス212と表示器211を接続する。21
1は表示器であり、表示部103を構成するものであ
り、CPU204の制御により、例えば発声リスト21
3の内容や音声認識結果等を表示する。
【0019】次に、以上の構成を備えた本実施形態の音
声認識装置による音声収録処理について説明する。図3
は第1の実施形態による音声収録処理を説明するフロー
チャートである。
【0020】ステップS301では正しく発声されたか
どうか判別するために認識結果と発声リストから求めた
認識率を判定しきい値として設定する。ステップS30
2では、表示部103により、収録文リスト213に登
録されている発声内容を表示器211上に表示すること
により、音声収録のために発声すべき内容をユーザに提
示する。ユーザがこの提示された収録文を読み上げる
と、音声入力部101を介してこの音声信号が取り込ま
れ、A/D変換102によって音声データに変換され、
メモリ205に格納される(ステップS303)。ステ
ップS304では、音声認識部104が、ステップS3
03で取り込んだ音声データについて音声認識処理を行
い、その認識結果をメモリ205に格納する。
【0021】次に、ステップS305では、マッチング
部105がステップS304の認識結果とステップS3
02で提示した収録文との間のマッチングを行い、その
認識率を求める。認識結果と提示文章との2つの文字列
のマッチングにはDPマッチングを用いることができ
る。DPマッチングとは2つのパターン間で同じ文字同
士が対応するように非線形に伸縮させる方法である。こ
れにより2つのパターンの最小距離を求めることができ
る。また、不一致部分は、挿入、脱落、置換の3種類の
いずれかのミスとして結果が得られる。なお、DPマッ
チングについては周知技術であるので、これ以上の説明
は省略する。
【0022】ステップS306では、ステップS305
で求めた認識率がステップS301で設定した判定しき
い値を越えたか否かに基づいて、正しく発声されたか否
かを判定する。判定しきい値を越えない場合は、発声に
誤りがあると判定し、ステップS307でDPマッチン
グの結果から発生ミス部分を表示器211上に提示し
(表示部103)、ステップS303に戻る。こうし
て、当該提示文章に対する発声をユーザにやり直させ
る。
【0023】一方、正しく発声されたと判定された場合
は、ステップS308で、当該入力音声データを収録す
る。そして、ステップS309で、まだ発声すべき文章
が収録文リスト213にあるか判断する。ここで、発声
すべき収録文が残っていればステップS310へ進み、
次の収録文を次の処理対象に設定してステップS302
に戻る。すべての収録文について発声が終わっていれ
ば、ステップS311に進み、本処理を終了する。
【0024】ステップS307におけるDPマッチング
の結果の表示方法には種々の方法が考えられる。以下で
は、収録文が「五十五歳だってうれしいときはうれしい
のだ」に対して、認識結果が「五十五歳でもうれしいと
きもあるのだよ」であった場合を例に挙げて、DPマッ
チングの認識結果表示方法の幾つかの例を示す。図4乃
至図6は本実施形態によるDPマッチングの認識結果の
表示例を示す図である。
【0025】図4の(a)は認識結果について、収録文
と違う部分を背景色を変えて表示した例である。また、
図4の(b)は、収録文について、認識結果と違う部分
を背景色を変えて表示した例である。また、図4の
(c)は、認識結果について、収録文と違う部分につい
て、その発声ミスの内訳を「挿入」、「脱落」、「置
換」の3種類に分けて、背景色を変えて表示した例であ
る。すなわち、401、402は置換が生じており、4
03、404は脱落が生じており、405には挿入が生
じているので、「401、402」と「403、40
4」と「405」はそれぞれ異なる背景色で表示される
ことになる。
【0026】上述の背景色の変更は、収録文或いは認識
結果のいずれかの異なる部分について行われているが、
両者の一致する部分の背景色を変更するようにしてもよ
い。この状態を図4の(d)に示す。なお、図4の
(d)では、認識結果について一致する部分の背景色を
変更しているが、収録文について認識結果と一致する部
分の背景色を変更するようにしてもよい。
【0027】なお、上記図4では文字列の背景色を変更
することで一致部分或いは相違部分を示したが、文字の
属性を変更することで一致部分或いは相違部分を示すよ
うにしてもよい。図5の(a)は、認識結果について、
収録文と異なる部分をフォントを変えて表示した例を示
している。また、図5の(b)は認識結果について、収
録文と違う部分を文字色を変えて表示した例を示してい
る。文字の属性を変更する例としては、この他に、アン
ダーラインや影付きフォントへの変更等が挙げられる。
また、図4(c)に示したように発声ミスの種類ごとに
フォント属性を変えるようにしてもよい。
【0028】以上、図4、図5では、異なる部分(或い
は一致する部分)を静的に示したが、文字や背景の点滅
等によって動的に示すようにしてもよい。図6(a)
は、収録文と認識結果との相違する部分を点滅にって示
す様子を示している。また、図6(b)は、収録文と認
識結果との相違する部分の背景を点滅によって示す様子
を示している。収録文と認識結果との一致する部分につ
いて上記表示を行うようにしてもよいことはいうまでも
ない。
【0029】図7は認識結果のテキストと認識によって
求められるワードグラフである。ワードグラフには認識
された単語に対応する音声の開始位置と終了位置という
情報が含まれている。そこで、ワードグラフから間違っ
た単語の開始位置と終了位置を求め、マウスのクリック
によって間違った単語を再生して音を聞く例である。
【0030】以上のように、本実施形態によれば、学習
のために入力された音声を認識して得られた認識文字列
と収録文との比較によって両者の一致度が求められ、こ
れに基づいて当該入力された音声を収録するか否かが決
定されので、発声ミスの少ない音声データを効率よく収
録することが可能となる。
【0031】また、本実施形態によれば、両者の一致度
が所定レベルを越えないと判定された場合に、当該文の
音声による再入力を促すので、容易に発声のやり直しを
することができ、効率の良い音声データ収録が可能とな
る。更に、両者の一致度はDPマッチングを用いて求め
られるので、置換、脱落、挿入等の不一致を正しく識別
することができる。
【0032】また、本実施形態によれば、上記DPマッ
チングの実行の結果によって得られる、収録文と認識文
字列との間の不一致部分をユーザに提示するので、ユー
ザはどの部分に発声ミスがあったかを容易に把握でき
る。更に、不一致部分の提示に際しては、DPマッチン
グによって判定された挿入、脱落、置換の区別が可能な
ように提示が行われるので、より詳細に発声ミスを把握
できることになる。
【0033】<第2の実施形態>以上、第1の実施形態
では、音響モデルの学習のための音声収録機能について
説明した。第2の実施形態では、この音声収録機能を備
えた音声認識装置について説明する。
【0034】図8は音声認識装置に本実施形態の音声収
録装置を用いた音声認識装置の構成を示す図である。音
声認識装置1301は、入力された音声に対してまず特
徴抽出1302を行い特徴パラメータを抽出する。その
後、音響モデル1304、言語モデル1305、発音辞
書1306を用いて探索1303を行い認識結果を得る
という流れで認識を行う。この図の例では認識精度を高
めるため音響モデル1304を、話者にあわせて学習し
ている。認識を始める前に、少数の学習サンプルを収録
し、音響モデル1304の修正を行うのである。この学
習サンプルの収録に際して、音声収録部1307が図3
に示す音声収録処理を実行して音響モデル1304の学
習を行う。
【0035】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
【0036】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0037】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0038】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0039】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0040】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0041】
【発明の効果】以上説明したように、本発明によれば、
音声の切出し等が正しく収録されているか否かのチェッ
クを自動で行うので、発声ミスの少ない音声データを効
率よく収録することが可能となる。また、本発明によれ
ば、音声収録の際に、発生ミスをユーザにわかりやすく
提示することにより、音声収録に係る時間とコストを減
らし、発声ミスの少ない音声データ収集を効率よく収録
することが可能となる。
【図面の簡単な説明】
【図1】第1の実施形態による音声認識装置の音声収録
に関わる機能構成を示すブロック図である。
【図2】本実施形態による音声収録装置のハードウェア
構成を示すブロック図である。
【図3】第1の実施形態による音声収録処理を説明する
フローチャートである。
【図4】本実施形態によるDPマッチングの認識結果の
表示例を示す図である。
【図5】本実施形態によるDPマッチングの認識結果の
表示例を示す図である。
【図6】本実施形態によるDPマッチングの認識結果の
表示例を示す図である。
【図7】本実施形態によるDPマッチングの認識結果の
表示例を示す図である。
【図8】音声認識装置に本実施形態の音声収録装置を用
いた音声認識装置の構成を示す図である。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音声認識処理における学習処理を行うた
    めに音声を収録する装置であって、 音声収録の対象となる文を表す収録文字列を格納する格
    納手段と、 学習のために入力された音声を認識して認識文字列を得
    る認識手段と、 前記認識文字列と前記収録文字列とを比較し、両者の一
    致度が所定レベルを越えるか否かを判定する判定手段
    と、 前記判定手段によって前記一致度が前記所定レベルを越
    えると判定された場合、当該入力された音声を学習のた
    めのデータとして収録する収録手段とを備えることを特
    徴とする音声収録装置。
  2. 【請求項2】 前記判定手段によって前記一致度が前記
    所定レベルを越えないと判定された場合に、当該文の音
    声による再入力を促す再入力手段を更に備えることを特
    徴とする請求項1に記載の音声収録装置。
  3. 【請求項3】 前記判定手段は、前記収録文字列と前記
    認識文字列との間でDPマッチングを実行することによ
    りその一致度を求めることを特徴とする請求項1に記載
    の音声収録装置。
  4. 【請求項4】 前記判定手段によるDPマッチングの実
    行の結果、前記収録文字列と前記認識文字列との間の不
    一致部分をユーザに提示する提示手段を更に備えること
    を特徴とする請求項3に記載の音声収録装置。
  5. 【請求項5】 前記提示手段は、前記不一致部分の提示
    に際して、DPマッチングによって判定される挿入、脱
    落、置換の区別を可能とする提示を行うことを特徴とす
    る請求項4に記載の音声収録装置。
  6. 【請求項6】 前記提示手段は、前記収録文字列と前記
    認識文字列とを同時に画面上に表示するとともに、該収
    録文字列と該認識文字列の少なくともいずれかにおいて
    両者間の不一致部分もしくは一致部分の文字の属性を変
    更して表示することを特徴とする請求項3に記載の音声
    収録装置。
  7. 【請求項7】 前記提示手段は、前記収録文字列と前記
    認識文字列とを同時に画面上に表示するとともに、該収
    録文字列と該認識文字列の少なくともいずれかにおいて
    両者間の不一致部分もしくは一致部分の文字を点滅させ
    て表示することを特徴とする請求項3に記載の音声収録
    装置。
  8. 【請求項8】 音声認識処理における学習処理を行うた
    めに音声を収録する方法であって、 学習のために入力された音声を認識して認識文字列を得
    る認識工程と、 前記認識文字列と、音声収録の対象となる文を表す収録
    文字列とを比較し、両者の一致度が所定レベルを越える
    か否かを判定する判定工程と、 前記判定工程によって前記一致度が前記所定レベルを越
    えると判定された場合、当該入力された音声を学習のた
    めのデータとして収録する収録工程とを備えることを特
    徴とする音声収録方法。
  9. 【請求項9】 前記判定工程によって前記一致度が前記
    所定レベルを越えないと判定された場合に、当該文の音
    声による再入力を促す再入力工程を更に備えることを特
    徴とする請求項8に記載の音声収録方法。
  10. 【請求項10】 前記判定工程は、前記収録文字列と前
    記認識文字列との間でDPマッチングを実行することに
    よりその一致度を求めることを特徴とする請求項8に記
    載の音声収録方法。
  11. 【請求項11】 前記判定工程によるDPマッチングの
    実行の結果、前記収録文字列と前記認識文字列との間の
    不一致部分をユーザに提示する提示工程を更に備えるこ
    とを特徴とする請求項10に記載の音声収録方法。
  12. 【請求項12】 前記提示工程は、前記不一致部分の提
    示に際して、DPマッチングによって判定される挿入、
    脱落、置換の区別を可能とする提示を行うことを特徴と
    する請求項11に記載の音声収録方法。
  13. 【請求項13】 前記提示工程は、前記収録文字列と前
    記認識文字列とを同時に画面上に表示するとともに、該
    収録文字列と該認識文字列の少なくともいずれかにおい
    て両者間の不一致部分もしくは一致部分の文字の属性を
    変更して表示することを特徴とする請求項10に記載の
    音声収録方法。
  14. 【請求項14】 前記提示工程は、前記収録文字列と前
    記認識文字列とを同時に画面上に表示するとともに、該
    収録文字列と該認識文字列の少なくともいずれかにおい
    て両者間の不一致部分もしくは一致部分の文字を点滅さ
    せて表示することを特徴とする請求項10に記載の音声
    収録方法。
  15. 【請求項15】 請求項1乃至7のいずれかに記載の音
    声収録装置と、 前記音声収録装置によって収録された音声データを用い
    て音声モデルの学習を行う学習手段とを備え、 前記学習手段で学習された音声モデルを用いて音声認識
    を実行することを特徴とする音声認識装置。
  16. 【請求項16】 請求項8乃至14のいずれかに記載の
    音声収録方法によって音声を収録する収録工程と、 収録された音声データを用いて音声モデルの学習を行う
    学習工程とを備え、 前記学習工程で学習された音声モデルを用いて音声認識
    を実行することを特徴とする音声認識方法。
  17. 【請求項17】 請求項8乃至14のいずれかに記載の
    音声収録方法をコンピュータによって実行させるための
    制御プログラムを格納することを特徴とする記憶媒体。
  18. 【請求項18】 請求項16に記載の音声認識方法をコ
    ンピュータによって実行させるための制御プログラムを
    格納することを特徴とする記憶媒体。
JP2000321435A 2000-10-20 2000-10-20 音声収録方法および音声収録装置および記憶媒体 Pending JP2002132287A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000321435A JP2002132287A (ja) 2000-10-20 2000-10-20 音声収録方法および音声収録装置および記憶媒体
US09/976,098 US20020049590A1 (en) 2000-10-20 2001-10-15 Speech data recording apparatus and method for speech recognition learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000321435A JP2002132287A (ja) 2000-10-20 2000-10-20 音声収録方法および音声収録装置および記憶媒体

Publications (2)

Publication Number Publication Date
JP2002132287A true JP2002132287A (ja) 2002-05-09
JP2002132287A5 JP2002132287A5 (ja) 2007-12-06

Family

ID=18799557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000321435A Pending JP2002132287A (ja) 2000-10-20 2000-10-20 音声収録方法および音声収録装置および記憶媒体

Country Status (2)

Country Link
US (1) US20020049590A1 (ja)
JP (1) JP2002132287A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292789A (ja) * 2007-05-25 2008-12-04 Nippon Telegr & Teleph Corp <Ntt> 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体
JP2014191567A (ja) * 2013-03-27 2014-10-06 Nippon Telegraph & Telephone East Corp 応募システム、応募受付方法及びコンピュータプログラム
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239197B2 (en) 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
AU2003222132A1 (en) * 2002-03-28 2003-10-13 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US8095366B2 (en) * 2006-03-27 2012-01-10 Microsoft Corporation Fonts with feelings
US7730403B2 (en) * 2006-03-27 2010-06-01 Microsoft Corporation Fonts with feelings
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
NZ705075A (en) * 2012-08-24 2017-11-24 Interactive Intelligence Inc Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
WO2014125356A1 (en) * 2013-02-13 2014-08-21 Help With Listening Methodology of improving the understanding of spoken words
TWI508033B (zh) * 2013-04-26 2015-11-11 Wistron Corp 語言學習方法與裝置以及電腦可讀記錄媒體
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN106710597B (zh) * 2017-01-04 2020-12-11 广东小天才科技有限公司 语音数据的录音方法及装置
CN111581461B (zh) * 2020-06-19 2023-04-25 腾讯科技(深圳)有限公司 字符串搜索方法、装置、计算机设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63260345A (ja) * 1987-04-17 1988-10-27 Matsushita Electric Ind Co Ltd 自動音声収録装置
JPH02153397A (ja) * 1988-12-06 1990-06-13 Nec Corp 音声収録装置
JPH07104675A (ja) * 1993-09-29 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 認識結果表示方法
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
JPH10308887A (ja) * 1997-05-07 1998-11-17 Sony Corp 番組送出装置
JPH11242492A (ja) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> 録音音声データベース検証方法
JPH11327589A (ja) * 1998-05-11 1999-11-26 Nec Corp 音声認識システム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
GB9716690D0 (en) * 1997-08-06 1997-10-15 British Broadcasting Corp Spoken text display method and apparatus for use in generating television signals
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
GB9802838D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
GB9822931D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
US6453290B1 (en) * 1999-10-04 2002-09-17 Globalenglish Corporation Method and system for network-based speech recognition
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6697777B1 (en) * 2000-06-28 2004-02-24 Microsoft Corporation Speech recognition user interface
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63260345A (ja) * 1987-04-17 1988-10-27 Matsushita Electric Ind Co Ltd 自動音声収録装置
JPH02153397A (ja) * 1988-12-06 1990-06-13 Nec Corp 音声収録装置
JPH07104675A (ja) * 1993-09-29 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 認識結果表示方法
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
JPH10308887A (ja) * 1997-05-07 1998-11-17 Sony Corp 番組送出装置
JPH11242492A (ja) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> 録音音声データベース検証方法
JPH11327589A (ja) * 1998-05-11 1999-11-26 Nec Corp 音声認識システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292789A (ja) * 2007-05-25 2008-12-04 Nippon Telegr & Teleph Corp <Ntt> 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体
JP2014191567A (ja) * 2013-03-27 2014-10-06 Nippon Telegraph & Telephone East Corp 応募システム、応募受付方法及びコンピュータプログラム
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Also Published As

Publication number Publication date
US20020049590A1 (en) 2002-04-25

Similar Documents

Publication Publication Date Title
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
US7603279B2 (en) Grammar update system and method for speech recognition
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
EP2261893B1 (en) Audio playback for text edition in a speech recognition system
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP3834169B2 (ja) 連続音声認識装置および記録媒体
US6345249B1 (en) Automatic analysis of a speech dictated document
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
CN109300468B (zh) 一种语音标注方法及装置
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4220151B2 (ja) 音声対話装置
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2009075249A (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP2005283646A (ja) 音声認識率推定装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JPH11352988A (ja) 音声認識装置
JP2003122391A (ja) 音声認識装置およびその制御方法ならびにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071022

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100517

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100927