JP2001134276A - 音声文字化誤り検出装置および記録媒体 - Google Patents

音声文字化誤り検出装置および記録媒体

Info

Publication number
JP2001134276A
JP2001134276A JP31276799A JP31276799A JP2001134276A JP 2001134276 A JP2001134276 A JP 2001134276A JP 31276799 A JP31276799 A JP 31276799A JP 31276799 A JP31276799 A JP 31276799A JP 2001134276 A JP2001134276 A JP 2001134276A
Authority
JP
Japan
Prior art keywords
error
speech
original
result
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31276799A
Other languages
English (en)
Inventor
Takeshi Mishima
剛 三島
Nobumasa Seiyama
信正 清山
Yasuhiro Ito
泰宏 伊藤
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP31276799A priority Critical patent/JP2001134276A/ja
Publication of JP2001134276A publication Critical patent/JP2001134276A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 誤り箇所を自動的に検出して効果的に提示す
ることで、修正者の負担を軽減できる音声文字化誤り検
出装置および記録媒体を提供する。 【解決手段】 認識結果処理部3は音声認識結果に従い
分割情報と発音情報を抽出する。合成音声作成部5は認
識結果処理部3からの認識文字列の読みの情報から合成
音声信号を出力する。合成音声特徴抽出部6は合成音声
信号の特徴量を抽出する。原音声信号処理部4は原音声
信号を入力し、分割情報から原音声波形を検出単位に分
割する。原音声特徴抽出部7は、原音声信号処理部4か
らのセグメント化原音声信号の特徴量を抽出する。比較
処理部8は、合成音声、原音声の特徴量を比較する。誤
り検出部9は、比較結果に基づいて認識結果(文字化結
果)が正解であるか誤りであるかを判定し、誤りの誤り
位置情報を出力する。誤り提示部10は、誤り位置情報
から誤り箇所を視覚的、かつ聴覚的に提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声文字化誤り検出
装置および記録媒体に関し、特に、音声文字化システム
から発生する文字化誤りを検出する誤り検出方法および
その誤り検出方法を用いて文字化誤り箇所を指摘して修
正者を支援する場合や、放送におけるニュース音声の字
幕化や、講演における聴覚障害者への字幕サービス、雑
誌や新聞のインタビュー記事等の校正作業を効率化する
ために好適な音声文字化誤り検出装置および記録媒体に
関する。
【0002】
【従来の技術】現在、音声の書き起こしなどの音声の文
字化には、人が音声を耳で聞き、内容を理解して文字に
変換するといった手法が一般的に行われている。しか
し、音声の文字化には、音声の聞き取り能力と記憶能
力、変換語彙の知識量などの高度な能力を必要とするた
め、変換精度は人により大きく異なる。このため、変換
後の文章に誤りが含まれる可能性が高い。
【0003】また最近では、音声の文字書き起こしを支
援する音声認識技術の導入が盛んに行われているが、現
時点では認識率100%の音声認識装置は存在しない。
特に、不特定話者、連続音声認識を対象としたものでは
認識結果に誤りが含まれる可能性が非常に高い。
【0004】従って、人手や音声認識装置を使用して変
換した文字化結果を実際に何らかの目的に使用する場合
は、何らかの修正手法を必要とするのが現状である。こ
の修正手法として、修正者が文字化対象の音声を聞き、
その音声から文字化された結果を目で見直し、文字化結
果の誤りを発見することが一般的に行われている。
【0005】このように、音声文字化システムから出力
された文字化結果を人が目で見て、実際に発声された音
声を耳で聞きながら誤りを検出していく手法では、人は
文章の1文字1文字に着目して修正を行うというより、
むしろ文章の流れに着目して修正を行う傾向にある。こ
のため、局所的な誤字・脱字は見逃しがちになる。特
に、実際に発声された音声を聞くことと誤り修正という
2つの処理を同時並列的に行わなくてはならないため、
文字を見て文章を校正するだけの作業に比べて誤りを見
逃す確率はさらに高くなる。
【0006】ただし、リアルタイム性を必要としない音
声の文章書き起こし等、オフラインでの文字誤り修正作
業では、音声の話速を通常よりも遅くしたり、文字化結
果と実際に発声された音声の比較作業を繰り返すことが
可能であるため、誤りの見逃しを減少することが出来
る。しかしながら、繰り返し回数や文章の量によって、
作業時間の増大は避けられない。
【0007】また、文字化結果を即時に使用するオンラ
インでの文字化誤り修正作業(連続して発声される音声
をリアルタイムに文字化し、TV生放送番組用に字幕化
を行うなど)では、通常の話速の発声で、再度聞きなお
すことが出来ない音声を聞きながら文字化結果を修正し
ていく作業となる。このため、さらに条件が厳しくな
り、修正者への負担増となると同時に、誤りの見逃し確
率上昇も避けられなかった。
【0008】
【発明が解決しようとする課題】上述のように、音声文
字化システムの実用化には文字化誤りの修正も考慮に入
れたシステム構築が求められる。システムの実用を考え
た場合、文字変換効率の向上と同時に修正効率の向上も
必要不可欠であるが、修正作業では人手による修正がよ
り確実なのが現状である。そこで、修正者を支援して、
修正時の負担低減、および修正誤りの低減に努めること
がシステム全体の向上につながることになる。
【0009】本発明は上記した課題を考慮してなされた
ものであり、音声文字化システムから出力される文字化
結果から誤り箇所を自動的に検出し、修正者に効果的に
提示することで、人手によるワープロ入力や音声認識技
術を用いて音声言語によって表現された内容を文字情報
化(音声による自動字幕化、書き起こしなど)する場合
に避けることができない誤りを自動的に検出し、人手に
よる効率的な修正を支援し、修正作業のミスおよび修正
者の負担を軽減することのできる音声文字化誤り検出装
置および記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】上記の課題を解決するた
めに請求項1の発明は、入力された原音声の文字化結果
から前記原音声が発声された場合と同等の合成音声を作
成して前記合成音声の特徴を抽出するとともに、発声さ
れた前記原音声の特徴を抽出する特徴抽出手段と、抽出
された前記合成音声および原音声の特徴を音響分析して
比較し、当該比較結果にしたがい前記発声された前記原
音声に対する前記文字化結果の誤りを検出する誤り検出
手段と、当該検出結果にしたがい前記文字化結果の誤り
箇所を通知する誤り通知手段とを備えたことを特徴とす
る音声文字化誤り検出装置を提供する。
【0011】また、請求項2の発明は、請求項1の音声
文字化誤り検出装置において、前記特徴抽出手段によ
り、前記発声された前記原音声をセグメント化して当該
セグメント化原音声の特徴を抽出するとともに、前記文
字化結果の発音情報にしたがった前記セグメント化原音
声の比較対象音声の位置情報を生成し、前記位置情報に
したがって前記同等の合成音声を作成して前記合成音声
の特徴を抽出し、前記誤り検出手段により、前記セグメ
ント毎に比較、検出を行うことで、前記文字化結果に追
従して前記文字化結果の誤りを検出することを特徴とす
る音声文字化誤り検出装置を提供する。
【0012】また、請求項3の発明は、請求項1の音声
文字化誤り検出装置において、前記誤り通知手段は表示
装置を有し、前記誤り検出手段により前記文字化結果の
誤りを検出したときに、前記表示装置により前記誤り箇
所では他の箇所と異なる表示属性の設定により表示を行
うことを特徴とする音声文字化誤り検出装置を提供す
る。
【0013】また、請求項4の発明は、請求項1の音声
文字化誤り検出装置において、 前記誤り通知手段は音
声出力装置を有し、前記誤り検出手段により前記文字化
結果の誤りを検出したときに、前記音声出力装置により
前記誤り箇所では他の箇所と異なる音響効果の設定によ
り音声出力を行うことを特徴とする音声文字化誤り検出
装置を提供する。
【0014】また、請求項5の発明は、請求項3または
4の音声文字化誤り検出装置において、前記誤り箇所の
誤り可能性に応じて前記誤り検出手段は、前記表示属性
の程度を変化させて前記表示装置による前記表示を行う
か、または前記音響効果の程度を変化させて前記音声出
力装置による前記音声出力を行うことを特徴とする音声
文字化誤り検出装置を提供する。
【0015】上記の課題を解決するために請求項6の発
明は、発声された原音声を入力する手段と、前記原音声
の韻律情報やスペクトル情報等を利用して前記原音声と
同期した合成音声を作成する手段と、前記原音声を前記
合成音声を同時に通知する手段とを備えたことを特徴と
する音声文字化誤り検出装置を提供する。
【0016】上記の課題を解決するために請求項7の発
明は、入力された原音声の文字化結果から前記原音声が
発声された場合と同等の合成音声を作成して前記合成音
声の特徴を抽出するとともに、発声された前記原音声の
特徴を抽出する特徴抽出ステップと、抽出された前記合
成音声および原音声の特徴を音響分析して比較し、当該
比較結果にしたがい前記発声された前記原音声に対する
前記文字化結果の誤りを検出する誤り検出ステップと、
当該検出結果にしたがい前記文字化結果の誤り箇所を通
知する誤り通知ステップとを含むことを特徴とするプロ
グラムをコンピュータにより読み取り可能に記録した記
録媒体を提供する。
【0017】また、請求項8の発明は、請求項7の記録
媒体において、前記特徴抽出ステップでは、前記発声さ
れた前記原音声をセグメント化して当該セグメント化原
音声の特徴を抽出するとともに、前記文字化結果の発音
情報にしたがった前記セグメント化原音声の比較対象音
声の位置情報を生成し、前記位置情報にしたがって前記
同等の合成音声を作成して前記合成音声の特徴を抽出
し、前記誤り検出ステップでは、前記セグメント毎に比
較、検出を行うことで、前記文字化結果に追従して前記
文字化結果の誤りを検出することを特徴とする前記プロ
グラムをコンピュータにより読み取り可能に記録した記
録媒体を提供する。
【0018】また、請求項9の発明は、請求項7の記録
媒体において、前記誤り検出ステップにおいて前記文字
化結果の誤りを検出したときに前記誤り通知ステップで
は、表示装置を用いて、前記誤り箇所では他の箇所と異
なる表示属性の設定により表示を行うことを特徴とする
前記プログラムをコンピュータにより読み取り可能に記
録した記録媒体を提供する。
【0019】また、請求項10の発明は、請求項7の記
録媒体において、前記誤り検出ステップにおいて前記文
字化結果の誤りを検出したときに前記誤り通知ステップ
では、音声出力装置を用いて、前記誤り箇所では他の箇
所と異なる音響効果の設定により音声出力を行うことを
特徴とする前記プログラムをコンピュータにより読み取
り可能に記録した記録媒体を提供する。
【0020】また、請求項11の発明は、請求項8また
は9の記録媒体において、前記誤り箇所の誤り可能性に
応じて前記誤り検出ステップでは、前記表示属性の程度
を変化させて前記表示を行うか、または前記音響効果の
程度を変化させて前記音声出力を行うことを特徴とする
前記プログラムをコンピュータにより読み取り可能に記
録した記録媒体を提供する。
【0021】上記の課題を解決するために請求項12の
発明は、発声された原音声を入力するステップと、前記
原音声の韻律情報やスペクトル情報等を利用して前記原
音声と同期した合成音声を作成するステップと、前記原
音声を前記合成音声を同時に通知するステップとを含む
ことを特徴とするプログラムをコンピュータにより読み
取り可能に記録した記録媒体を提供する。
【0022】上記構成による本発明に係る誤り検出は特
に、逐次出力される文字化結果毎に行うことが可能なた
め、リアルタイム性が要求される文字化結果修正システ
ムでの迅速な作業に有効である。
【0023】すなわち本発明の手法によれば、修正者に
文字化結果に含まれる文字誤り箇所を視覚、および聴覚
の観点から明確に提示することができるため、全ての文
字化結果に目を通す必要が無くなる。
【0024】リアルタイム性が要求される修正では、修
正者は文字化結果中の誤りが提示された箇所のみに注意
を払うだけで音声の聴取に専念することができ、修正時
の負担が軽減されると同時に誤りを見逃す確率を少なく
することが出来る。また修正時間が短縮されるためリア
ルタイム性がより向上する。
【0025】オフラインでの修正では、上記のオンライ
ンでの有効性に加え、修正者が提示された修正箇所のみ
の音声を聞き直し修正を行うことが可能となるため、効
率的でより正確な修正作業が可能となる。
【0026】
【発明の実施の形態】以下、文字化手法として、音声認
識装置を用いた場合の本発明の実施の形態について図面
を参照して説明する。
【0027】(一実施形態)図1は、本発明に係る音声
文字化誤り検出装置の一実施形態を用いた文字誤り検出
方法の処理手順を概略的に示す機能構成図であり、音声
合成を利用した処理を特徴としている。なお、以下の記
述において文字化を「認識」と記述する。
【0028】本実施形態の音声文字化誤り検出装置1
は、音声認識装置2と認識結果処理部3と原音声信号処
理部4と合成音声作成部5と合成音声特徴抽出部6と原
音声特徴抽出部7と比較処理部8と誤り判定部9と誤り
提示部10で構成されている。
【0029】音声認識装置2は、入力音声を認識して文
字情報に変換する。音声認識装置2は、現状の音声認識
装置が対象としている単語および連続音声認識、また特
定および不特定話者など、音声認識のほとんどに適用可
能である。音声認識結果を導出する手段としては、DP
マッチングなどのように入力パターンと標準パターンと
のベクトル距離を利用するパターン認識手法や、HMM
(hidden Markov model)法などのように各単語や音素
を標準的な状態遷移確率(隠れマルコフモデル)で表現
する統計的認識手法など多数存在するが、音声認識装置
2による認識手法は本発明において特に限定されるもの
ではない。
【0030】認識結果処理部3は、音声認識装置2から
出力される音声認識結果等の情報を用いて、原音声を形
態素や単語などの単位にセグメント化するための分割情
報(セグメント情報)、合成音声を作成するための認識
文字列の読みなどの発音情報を抽出する。合成音声作成
部5は、認識結果処理部3から得られる認識文字列の読
みの情報から、検出単位毎に音声波形を合成して合成音
声信号を出力する。合成音声特徴抽出部6は、合成音声
作成部5から得られた合成音声信号の特徴量を抽出す
る。
【0031】原音声信号処理部4は各種オーデイオ装置
(図示せず)から原音声信号を入力し、認識結果処理部
3から得られるセグメント情報から原音声波形を検出単
位に分割する。原音声特徴抽出部7は、原音声信号処理
部4から得られたセグメント化原音声信号の特徴量を抽
出する。
【0032】比較処理部8は、合成音声特徴抽出部6と
原音声特徴抽出部7で得られた合成音声、原音声のそれ
ぞれの特徴量を比較する。誤り検出部9は、比較処理部
8で得られた比較結果に基づいて認識結果(文字化結
果)が正解であるか誤りであるかを判定する。さらに、
誤りについては誤り位置情報を出力する。
【0033】誤り提示部10は、誤り判定部9から供給
される誤り位置情報から誤り箇所を視覚的に提示し、か
つ聴覚的に提示するもので、後述のディスプレイおよび
スピーカ等を制御することができる。
【0034】図2に連続音声認識手法を用いた音声認識
装置2の音声認識結果出力例を示す。
【0035】連続音声認識では、一般的に連続音声をい
くつかのセグメント(形態素・単語など)に分割してセ
グメントごとに認識が行われる。
【0036】たとえば、図2のように「今日」→「の」
→「号」→「から」…とセグメントごとに分割された音
声認識結果を結合して連続音声の認識を行っている。ま
た、分割時に用いられているセグメント情報(原音声中
のどの区間で認識が行われたかの情報)も同時に出力す
ることができる。さらに、音声認識結果の発音情報も同
時に得られるように音声認識装置2を構成することも出
来る。このセグメント情報はセグメント化原音声信号を
作成する原音声信号処理に利用され、認識結果または発
音情報は合成音声信号作成に利用される。
【0037】誤りを含む音声認識装置では、図2の「午
後」→「号」のような誤りが、100−認識率[%]の
割合で発生する。この誤りを自動的に検出し、修正者に
視覚的、聴覚的に提示することが本発明装置および本発
明記録媒体の目的である。次に、上記目的を達成するた
めの本発明実施形態の具体的なシステム構成を図3を参
照して説明する。ここでは、本発明に係る音声文字化誤
り検出装置としてパーソナルコンピュータ(PC)を使
用した実施形態を説明する。
【0038】図3において、CPU20、システムメモ
リ21、入力装置22、外部記憶装置23、ハードディ
スク記憶装置(以下、ハードディスクと略記する)2
4、ディスプレイ25、音声入力装置26および音声出
力装置27がバスに接続されている。
【0039】CPU20はシステムメモリ21にロード
された本発明に係るプログラムに従って音声認識および
音声文字化誤り検出処理を行う。CPU20はさらに、
ハードディスク24に保存されたオペレーティングシス
テムにしたがって、システム制御を行う。 システムメ
モリ21はROMおよびRAMを有し、CPU20が実
行するプログラム、演算に使用されるデータ等を記憶す
る。
【0040】外部記憶装置23はフロッピーディスク、
CD−ROMなどの外部記録媒体から記録データ、プロ
グラムを読み取る。本実施形態では、当該外部記録媒体
から上述のプログラムを読み取る。
【0041】ハードディスク24はシステム制御で使用
するオペレーティングシステム、音声認識プログラム、
音声認識プログラムで使用する言語モデル、語彙、その
他、音声認識に必要なデータを保存記憶する。ハードデ
ィスク24はさらに、音声文字化誤り検出に必要な各種
データを保存記憶する。
【0042】ディスプレイ25は入力装置22から入力
されたデータや、音声認識結果、音声文字化誤り検出結
果などをCPU20の制御の下に表示する。音声入力装
置26はマイクロホンおよびアナログデジタル変換器を
有し、入力された原音声をCPU20が処理可能なデジ
タル音声信号の形態で出力する。音声出力装置27はス
ピーカ、ヘッドフォン等のトランスデューサを備え、処
理結果にしたがったデータに基づき合成音声、原音声を
出力することができる。
【0043】このようなシステム構成で実行される本発
明に係る音声文字化誤り検出処理について、以下に図4
乃至図10を参照して詳細に説明する。
【0044】認識結果処理部3では、音声認識装置2か
ら得られた音声認識結果を用いて、比較対象される2種
類の音声波形(合成音声信号、セグメント化原音声信
号)を得るための前述した2種類の情報を抽出する。
【0045】図4は認識結果処理部3の処理手順を詳細
に示す機能構成図である。これにより、認識結果(文字
化結果)出力に追従した認識結果誤りを検出することが
できる。
【0046】認識結果処理部3では、音声認識装置2か
ら得られた音声認識結果から分割情報抽出処理32を行
い、原音声信号をセグメント化するためのセグメント情
報を得る。また、必要に応じて発音情報抽出処理31を
行い、合成音声を作成するための認識結果(または発音
情報)を得る。
【0047】セグメント情報の出力形態は使用する音声
認識装置により異なるため、基準点からの時間長やサン
プル数などに変換し、原音声用分割情報として出力す
る。合成音作成用の発音情報は、音声認識装置2から取
得できる場合はそのまま使用し、取得できない場合は漢
字かな混じり文である音声認識結果に自動でかなをふる
上記の発音情報抽出処理31を行ない、合成音声用発音
情報を出力する。
【0048】このように、認識結果を所定のセグメント
長に分割し、分割したセグメント単位で誤り検出を行う
ことで認識結果に追従した誤り検出を行うことができ、
リアルタイムでの修正が要求されるケースにおいて特に
有効である。
【0049】原音声信号処理部4では、分割情報を用い
て原音声信号を検出対象ごとに分割し、セグメント化さ
れた原音声信号を出力する。
【0050】図5は原音声信号処理部4による処理手順
を詳細に示す機能構成図であり、原音声信号を分割情報
に基づいて再構成する処理手順が示されている。
【0051】原音声信号処理部4では、認識結果処理部
3から得られた分割情報から、始点検出部41により原
音声信号中の検出対象音声区間の始点を求める。また終
点検出部42により当該区間の終点を求める。音声信号
分割部43では、これら始点・終点情報に基づいて連続
して発声された原音声信号を分割し、セグメント化され
た原音声信号を出力する。このとき同時に、セグメント
化された原音声信号の前後に冗長な無音区間が含まれる
場合があるため、音声パワー等にしたがった無音区間検
出を行い、検出した無音区間を削除する処理も行う。
【0052】図6は、連続して発声された原音声信号を
分割する分割例と、分割情報に基づいて原音声信号を再
構成する例を示す説明図である。
【0053】50は連続した原音声信号を示し、原音声
信号50は無音区間51を含む。52〜55はセグメン
ト化された原音声信号であり、「今日」、「の」、
「号」、「から」の各原音声にそれぞれ対応する。
【0054】この分割例にあるように、逐次出力される
認識結果を用いてセグメント化された原音声信号52〜
55を作成し、検出に用いている。
【0055】合成音声作成部5では、認識結果処理部3
から出力される認識結果の発音情報を使用して、セグメ
ント化された原音声信号との比較に用いられる合成音声
信号を作成する。
【0056】合成音声作成部5に適用できる合成音声作
成手法には様々なものがあるが、その一例の処理の流れ
を図7に示す。
【0057】対象合成音位置検出部51では、認識結果
処理部3から出力される認識結果の発音情報から、検出
対象語句が語頭、語尾、語中に位置するのか、当該対象
語句の前後に無音区間(息継ぎ箇所)が存在するのかを
検出し、当該検出結果を位置情報として出力する。合成
用テーブル作成部52では、位置情報に基づいて前後の
音響的特徴を考慮して合成音声作成最小単位(音素、音
節、単語等)を組み合わせ、音声合成用テーブルを構成
して出力する。音声合成用テーブルには音声合成用規則
が記述されている。
【0058】合成用データ蓄積部54は合成音声作成用
の素片データ等を記憶している。音声合成器53では、
合成用テーブル作成部52からの音声合成用テーブルを
参照し、合成用データ蓄積部54に記憶された合成音声
作成用のデータから合成用素片データを取得し、規則に
従って合成音声信号を出力する。
【0059】図8に、合成音声作成最小単位を音素とし
たときの合成音声作成手順を示す。
【0060】例えば「今日」の合成音声は、その前に配
置される(語頭)という情報、その後に配置される
(n)という情報も含めて合成を行なうことで、連続音
声中から切り出したのと同様の合成音声が得られる。ま
た、セグメント中の他の語(図8の例では「の」、
「号」、「から」)についても同様に前後の音素環境を
考慮した合成を行うことで、より自然性の高い合成音声
70〜74を得ることができる。
【0061】合成音声特徴抽出部6には合成音声作成部
5で作成された合成音声信号が入力され、原音声特徴抽
出部7には原音声信号処理部4で切り出されたセグメン
ト化原音声信号が入力される。比較処理部8で比較する
ための特徴量を両抽出部において抽出する方法のひとつ
として、各々の音声波形に対して音響分析を施すことが
考えられる。
【0062】特徴抽出のための音響分析手法として、F
FT(fast Fourier transform)などによる短時間スペ
クトル分析や帯域フィルタバンク分析などのノンパラメ
トリックな周波数分析方法、線形予測分析を用いたLP
C(linear prediction coding)ケプストラム分析など
のパラメトリックな周波数分析方法、音声パワー、ピッ
チ周波数等の韻律情報を利用した方法など多数存在する
が、本発明では音響分析手法の種類は特に限定されな
い。
【0063】音声波形を分析して抽出された特徴量は、
原音声特徴抽出部7から原音声特徴量として、合成音声
特徴抽出部6から合成音特徴量として比較処理部8に出
力される。
【0064】比較処理部8では、合成音声特徴抽出部6
と原音声特徴抽出部7から出力された2種類の特徴量の
比較処理を行う。比較方法として、両特徴間のベクトル
距離を算出して比較を行うもの(たとえばDPマッチン
グ(DTW;dynamic time warping))など多数存在す
るが、本発明では比較手法の種類は特に限定されない。
比較処理部8からは、距離および類似度などの値が比較
結果として出力される。
【0065】誤り検出部9では、比較処理部8から出力
された比較結果から、所定値をしきい値として正解であ
るか誤りであるかを判定する。比較処理部8からの比較
結果は、発声者または発声条件により出力の傾向が逐次
変化するため、誤り検出部9では、比較結果に対して適
応的にしきい値を設定する処理を施す。誤り検出部9が
誤りであると判定した場合は、誤り位置情報を誤り提示
部10に出力する。
【0066】誤り提示部10では、誤り検出部9から出
力された誤り位置情報から、誤り箇所に対して次の通り
に視覚的および/または聴覚的な効果を施し、表示およ
び/または音声によって修正者に適切な誤り提示を行
う。
【0067】図9に、誤りが検出された際にその旨を視
覚的に提示する、誤り提示部10による出力例を示す。
【0068】比較結果から誤り検出部9により誤り検出
を行い、誤りであると判定された箇所を発見した場合
(図9(a)の例では「号」)、修正者が即座にオンラ
インで修正を行うために、図9(b)に示した表示出力
例のように前述ディスプレイ装置の表示部80に誤り箇
所の文字表示に修飾82を施し、修正箇所を修正者に明
示する。この例では網掛け修飾を示している。誤り箇所
の文字修飾方法として他に、文字の太さ、大きさ、色、
字体の修飾や空白の挿入等を実施することができる。
【0069】また、判定箇所の誤りの可能性に応じて当
該文字修飾の程度を変化させることもできる。たとえ
ば、修飾程度の設定に比較処理部8から出力される距離
や類似度等を用いることで、修正者の要求に柔軟に対応
できるとともに、より高い検出効果が期待できる誤り提
示方法を提供することができる。
【0070】また、自動文字書き起こし等のオフライン
での修正の場合は、プリンタ装置を併せて用いることに
よって、上記したオンラインでの場合に加えて紙等への
プリント出力によっても誤り箇所を提示することができ
る。
【0071】図10に、誤りが検出された際にその旨を
聴覚的に提示する、誤り提示部10による別の出力例を
示す。
【0072】比較結果から誤り検出部9により誤り検出
を行い、誤りであると判定された箇所を発見した場合、
修正者が誤り修正時に聴取する原音声信号の誤り部分に
対して他の部分と比べて特徴的な音響的な効果を加える
ことで、聴覚上の観点から修正者に注意を喚起すること
が可能である。
【0073】たとえば図10(a)に一例を示したよう
に検出結果「号」が誤りの場合、音響効果として、図1
0(b)に示すようにゲイン調整して誤り箇所91aの
ゲインを他の部分よりも大きくして強調し、これを訂正
すべき音響としてスピーカ90から出力することで修正
者の注意を喚起することができる。
【0074】また図10(c)の例では、誤り箇所91
bの前後に無音区間92,93を挿入することで強調
し、これをスピーカ90から出力することで修正者の注
意を喚起することができる。また図10(d)の例で
は、誤り箇所91cの話速が他の部分よりもたとえば遅
くなるよう調整して強調し、これをスピーカ90から出
力することで修正者の注意を喚起することができる。さ
らに、イントネーションの変化を大きくしたり、個人性
による強調等も実施することができる。
【0075】もちろん、図10(b)〜(c)の形態に
おいて、誤り判定箇所の誤りの可能性に応じてゲイン調
整、無音区間の長さ、話速の違いを変化させることがで
きる。これら音響効果の程度設定に比較処理部8から出
力される距離や類似度等を用いることで、修正者の要求
に柔軟に対応できるとともに、より高い検出効果が期待
できる誤り提示方法を提供することができる。
【0076】また、図9と図10に示した方法を併用す
ることで、修正者へのより高い支援効果を得ることがで
きる。
【0077】(他の実施形態)上記実施形態では、文字
化結果を用いて音声合成を行い、文字化結果が発声され
た場合と同等な音声波形を作成し、当該合成音声波形と
実際に発声された原音声波形との音響分析後の特徴量の
比較から文字化誤りを検出して表示および/または音声
によって修正者に提示していた。
【0078】本実施形態は、原音声と同期した合成音声
を作成し、修正者に原音声と合成音声を同時に提示する
ことで文字化誤り検出を支援するものである。
【0079】図11は本発明に係る音声文字化誤り検出
装置の他の実施形態を用いた文字誤り検出方法を概略的
に示す説明図であり、原音声と同期した合成音を修正者
に同時に提示する処理を特徴とする。ハードウエア構成
は上記実施形態とほぼ同様のもので実施でき、音声出力
装置としてヘッドフォン110を用いると好適である。
【0080】認識結果から抽出される発音情報に加え
て、原音声111の韻律情報(声の高さ、強さ、長さな
ど)やスペクトル情報等を利用して、原音声111と同
期した合成音声112を作成する。両音声をヘッドフォ
ン110の左右のチャンネルから独立して出力し、修正
者に同時に提示する。これにより、修正者の聴感上の弁
別機能を利用することができ、修正者が音声から誤りを
検出する場合に、聴感上の差異点から直感的に容易に検
出できるように支援することができる。
【0081】
【発明の効果】以上説明したように、現状の音声文字化
システムの利用を考えた場合、文字化結果に必ず誤りが
含まれるため何らかの修正手法を必要とする。通常は修
正者が手動で修正することが行われているが、本出願で
は、音声合成手法を利用して自動的に誤りを検出し、修
正者に誤りを効果的に提示することを目的としている。
これにより、修正者の負担を軽減するだけでなく、修正
誤りを減少させる効果もある。
【0082】また、逐次出力される文字結果に追従して
誤り検出を行うため、音声文字化システムのリアルタイ
ムでの使用にも対応することができる。本発明に係る誤
り検出手法は音声文字化システムの内部構造には依存せ
ず、文字化結果が得られるどのような文字化手法にも適
用可能であるため、応用範囲が広いことも特徴である。
【図面の簡単な説明】
【図1】本発明に係る音声文字化誤り検出装置の一実施
形態を用いた文字誤り検出方法の処理手順を概略的に示
す機能構成図である。
【図2】本発明の一実施形態で使用する連続音声認識手
法を用いた音声認識装置の音声認識結果出力例の説明図
である。
【図3】本発明に係る音声文字化誤り検出装置の一具体
例としてパーソナルコンピュータを使用したシステム構
成を示すブロック図である。
【図4】本発明の一実施形態で使用する認識結果処理部
の処理手順を詳細に示す機能構成図である。
【図5】本発明の一実施形態で使用する原音声信号処理
部の処理手順を詳細に示す機能構成図である。
【図6】連続して発声された原音声信号を分割する分割
例と、分割情報に基づいて原音声信号を再構成する例を
示す説明図である。
【図7】本発明の一実施形態で使用する合成音声作成部
による合成音声作成の処理手順の一例を示す機能構成図
である。
【図8】合成音声作成最小単位を音素としたときの合成
音声作成手順を示す説明図である。
【図9】誤りが検出された際に、本発明の一実施形態で
使用する誤り提示部によって視覚的に提示する出力例を
示す説明図である。
【図10】誤りが検出された際に、本発明の一実施形態
で使用する誤り提示部によって聴覚的に提示する出力例
を示す説明図である。
【図11】本発明に係る音声文字化誤り検出装置の他の
実施形態を用いた文字誤り検出方法を概略的に示す説明
図である。
【符号の説明】
1 音声文字化誤り検出装置 2 音声認識装置 3 認識結果処理部 4 原音声信号処理部 5 合成音声作成部 6 合成音声特徴抽出部 7 原音声特徴抽出部 8 比較処理部 9 誤り判定部 10 誤り提示部 20 CPU 21 システムメモリ 22 入力装置 23 ディスク読取装置 24 ハードディスク 25 ディスプレイ 26 音声入力装置 27 音声出力装置 90 スピーカ 110 ヘッドフォン 111 原音声 112 合成音声
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 泰宏 東京都渋谷区神南二丁目2番1号 日本放 送協会 放送センター内 (72)発明者 都木 徹 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B009 KB04 RD03 5D045 AA20 AB02 9A001 HH15 HH16 HH18

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力された原音声の文字化結果から前記
    原音声が発声された場合と同等の合成音声を作成して前
    記合成音声の特徴を抽出するとともに、発声された前記
    原音声の特徴を抽出する特徴抽出手段と、 抽出された前記合成音声および原音声の特徴を音響分析
    して比較し、当該比較結果にしたがい前記発声された前
    記原音声に対する前記文字化結果の誤りを検出する誤り
    検出手段と、 当該検出結果にしたがい前記文字化結果の誤り箇所を通
    知する誤り通知手段とを備えたことを特徴とする音声文
    字化誤り検出装置。
  2. 【請求項2】 請求項1に記載の音声文字化誤り検出装
    置において、 前記特徴抽出手段により、前記発声された前記原音声を
    セグメント化して当該セグメント化原音声の特徴を抽出
    するとともに、前記文字化結果の発音情報にしたがった
    前記セグメント化原音声の比較対象音声の位置情報を生
    成し、前記位置情報にしたがって前記同等の合成音声を
    作成して前記合成音声の特徴を抽出し、 前記誤り検出手段により、前記セグメント毎に比較、検
    出を行うことで、前記文字化結果に追従して前記文字化
    結果の誤りを検出することを特徴とする音声文字化誤り
    検出装置。
  3. 【請求項3】 請求項1に記載の音声文字化誤り検出装
    置において、 前記誤り通知手段は表示装置を有し、前記誤り検出手段
    により前記文字化結果の誤りを検出したときに、前記表
    示装置により前記誤り箇所では他の箇所と異なる表示属
    性の設定により表示を行うことを特徴とする音声文字化
    誤り検出装置。
  4. 【請求項4】 請求項1に記載の音声文字化誤り検出装
    置において、 前記誤り通知手段は音声出力装置を有し、前記誤り検出
    手段により前記文字化結果の誤りを検出したときに、前
    記音声出力装置により前記誤り箇所では他の箇所と異な
    る音響効果の設定により音声出力を行うことを特徴とす
    る音声文字化誤り検出装置。
  5. 【請求項5】 請求項3または4に記載の音声文字化誤
    り検出装置において、 前記誤り箇所の誤り可能性に応じて前記誤り検出手段
    は、前記表示属性の程度を変化させて前記表示装置によ
    る前記表示を行うか、または前記音響効果の程度を変化
    させて前記音声出力装置による前記音声出力を行うこと
    を特徴とする音声文字化誤り検出装置。
  6. 【請求項6】 発声された原音声を入力する手段と、 前記原音声の韻律情報やスペクトル情報等を利用して前
    記原音声と同期した合成音声を作成する手段と、 前記原音声を前記合成音声を同時に通知する手段とを備
    えたことを特徴とする音声文字化誤り検出装置。
  7. 【請求項7】 入力された原音声の文字化結果から前記
    原音声が発声された場合と同等の合成音声を作成して前
    記合成音声の特徴を抽出するとともに、発声された前記
    原音声の特徴を抽出する特徴抽出ステップと、 抽出された前記合成音声および原音声の特徴を音響分析
    して比較し、当該比較結果にしたがい前記発声された前
    記原音声に対する前記文字化結果の誤りを検出する誤り
    検出ステップと、 当該検出結果にしたがい前記文字化結果の誤り箇所を通
    知する誤り通知ステップとを含むことを特徴とするプロ
    グラムをコンピュータにより読み取り可能に記録した記
    録媒体。
  8. 【請求項8】 請求項7に記載の記録媒体において、 前記特徴抽出ステップでは、前記発声された前記原音声
    をセグメント化して当該セグメント化原音声の特徴を抽
    出するとともに、前記文字化結果の発音情報にしたがっ
    た前記セグメント化原音声の比較対象音声の位置情報を
    生成し、前記位置情報にしたがって前記同等の合成音声
    を作成して前記合成音声の特徴を抽出し、 前記誤り検出ステップでは、前記セグメント毎に比較、
    検出を行うことで、前記文字化結果に追従して前記文字
    化結果の誤りを検出することを特徴とする前記プログラ
    ムをコンピュータにより読み取り可能に記録した記録媒
    体。
  9. 【請求項9】 請求項7に記載の記録媒体において、 前記誤り検出ステップにおいて前記文字化結果の誤りを
    検出したときに前記誤り通知ステップでは、表示装置を
    用いて、前記誤り箇所では他の箇所と異なる表示属性の
    設定により表示を行うことを特徴とする前記プログラム
    をコンピュータにより読み取り可能に記録した記録媒
    体。
  10. 【請求項10】 請求項7に記載の記録媒体において、 前記誤り検出ステップにおいて前記文字化結果の誤りを
    検出したときに前記誤り通知ステップでは、音声出力装
    置を用いて、前記誤り箇所では他の箇所と異なる音響効
    果の設定により音声出力を行うことを特徴とする前記プ
    ログラムをコンピュータにより読み取り可能に記録した
    記録媒体。
  11. 【請求項11】 請求項8または9に記載の記録媒体に
    おいて、 前記誤り箇所の誤り可能性に応じて前記誤り検出ステッ
    プでは、前記表示属性の程度を変化させて前記表示を行
    うか、または前記音響効果の程度を変化させて前記音声
    出力を行うことを特徴とする前記プログラムをコンピュ
    ータにより読み取り可能に記録した記録媒体。
  12. 【請求項12】 発声された原音声を入力するステップ
    と、 前記原音声の韻律情報やスペクトル情報等を利用して前
    記原音声と同期した合成音声を作成するステップと、 前記原音声を前記合成音声を同時に通知するステップと
    を含むことを特徴とするプログラムをコンピュータによ
    り読み取り可能に記録した記録媒体。
JP31276799A 1999-11-02 1999-11-02 音声文字化誤り検出装置および記録媒体 Pending JP2001134276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31276799A JP2001134276A (ja) 1999-11-02 1999-11-02 音声文字化誤り検出装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31276799A JP2001134276A (ja) 1999-11-02 1999-11-02 音声文字化誤り検出装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2001134276A true JP2001134276A (ja) 2001-05-18

Family

ID=18033183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31276799A Pending JP2001134276A (ja) 1999-11-02 1999-11-02 音声文字化誤り検出装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2001134276A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014136534A1 (ja) 2013-03-07 2014-09-12 Necソリューションイノベータ株式会社 理解支援システム、理解支援サーバ、理解支援方法、及びコンピュータ読み取り可能な記録媒体
JP2019090917A (ja) * 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP2019124897A (ja) * 2018-01-19 2019-07-25 富士ゼロックス株式会社 音声解析装置、音声解析システム、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014136534A1 (ja) 2013-03-07 2014-09-12 Necソリューションイノベータ株式会社 理解支援システム、理解支援サーバ、理解支援方法、及びコンピュータ読み取り可能な記録媒体
JP2019090917A (ja) * 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP2019124897A (ja) * 2018-01-19 2019-07-25 富士ゼロックス株式会社 音声解析装置、音声解析システム、及びプログラム
JP7062966B2 (ja) 2018-01-19 2022-05-09 富士フイルムビジネスイノベーション株式会社 音声解析装置、音声解析システム、及びプログラム

Similar Documents

Publication Publication Date Title
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US6424935B1 (en) Two-way speech recognition and dialect system
JP4085130B2 (ja) 感情認識装置
US7143033B2 (en) Automatic multi-language phonetic transcribing system
US20070213987A1 (en) Codebook-less speech conversion method and system
JP4714694B2 (ja) 音声−テキストトランスクリプションシステムの誤り検出
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
WO2004063902B1 (en) Speech training method with color instruction
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
Badino et al. Language independent phoneme mapping for foreign TTS
US7139708B1 (en) System and method for speech recognition using an enhanced phone set
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2001134276A (ja) 音声文字化誤り検出装置および記録媒体
Demuynck et al. Automatic Phonemic Labeling and Segmentation of Spoken Dutch.
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP3110025B2 (ja) 発声変形検出装置
JP3235747B2 (ja) 音声合成装置及び音声合成方法
Dzibela et al. Hidden-Markov-Model Based Speech Enhancement
JP3614874B2 (ja) 音声合成装置及び方法
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
JP3292218B2 (ja) 音声メッセージ作成装置