JP2001134276A

JP2001134276A - 音声文字化誤り検出装置および記録媒体

Info

Publication number: JP2001134276A
Application number: JP31276799A
Authority: JP
Inventors: Takeshi Mishima; 剛三島; Nobumasa Seiyama; 信正清山; Yasuhiro Ito; 泰宏伊藤; Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-11-02
Filing date: 1999-11-02
Publication date: 2001-05-18

Abstract

(57)【要約】【課題】誤り箇所を自動的に検出して効果的に提示す
ることで、修正者の負担を軽減できる音声文字化誤り検
出装置および記録媒体を提供する。【解決手段】認識結果処理部３は音声認識結果に従い
分割情報と発音情報を抽出する。合成音声作成部５は認
識結果処理部３からの認識文字列の読みの情報から合成
音声信号を出力する。合成音声特徴抽出部６は合成音声
信号の特徴量を抽出する。原音声信号処理部４は原音声
信号を入力し、分割情報から原音声波形を検出単位に分
割する。原音声特徴抽出部７は、原音声信号処理部４か
らのセグメント化原音声信号の特徴量を抽出する。比較
処理部８は、合成音声、原音声の特徴量を比較する。誤
り検出部９は、比較結果に基づいて認識結果（文字化結
果）が正解であるか誤りであるかを判定し、誤りの誤り
位置情報を出力する。誤り提示部１０は、誤り位置情報
から誤り箇所を視覚的、かつ聴覚的に提示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声文字化誤り検出
装置および記録媒体に関し、特に、音声文字化システム
から発生する文字化誤りを検出する誤り検出方法および
その誤り検出方法を用いて文字化誤り箇所を指摘して修
正者を支援する場合や、放送におけるニュース音声の字
幕化や、講演における聴覚障害者への字幕サービス、雑
誌や新聞のインタビュー記事等の校正作業を効率化する
ために好適な音声文字化誤り検出装置および記録媒体に
関する。

【０００２】

【従来の技術】現在、音声の書き起こしなどの音声の文
字化には、人が音声を耳で聞き、内容を理解して文字に
変換するといった手法が一般的に行われている。しか
し、音声の文字化には、音声の聞き取り能力と記憶能
力、変換語彙の知識量などの高度な能力を必要とするた
め、変換精度は人により大きく異なる。このため、変換
後の文章に誤りが含まれる可能性が高い。

【０００３】また最近では、音声の文字書き起こしを支
援する音声認識技術の導入が盛んに行われているが、現
時点では認識率１００％の音声認識装置は存在しない。
特に、不特定話者、連続音声認識を対象としたものでは
認識結果に誤りが含まれる可能性が非常に高い。

【０００４】従って、人手や音声認識装置を使用して変
換した文字化結果を実際に何らかの目的に使用する場合
は、何らかの修正手法を必要とするのが現状である。こ
の修正手法として、修正者が文字化対象の音声を聞き、
その音声から文字化された結果を目で見直し、文字化結
果の誤りを発見することが一般的に行われている。

【０００５】このように、音声文字化システムから出力
された文字化結果を人が目で見て、実際に発声された音
声を耳で聞きながら誤りを検出していく手法では、人は
文章の１文字１文字に着目して修正を行うというより、
むしろ文章の流れに着目して修正を行う傾向にある。こ
のため、局所的な誤字・脱字は見逃しがちになる。特
に、実際に発声された音声を聞くことと誤り修正という
２つの処理を同時並列的に行わなくてはならないため、
文字を見て文章を校正するだけの作業に比べて誤りを見
逃す確率はさらに高くなる。

【０００６】ただし、リアルタイム性を必要としない音
声の文章書き起こし等、オフラインでの文字誤り修正作
業では、音声の話速を通常よりも遅くしたり、文字化結
果と実際に発声された音声の比較作業を繰り返すことが
可能であるため、誤りの見逃しを減少することが出来
る。しかしながら、繰り返し回数や文章の量によって、
作業時間の増大は避けられない。

【０００７】また、文字化結果を即時に使用するオンラ
インでの文字化誤り修正作業（連続して発声される音声
をリアルタイムに文字化し、ＴＶ生放送番組用に字幕化
を行うなど）では、通常の話速の発声で、再度聞きなお
すことが出来ない音声を聞きながら文字化結果を修正し
ていく作業となる。このため、さらに条件が厳しくな
り、修正者への負担増となると同時に、誤りの見逃し確
率上昇も避けられなかった。

【０００８】

【発明が解決しようとする課題】上述のように、音声文
字化システムの実用化には文字化誤りの修正も考慮に入
れたシステム構築が求められる。システムの実用を考え
た場合、文字変換効率の向上と同時に修正効率の向上も
必要不可欠であるが、修正作業では人手による修正がよ
り確実なのが現状である。そこで、修正者を支援して、
修正時の負担低減、および修正誤りの低減に努めること
がシステム全体の向上につながることになる。

【０００９】本発明は上記した課題を考慮してなされた
ものであり、音声文字化システムから出力される文字化
結果から誤り箇所を自動的に検出し、修正者に効果的に
提示することで、人手によるワープロ入力や音声認識技
術を用いて音声言語によって表現された内容を文字情報
化（音声による自動字幕化、書き起こしなど）する場合
に避けることができない誤りを自動的に検出し、人手に
よる効率的な修正を支援し、修正作業のミスおよび修正
者の負担を軽減することのできる音声文字化誤り検出装
置および記録媒体を提供することを目的とする。

【００１０】

【課題を解決するための手段】上記の課題を解決するた
めに請求項１の発明は、入力された原音声の文字化結果
から前記原音声が発声された場合と同等の合成音声を作
成して前記合成音声の特徴を抽出するとともに、発声さ
れた前記原音声の特徴を抽出する特徴抽出手段と、抽出
された前記合成音声および原音声の特徴を音響分析して
比較し、当該比較結果にしたがい前記発声された前記原
音声に対する前記文字化結果の誤りを検出する誤り検出
手段と、当該検出結果にしたがい前記文字化結果の誤り
箇所を通知する誤り通知手段とを備えたことを特徴とす
る音声文字化誤り検出装置を提供する。

【００１１】また、請求項２の発明は、請求項１の音声
文字化誤り検出装置において、前記特徴抽出手段によ
り、前記発声された前記原音声をセグメント化して当該
セグメント化原音声の特徴を抽出するとともに、前記文
字化結果の発音情報にしたがった前記セグメント化原音
声の比較対象音声の位置情報を生成し、前記位置情報に
したがって前記同等の合成音声を作成して前記合成音声
の特徴を抽出し、前記誤り検出手段により、前記セグメ
ント毎に比較、検出を行うことで、前記文字化結果に追
従して前記文字化結果の誤りを検出することを特徴とす
る音声文字化誤り検出装置を提供する。

【００１２】また、請求項３の発明は、請求項１の音声
文字化誤り検出装置において、前記誤り通知手段は表示
装置を有し、前記誤り検出手段により前記文字化結果の
誤りを検出したときに、前記表示装置により前記誤り箇
所では他の箇所と異なる表示属性の設定により表示を行
うことを特徴とする音声文字化誤り検出装置を提供す
る。

【００１３】また、請求項４の発明は、請求項１の音声
文字化誤り検出装置において、前記誤り通知手段は音
声出力装置を有し、前記誤り検出手段により前記文字化
結果の誤りを検出したときに、前記音声出力装置により
前記誤り箇所では他の箇所と異なる音響効果の設定によ
り音声出力を行うことを特徴とする音声文字化誤り検出
装置を提供する。

【００１４】また、請求項５の発明は、請求項３または
４の音声文字化誤り検出装置において、前記誤り箇所の
誤り可能性に応じて前記誤り検出手段は、前記表示属性
の程度を変化させて前記表示装置による前記表示を行う
か、または前記音響効果の程度を変化させて前記音声出
力装置による前記音声出力を行うことを特徴とする音声
文字化誤り検出装置を提供する。

【００１５】上記の課題を解決するために請求項６の発
明は、発声された原音声を入力する手段と、前記原音声
の韻律情報やスペクトル情報等を利用して前記原音声と
同期した合成音声を作成する手段と、前記原音声を前記
合成音声を同時に通知する手段とを備えたことを特徴と
する音声文字化誤り検出装置を提供する。

【００１６】上記の課題を解決するために請求項７の発
明は、入力された原音声の文字化結果から前記原音声が
発声された場合と同等の合成音声を作成して前記合成音
声の特徴を抽出するとともに、発声された前記原音声の
特徴を抽出する特徴抽出ステップと、抽出された前記合
成音声および原音声の特徴を音響分析して比較し、当該
比較結果にしたがい前記発声された前記原音声に対する
前記文字化結果の誤りを検出する誤り検出ステップと、
当該検出結果にしたがい前記文字化結果の誤り箇所を通
知する誤り通知ステップとを含むことを特徴とするプロ
グラムをコンピュータにより読み取り可能に記録した記
録媒体を提供する。

【００１７】また、請求項８の発明は、請求項７の記録
媒体において、前記特徴抽出ステップでは、前記発声さ
れた前記原音声をセグメント化して当該セグメント化原
音声の特徴を抽出するとともに、前記文字化結果の発音
情報にしたがった前記セグメント化原音声の比較対象音
声の位置情報を生成し、前記位置情報にしたがって前記
同等の合成音声を作成して前記合成音声の特徴を抽出
し、前記誤り検出ステップでは、前記セグメント毎に比
較、検出を行うことで、前記文字化結果に追従して前記
文字化結果の誤りを検出することを特徴とする前記プロ
グラムをコンピュータにより読み取り可能に記録した記
録媒体を提供する。

【００１８】また、請求項９の発明は、請求項７の記録
媒体において、前記誤り検出ステップにおいて前記文字
化結果の誤りを検出したときに前記誤り通知ステップで
は、表示装置を用いて、前記誤り箇所では他の箇所と異
なる表示属性の設定により表示を行うことを特徴とする
前記プログラムをコンピュータにより読み取り可能に記
録した記録媒体を提供する。

【００１９】また、請求項１０の発明は、請求項７の記
録媒体において、前記誤り検出ステップにおいて前記文
字化結果の誤りを検出したときに前記誤り通知ステップ
では、音声出力装置を用いて、前記誤り箇所では他の箇
所と異なる音響効果の設定により音声出力を行うことを
特徴とする前記プログラムをコンピュータにより読み取
り可能に記録した記録媒体を提供する。

【００２０】また、請求項１１の発明は、請求項８また
は９の記録媒体において、前記誤り箇所の誤り可能性に
応じて前記誤り検出ステップでは、前記表示属性の程度
を変化させて前記表示を行うか、または前記音響効果の
程度を変化させて前記音声出力を行うことを特徴とする
前記プログラムをコンピュータにより読み取り可能に記
録した記録媒体を提供する。

【００２１】上記の課題を解決するために請求項１２の
発明は、発声された原音声を入力するステップと、前記
原音声の韻律情報やスペクトル情報等を利用して前記原
音声と同期した合成音声を作成するステップと、前記原
音声を前記合成音声を同時に通知するステップとを含む
ことを特徴とするプログラムをコンピュータにより読み
取り可能に記録した記録媒体を提供する。

【００２２】上記構成による本発明に係る誤り検出は特
に、逐次出力される文字化結果毎に行うことが可能なた
め、リアルタイム性が要求される文字化結果修正システ
ムでの迅速な作業に有効である。

【００２３】すなわち本発明の手法によれば、修正者に
文字化結果に含まれる文字誤り箇所を視覚、および聴覚
の観点から明確に提示することができるため、全ての文
字化結果に目を通す必要が無くなる。

【００２４】リアルタイム性が要求される修正では、修
正者は文字化結果中の誤りが提示された箇所のみに注意
を払うだけで音声の聴取に専念することができ、修正時
の負担が軽減されると同時に誤りを見逃す確率を少なく
することが出来る。また修正時間が短縮されるためリア
ルタイム性がより向上する。

【００２５】オフラインでの修正では、上記のオンライ
ンでの有効性に加え、修正者が提示された修正箇所のみ
の音声を聞き直し修正を行うことが可能となるため、効
率的でより正確な修正作業が可能となる。

【００２６】

【発明の実施の形態】以下、文字化手法として、音声認
識装置を用いた場合の本発明の実施の形態について図面
を参照して説明する。

【００２７】（一実施形態）図１は、本発明に係る音声
文字化誤り検出装置の一実施形態を用いた文字誤り検出
方法の処理手順を概略的に示す機能構成図であり、音声
合成を利用した処理を特徴としている。なお、以下の記
述において文字化を「認識」と記述する。

【００２８】本実施形態の音声文字化誤り検出装置１
は、音声認識装置２と認識結果処理部３と原音声信号処
理部４と合成音声作成部５と合成音声特徴抽出部６と原
音声特徴抽出部７と比較処理部８と誤り判定部９と誤り
提示部１０で構成されている。

【００２９】音声認識装置２は、入力音声を認識して文
字情報に変換する。音声認識装置２は、現状の音声認識
装置が対象としている単語および連続音声認識、また特
定および不特定話者など、音声認識のほとんどに適用可
能である。音声認識結果を導出する手段としては、ＤＰ
マッチングなどのように入力パターンと標準パターンと
のベクトル距離を利用するパターン認識手法や、ＨＭＭ
（hidden Markov model）法などのように各単語や音素
を標準的な状態遷移確率（隠れマルコフモデル）で表現
する統計的認識手法など多数存在するが、音声認識装置
２による認識手法は本発明において特に限定されるもの
ではない。

【００３０】認識結果処理部３は、音声認識装置２から
出力される音声認識結果等の情報を用いて、原音声を形
態素や単語などの単位にセグメント化するための分割情
報（セグメント情報）、合成音声を作成するための認識
文字列の読みなどの発音情報を抽出する。合成音声作成
部５は、認識結果処理部３から得られる認識文字列の読
みの情報から、検出単位毎に音声波形を合成して合成音
声信号を出力する。合成音声特徴抽出部６は、合成音声
作成部５から得られた合成音声信号の特徴量を抽出す
る。

【００３１】原音声信号処理部４は各種オーデイオ装置
（図示せず）から原音声信号を入力し、認識結果処理部
３から得られるセグメント情報から原音声波形を検出単
位に分割する。原音声特徴抽出部７は、原音声信号処理
部４から得られたセグメント化原音声信号の特徴量を抽
出する。

【００３２】比較処理部８は、合成音声特徴抽出部６と
原音声特徴抽出部７で得られた合成音声、原音声のそれ
ぞれの特徴量を比較する。誤り検出部９は、比較処理部
８で得られた比較結果に基づいて認識結果（文字化結
果）が正解であるか誤りであるかを判定する。さらに、
誤りについては誤り位置情報を出力する。

【００３３】誤り提示部１０は、誤り判定部９から供給
される誤り位置情報から誤り箇所を視覚的に提示し、か
つ聴覚的に提示するもので、後述のディスプレイおよび
スピーカ等を制御することができる。

【００３４】図２に連続音声認識手法を用いた音声認識
装置２の音声認識結果出力例を示す。

【００３５】連続音声認識では、一般的に連続音声をい
くつかのセグメント（形態素・単語など）に分割してセ
グメントごとに認識が行われる。

【００３６】たとえば、図２のように「今日」→「の」
→「号」→「から」…とセグメントごとに分割された音
声認識結果を結合して連続音声の認識を行っている。ま
た、分割時に用いられているセグメント情報（原音声中
のどの区間で認識が行われたかの情報）も同時に出力す
ることができる。さらに、音声認識結果の発音情報も同
時に得られるように音声認識装置２を構成することも出
来る。このセグメント情報はセグメント化原音声信号を
作成する原音声信号処理に利用され、認識結果または発
音情報は合成音声信号作成に利用される。

【００３７】誤りを含む音声認識装置では、図２の「午
後」→「号」のような誤りが、１００−認識率［％］の
割合で発生する。この誤りを自動的に検出し、修正者に
視覚的、聴覚的に提示することが本発明装置および本発
明記録媒体の目的である。次に、上記目的を達成するた
めの本発明実施形態の具体的なシステム構成を図３を参
照して説明する。ここでは、本発明に係る音声文字化誤
り検出装置としてパーソナルコンピュータ（ＰＣ）を使
用した実施形態を説明する。

【００３８】図３において、ＣＰＵ２０、システムメモ
リ２１、入力装置２２、外部記憶装置２３、ハードディ
スク記憶装置（以下、ハードディスクと略記する）２
４、ディスプレイ２５、音声入力装置２６および音声出
力装置２７がバスに接続されている。

【００３９】ＣＰＵ２０はシステムメモリ２１にロード
された本発明に係るプログラムに従って音声認識および
音声文字化誤り検出処理を行う。ＣＰＵ２０はさらに、
ハードディスク２４に保存されたオペレーティングシス
テムにしたがって、システム制御を行う。システムメ
モリ２１はＲＯＭおよびＲＡＭを有し、ＣＰＵ２０が実
行するプログラム、演算に使用されるデータ等を記憶す
る。

【００４０】外部記憶装置２３はフロッピーディスク、
ＣＤ−ＲＯＭなどの外部記録媒体から記録データ、プロ
グラムを読み取る。本実施形態では、当該外部記録媒体
から上述のプログラムを読み取る。

【００４１】ハードディスク２４はシステム制御で使用
するオペレーティングシステム、音声認識プログラム、
音声認識プログラムで使用する言語モデル、語彙、その
他、音声認識に必要なデータを保存記憶する。ハードデ
ィスク２４はさらに、音声文字化誤り検出に必要な各種
データを保存記憶する。

【００４２】ディスプレイ２５は入力装置２２から入力
されたデータや、音声認識結果、音声文字化誤り検出結
果などをＣＰＵ２０の制御の下に表示する。音声入力装
置２６はマイクロホンおよびアナログデジタル変換器を
有し、入力された原音声をＣＰＵ２０が処理可能なデジ
タル音声信号の形態で出力する。音声出力装置２７はス
ピーカ、ヘッドフォン等のトランスデューサを備え、処
理結果にしたがったデータに基づき合成音声、原音声を
出力することができる。

【００４３】このようなシステム構成で実行される本発
明に係る音声文字化誤り検出処理について、以下に図４
乃至図１０を参照して詳細に説明する。

【００４４】認識結果処理部３では、音声認識装置２か
ら得られた音声認識結果を用いて、比較対象される２種
類の音声波形（合成音声信号、セグメント化原音声信
号）を得るための前述した２種類の情報を抽出する。

【００４５】図４は認識結果処理部３の処理手順を詳細
に示す機能構成図である。これにより、認識結果（文字
化結果）出力に追従した認識結果誤りを検出することが
できる。

【００４６】認識結果処理部３では、音声認識装置２か
ら得られた音声認識結果から分割情報抽出処理３２を行
い、原音声信号をセグメント化するためのセグメント情
報を得る。また、必要に応じて発音情報抽出処理３１を
行い、合成音声を作成するための認識結果（または発音
情報）を得る。

【００４７】セグメント情報の出力形態は使用する音声
認識装置により異なるため、基準点からの時間長やサン
プル数などに変換し、原音声用分割情報として出力す
る。合成音作成用の発音情報は、音声認識装置２から取
得できる場合はそのまま使用し、取得できない場合は漢
字かな混じり文である音声認識結果に自動でかなをふる
上記の発音情報抽出処理３１を行ない、合成音声用発音
情報を出力する。

【００４８】このように、認識結果を所定のセグメント
長に分割し、分割したセグメント単位で誤り検出を行う
ことで認識結果に追従した誤り検出を行うことができ、
リアルタイムでの修正が要求されるケースにおいて特に
有効である。

【００４９】原音声信号処理部４では、分割情報を用い
て原音声信号を検出対象ごとに分割し、セグメント化さ
れた原音声信号を出力する。

【００５０】図５は原音声信号処理部４による処理手順
を詳細に示す機能構成図であり、原音声信号を分割情報
に基づいて再構成する処理手順が示されている。

【００５１】原音声信号処理部４では、認識結果処理部
３から得られた分割情報から、始点検出部４１により原
音声信号中の検出対象音声区間の始点を求める。また終
点検出部４２により当該区間の終点を求める。音声信号
分割部４３では、これら始点・終点情報に基づいて連続
して発声された原音声信号を分割し、セグメント化され
た原音声信号を出力する。このとき同時に、セグメント
化された原音声信号の前後に冗長な無音区間が含まれる
場合があるため、音声パワー等にしたがった無音区間検
出を行い、検出した無音区間を削除する処理も行う。

【００５２】図６は、連続して発声された原音声信号を
分割する分割例と、分割情報に基づいて原音声信号を再
構成する例を示す説明図である。

【００５３】５０は連続した原音声信号を示し、原音声
信号５０は無音区間５１を含む。５２〜５５はセグメン
ト化された原音声信号であり、「今日」、「の」、
「号」、「から」の各原音声にそれぞれ対応する。

【００５４】この分割例にあるように、逐次出力される
認識結果を用いてセグメント化された原音声信号５２〜
５５を作成し、検出に用いている。

【００５５】合成音声作成部５では、認識結果処理部３
から出力される認識結果の発音情報を使用して、セグメ
ント化された原音声信号との比較に用いられる合成音声
信号を作成する。

【００５６】合成音声作成部５に適用できる合成音声作
成手法には様々なものがあるが、その一例の処理の流れ
を図７に示す。

【００５７】対象合成音位置検出部５１では、認識結果
処理部３から出力される認識結果の発音情報から、検出
対象語句が語頭、語尾、語中に位置するのか、当該対象
語句の前後に無音区間（息継ぎ箇所）が存在するのかを
検出し、当該検出結果を位置情報として出力する。合成
用テーブル作成部５２では、位置情報に基づいて前後の
音響的特徴を考慮して合成音声作成最小単位（音素、音
節、単語等）を組み合わせ、音声合成用テーブルを構成
して出力する。音声合成用テーブルには音声合成用規則
が記述されている。

【００５８】合成用データ蓄積部５４は合成音声作成用
の素片データ等を記憶している。音声合成器５３では、
合成用テーブル作成部５２からの音声合成用テーブルを
参照し、合成用データ蓄積部５４に記憶された合成音声
作成用のデータから合成用素片データを取得し、規則に
従って合成音声信号を出力する。

【００５９】図８に、合成音声作成最小単位を音素とし
たときの合成音声作成手順を示す。

【００６０】例えば「今日」の合成音声は、その前に配
置される（語頭）という情報、その後に配置される
（ｎ）という情報も含めて合成を行なうことで、連続音
声中から切り出したのと同様の合成音声が得られる。ま
た、セグメント中の他の語（図８の例では「の」、
「号」、「から」）についても同様に前後の音素環境を
考慮した合成を行うことで、より自然性の高い合成音声
７０〜７４を得ることができる。

【００６１】合成音声特徴抽出部６には合成音声作成部
５で作成された合成音声信号が入力され、原音声特徴抽
出部７には原音声信号処理部４で切り出されたセグメン
ト化原音声信号が入力される。比較処理部８で比較する
ための特徴量を両抽出部において抽出する方法のひとつ
として、各々の音声波形に対して音響分析を施すことが
考えられる。

【００６２】特徴抽出のための音響分析手法として、Ｆ
ＦＴ（fast Fourier transform）などによる短時間スペ
クトル分析や帯域フィルタバンク分析などのノンパラメ
トリックな周波数分析方法、線形予測分析を用いたＬＰ
Ｃ（linear prediction coding）ケプストラム分析など
のパラメトリックな周波数分析方法、音声パワー、ピッ
チ周波数等の韻律情報を利用した方法など多数存在する
が、本発明では音響分析手法の種類は特に限定されな
い。

【００６３】音声波形を分析して抽出された特徴量は、
原音声特徴抽出部７から原音声特徴量として、合成音声
特徴抽出部６から合成音特徴量として比較処理部８に出
力される。

【００６４】比較処理部８では、合成音声特徴抽出部６
と原音声特徴抽出部７から出力された２種類の特徴量の
比較処理を行う。比較方法として、両特徴間のベクトル
距離を算出して比較を行うもの（たとえばＤＰマッチン
グ（ＤＴＷ；dynamic time warping））など多数存在す
るが、本発明では比較手法の種類は特に限定されない。
比較処理部８からは、距離および類似度などの値が比較
結果として出力される。

【００６５】誤り検出部９では、比較処理部８から出力
された比較結果から、所定値をしきい値として正解であ
るか誤りであるかを判定する。比較処理部８からの比較
結果は、発声者または発声条件により出力の傾向が逐次
変化するため、誤り検出部９では、比較結果に対して適
応的にしきい値を設定する処理を施す。誤り検出部９が
誤りであると判定した場合は、誤り位置情報を誤り提示
部１０に出力する。

【００６６】誤り提示部１０では、誤り検出部９から出
力された誤り位置情報から、誤り箇所に対して次の通り
に視覚的および／または聴覚的な効果を施し、表示およ
び／または音声によって修正者に適切な誤り提示を行
う。

【００６７】図９に、誤りが検出された際にその旨を視
覚的に提示する、誤り提示部１０による出力例を示す。

【００６８】比較結果から誤り検出部９により誤り検出
を行い、誤りであると判定された箇所を発見した場合
（図９（ａ）の例では「号」）、修正者が即座にオンラ
インで修正を行うために、図９（ｂ）に示した表示出力
例のように前述ディスプレイ装置の表示部８０に誤り箇
所の文字表示に修飾８２を施し、修正箇所を修正者に明
示する。この例では網掛け修飾を示している。誤り箇所
の文字修飾方法として他に、文字の太さ、大きさ、色、
字体の修飾や空白の挿入等を実施することができる。

【００６９】また、判定箇所の誤りの可能性に応じて当
該文字修飾の程度を変化させることもできる。たとえ
ば、修飾程度の設定に比較処理部８から出力される距離
や類似度等を用いることで、修正者の要求に柔軟に対応
できるとともに、より高い検出効果が期待できる誤り提
示方法を提供することができる。

【００７０】また、自動文字書き起こし等のオフライン
での修正の場合は、プリンタ装置を併せて用いることに
よって、上記したオンラインでの場合に加えて紙等への
プリント出力によっても誤り箇所を提示することができ
る。

【００７１】図１０に、誤りが検出された際にその旨を
聴覚的に提示する、誤り提示部１０による別の出力例を
示す。

【００７２】比較結果から誤り検出部９により誤り検出
を行い、誤りであると判定された箇所を発見した場合、
修正者が誤り修正時に聴取する原音声信号の誤り部分に
対して他の部分と比べて特徴的な音響的な効果を加える
ことで、聴覚上の観点から修正者に注意を喚起すること
が可能である。

【００７３】たとえば図１０（ａ）に一例を示したよう
に検出結果「号」が誤りの場合、音響効果として、図１
０（ｂ）に示すようにゲイン調整して誤り箇所９１ａの
ゲインを他の部分よりも大きくして強調し、これを訂正
すべき音響としてスピーカ９０から出力することで修正
者の注意を喚起することができる。

【００７４】また図１０（ｃ）の例では、誤り箇所９１
ｂの前後に無音区間９２，９３を挿入することで強調
し、これをスピーカ９０から出力することで修正者の注
意を喚起することができる。また図１０（ｄ）の例で
は、誤り箇所９１ｃの話速が他の部分よりもたとえば遅
くなるよう調整して強調し、これをスピーカ９０から出
力することで修正者の注意を喚起することができる。さ
らに、イントネーションの変化を大きくしたり、個人性
による強調等も実施することができる。

【００７５】もちろん、図１０（ｂ）〜（ｃ）の形態に
おいて、誤り判定箇所の誤りの可能性に応じてゲイン調
整、無音区間の長さ、話速の違いを変化させることがで
きる。これら音響効果の程度設定に比較処理部８から出
力される距離や類似度等を用いることで、修正者の要求
に柔軟に対応できるとともに、より高い検出効果が期待
できる誤り提示方法を提供することができる。

【００７６】また、図９と図１０に示した方法を併用す
ることで、修正者へのより高い支援効果を得ることがで
きる。

【００７７】（他の実施形態）上記実施形態では、文字
化結果を用いて音声合成を行い、文字化結果が発声され
た場合と同等な音声波形を作成し、当該合成音声波形と
実際に発声された原音声波形との音響分析後の特徴量の
比較から文字化誤りを検出して表示および／または音声
によって修正者に提示していた。

【００７８】本実施形態は、原音声と同期した合成音声
を作成し、修正者に原音声と合成音声を同時に提示する
ことで文字化誤り検出を支援するものである。

【００７９】図１１は本発明に係る音声文字化誤り検出
装置の他の実施形態を用いた文字誤り検出方法を概略的
に示す説明図であり、原音声と同期した合成音を修正者
に同時に提示する処理を特徴とする。ハードウエア構成
は上記実施形態とほぼ同様のもので実施でき、音声出力
装置としてヘッドフォン１１０を用いると好適である。

【００８０】認識結果から抽出される発音情報に加え
て、原音声１１１の韻律情報（声の高さ、強さ、長さな
ど）やスペクトル情報等を利用して、原音声１１１と同
期した合成音声１１２を作成する。両音声をヘッドフォ
ン１１０の左右のチャンネルから独立して出力し、修正
者に同時に提示する。これにより、修正者の聴感上の弁
別機能を利用することができ、修正者が音声から誤りを
検出する場合に、聴感上の差異点から直感的に容易に検
出できるように支援することができる。

【００８１】

【発明の効果】以上説明したように、現状の音声文字化
システムの利用を考えた場合、文字化結果に必ず誤りが
含まれるため何らかの修正手法を必要とする。通常は修
正者が手動で修正することが行われているが、本出願で
は、音声合成手法を利用して自動的に誤りを検出し、修
正者に誤りを効果的に提示することを目的としている。
これにより、修正者の負担を軽減するだけでなく、修正
誤りを減少させる効果もある。

【００８２】また、逐次出力される文字結果に追従して
誤り検出を行うため、音声文字化システムのリアルタイ
ムでの使用にも対応することができる。本発明に係る誤
り検出手法は音声文字化システムの内部構造には依存せ
ず、文字化結果が得られるどのような文字化手法にも適
用可能であるため、応用範囲が広いことも特徴である。

【図面の簡単な説明】

【図１】本発明に係る音声文字化誤り検出装置の一実施
形態を用いた文字誤り検出方法の処理手順を概略的に示
す機能構成図である。

【図２】本発明の一実施形態で使用する連続音声認識手
法を用いた音声認識装置の音声認識結果出力例の説明図
である。

【図３】本発明に係る音声文字化誤り検出装置の一具体
例としてパーソナルコンピュータを使用したシステム構
成を示すブロック図である。

【図４】本発明の一実施形態で使用する認識結果処理部
の処理手順を詳細に示す機能構成図である。

【図５】本発明の一実施形態で使用する原音声信号処理
部の処理手順を詳細に示す機能構成図である。

【図６】連続して発声された原音声信号を分割する分割
例と、分割情報に基づいて原音声信号を再構成する例を
示す説明図である。

【図７】本発明の一実施形態で使用する合成音声作成部
による合成音声作成の処理手順の一例を示す機能構成図
である。

【図８】合成音声作成最小単位を音素としたときの合成
音声作成手順を示す説明図である。

【図９】誤りが検出された際に、本発明の一実施形態で
使用する誤り提示部によって視覚的に提示する出力例を
示す説明図である。

【図１０】誤りが検出された際に、本発明の一実施形態
で使用する誤り提示部によって聴覚的に提示する出力例
を示す説明図である。

【図１１】本発明に係る音声文字化誤り検出装置の他の
実施形態を用いた文字誤り検出方法を概略的に示す説明
図である。

【符号の説明】

１音声文字化誤り検出装置２音声認識装置３認識結果処理部４原音声信号処理部５合成音声作成部６合成音声特徴抽出部７原音声特徴抽出部８比較処理部９誤り判定部１０誤り提示部２０ＣＰＵ２１システムメモリ２２入力装置２３ディスク読取装置２４ハードディスク２５ディスプレイ２６音声入力装置２７音声出力装置９０スピーカ１１０ヘッドフォン１１１原音声１１２合成音声

───────────────────────────────────────────────────── フロントページの続き (72)発明者伊藤泰宏東京都渋谷区神南二丁目２番１号日本放送協会放送センター内 (72)発明者都木徹東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内Ｆターム(参考） 5B009 KB04 RD03 5D045 AA20 AB02 9A001 HH15 HH16 HH18

Claims

【特許請求の範囲】

【請求項１】入力された原音声の文字化結果から前記
原音声が発声された場合と同等の合成音声を作成して前
記合成音声の特徴を抽出するとともに、発声された前記
原音声の特徴を抽出する特徴抽出手段と、抽出された前記合成音声および原音声の特徴を音響分析
して比較し、当該比較結果にしたがい前記発声された前
記原音声に対する前記文字化結果の誤りを検出する誤り
検出手段と、当該検出結果にしたがい前記文字化結果の誤り箇所を通
知する誤り通知手段とを備えたことを特徴とする音声文
字化誤り検出装置。
【請求項２】請求項１に記載の音声文字化誤り検出装
置において、前記特徴抽出手段により、前記発声された前記原音声を
セグメント化して当該セグメント化原音声の特徴を抽出
するとともに、前記文字化結果の発音情報にしたがった
前記セグメント化原音声の比較対象音声の位置情報を生
成し、前記位置情報にしたがって前記同等の合成音声を
作成して前記合成音声の特徴を抽出し、前記誤り検出手段により、前記セグメント毎に比較、検
出を行うことで、前記文字化結果に追従して前記文字化
結果の誤りを検出することを特徴とする音声文字化誤り
検出装置。
【請求項３】請求項１に記載の音声文字化誤り検出装
置において、前記誤り通知手段は表示装置を有し、前記誤り検出手段
により前記文字化結果の誤りを検出したときに、前記表
示装置により前記誤り箇所では他の箇所と異なる表示属
性の設定により表示を行うことを特徴とする音声文字化
誤り検出装置。
【請求項４】請求項１に記載の音声文字化誤り検出装
置において、前記誤り通知手段は音声出力装置を有し、前記誤り検出
手段により前記文字化結果の誤りを検出したときに、前
記音声出力装置により前記誤り箇所では他の箇所と異な
る音響効果の設定により音声出力を行うことを特徴とす
る音声文字化誤り検出装置。
【請求項５】請求項３または４に記載の音声文字化誤
り検出装置において、前記誤り箇所の誤り可能性に応じて前記誤り検出手段
は、前記表示属性の程度を変化させて前記表示装置によ
る前記表示を行うか、または前記音響効果の程度を変化
させて前記音声出力装置による前記音声出力を行うこと
を特徴とする音声文字化誤り検出装置。
【請求項６】発声された原音声を入力する手段と、前記原音声の韻律情報やスペクトル情報等を利用して前
記原音声と同期した合成音声を作成する手段と、前記原音声を前記合成音声を同時に通知する手段とを備
えたことを特徴とする音声文字化誤り検出装置。
【請求項７】入力された原音声の文字化結果から前記
原音声が発声された場合と同等の合成音声を作成して前
記合成音声の特徴を抽出するとともに、発声された前記
原音声の特徴を抽出する特徴抽出ステップと、抽出された前記合成音声および原音声の特徴を音響分析
して比較し、当該比較結果にしたがい前記発声された前
記原音声に対する前記文字化結果の誤りを検出する誤り
検出ステップと、当該検出結果にしたがい前記文字化結果の誤り箇所を通
知する誤り通知ステップとを含むことを特徴とするプロ
グラムをコンピュータにより読み取り可能に記録した記
録媒体。
【請求項８】請求項７に記載の記録媒体において、前記特徴抽出ステップでは、前記発声された前記原音声
をセグメント化して当該セグメント化原音声の特徴を抽
出するとともに、前記文字化結果の発音情報にしたがっ
た前記セグメント化原音声の比較対象音声の位置情報を
生成し、前記位置情報にしたがって前記同等の合成音声
を作成して前記合成音声の特徴を抽出し、前記誤り検出ステップでは、前記セグメント毎に比較、
検出を行うことで、前記文字化結果に追従して前記文字
化結果の誤りを検出することを特徴とする前記プログラ
ムをコンピュータにより読み取り可能に記録した記録媒
体。
【請求項９】請求項７に記載の記録媒体において、前記誤り検出ステップにおいて前記文字化結果の誤りを
検出したときに前記誤り通知ステップでは、表示装置を
用いて、前記誤り箇所では他の箇所と異なる表示属性の
設定により表示を行うことを特徴とする前記プログラム
をコンピュータにより読み取り可能に記録した記録媒
体。
【請求項１０】請求項７に記載の記録媒体において、前記誤り検出ステップにおいて前記文字化結果の誤りを
検出したときに前記誤り通知ステップでは、音声出力装
置を用いて、前記誤り箇所では他の箇所と異なる音響効
果の設定により音声出力を行うことを特徴とする前記プ
ログラムをコンピュータにより読み取り可能に記録した
記録媒体。
【請求項１１】請求項８または９に記載の記録媒体に
おいて、前記誤り箇所の誤り可能性に応じて前記誤り検出ステッ
プでは、前記表示属性の程度を変化させて前記表示を行
うか、または前記音響効果の程度を変化させて前記音声
出力を行うことを特徴とする前記プログラムをコンピュ
ータにより読み取り可能に記録した記録媒体。
【請求項１２】発声された原音声を入力するステップ
と、前記原音声の韻律情報やスペクトル情報等を利用して前
記原音声と同期した合成音声を作成するステップと、前記原音声を前記合成音声を同時に通知するステップと
を含むことを特徴とするプログラムをコンピュータによ
り読み取り可能に記録した記録媒体。