JP2002297187A - 音声編集装置及び音声編集プログラム - Google Patents

音声編集装置及び音声編集プログラム

Info

Publication number
JP2002297187A
JP2002297187A JP2001101223A JP2001101223A JP2002297187A JP 2002297187 A JP2002297187 A JP 2002297187A JP 2001101223 A JP2001101223 A JP 2001101223A JP 2001101223 A JP2001101223 A JP 2001101223A JP 2002297187 A JP2002297187 A JP 2002297187A
Authority
JP
Japan
Prior art keywords
audio
voice
waveform
recording target
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001101223A
Other languages
English (en)
Other versions
JP3534711B2 (ja
Inventor
Osamu Kasai
治 笠井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Original Assignee
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Computer Entertainment Co Ltd, Konami Computer Entertainment Tokyo Inc filed Critical Konami Computer Entertainment Co Ltd
Priority to JP2001101223A priority Critical patent/JP3534711B2/ja
Publication of JP2002297187A publication Critical patent/JP2002297187A/ja
Application granted granted Critical
Publication of JP3534711B2 publication Critical patent/JP3534711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 編集対象となる音声波形に含まれる各音声部
分に関し、収録対象音声か非収録対象音声かの判断を助
ける表示をすることにより、音声編集の効率を上げる。 【解決手段】 編集対象である音声の波形31を表示す
るとともに、波形31に含まれる音声部分38,40,
42を判断して、それらに対する音声認識処理の結果を
認識結果表示枠32,34,36にそれぞれ表示する。
このとき、各音声部分38,40,42が収録対象音声
(台詞)と非収録対象音声(台詞外)のいずれに係るも
のかを、例えば各音声部分38,40,42の音量に基
づいて推定し、その推定結果に応じて各認識結果表示枠
32,34,36に表示する文字のフォントサイズを決
定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声編集装置及び
音声編集プログラムに関し、特に、編集対象となる音声
波形に含まれる各音声部分に対応づけて、収録対象音声
か非収録対象音声かの推定結果を表示することにより、
音声編集の効率を上げる技術に関する。
【0002】
【従来の技術】音楽、会話、アニメーションやゲームに
おける台詞等は、録音スタジオ等で収録された後、ディ
ジタルデータ化され、音声編集プログラムによって編集
・加工されることが多い。音声編集プログラムでは、デ
ィジタル形式の音声データ(波形データ)に基づいて、
収録音声の波形をコンピュータディスプレイに表示する
ようになっており、編集者は、表示画面上で波形位置
(音声タイミング)又は波形範囲(音声区間)をマウス
等のポインティングデバイスで指定して、その指定した
波形位置以降の収録音声、又は波形範囲の収録音声を音
声出力させることができるようになっている。そして、
波形の内容(音声内容)を適宜確認しながら、任意の波
形位置又は波形範囲をマウス等で指定し、さらにカッ
ト、コピー、ペースト、各種サウンドエフェクト付加等
の編集方法を指定することにより、収録音声の編集作業
を進めるようになっている。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の音声編集プログラムでは、表示画面上で波形の位置
又は範囲を指定して、指定位置からの音声内容、又は指
定範囲の音声内容をいちいち耳で確認しなければ、その
音声が収録対象であるかどうか判断できないという問題
がある。すなわち、収録音声には、収録対象となる音声
(収録対象音声(編集対象音声))とそれ以外の音声
(非収録対象音声(非編集対象音声))とが含まれる
が、音声内容をいちいち耳で確認しなければ、音声波形
に含まれる各音声部分が収録対象音声に係るものか非収
録対象音声に係るものかを一切判断できないのでは、編
集効率が悪い。なお、収録対象音声は、例えば歌手の歌
声、会議参加者の発言、声優の喋る台詞等である。一
方、非収録対象音声は、例えば歌手、会議参加者、声優
等の収録対象者の独り言や、スタジオスタッフの声等で
ある。
【0004】本発明は上記課題に鑑みてなされたもので
あって、その目的は、編集対象となる音声波形に含まれ
る各音声部分に関し、収録対象音声か非収録対象音声か
の判断を助ける表示をすることにより、音声編集の効率
を上げることができる音声編集装置及び音声編集プログ
ラムを提供することにある。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明に係る音声編集装置は、音声の波形を表示す
る波形表示手段と、前記波形に含まれる音声部分を判断
する音声部分判断手段と、前記波形に含まれる各音声部
分が、収録対象音声と非収録対象音声のいずれに係るも
のかを推定する推定手段と、前記波形に含まれる各音声
部分に対応づけて、前記収録対象音声推定手段による推
定結果を表示する推定結果表示手段と、を含むことを特
徴とする。
【0006】本発明によれば、表示手段に音声の波形が
表示されるとともに、その波形に含まれる各音声部分に
対応づけて、その音声部分が収録対象音声と非収録対象
音声のいずれに係るものかの推定結果が表示される。こ
うすれば、編集者は表示内容により、各音声部分が収録
対象音声と非収録対象音声のいずれに係るものかを容易
に判断できるようになり、編集効率を向上させることが
できる。なお、推定結果を表示する場合、各音声部分が
収録対象音声と非収録対象音声のいずれに係るものと推
定されるかを直接的に表示するようにしてもよいし、各
音声部分又はそれに対応する表示の態様等により間接的
に表示するようにしてもよい。また、各音声部分が収録
対象音声と非収録対象音声のいずれに係るものに近いか
を段階表示(例えば、収録対象音声に近い、非収録対象
音声に近い、いずれとも言えない、等)するものであっ
てもよい。
【0007】また、本発明の一態様では、前記推定手段
は、前記波形に含まれる各音声部分の波高値に基づい
て、その音声部分が収録対象音声と非収録対象音声のい
ずれに係るものかを推定する。波高値は、音声部分の1
つの値を用いるようにしてもよいし、複数の値、例えば
全部の値を用いるようにしてもよい。本態様では、例え
ば音圧、実効音圧、波高値の絶対値の平均、波高値のピ
ーク値等の波高値に基づく値を算出することにより、そ
の値が所定閾値よりも大きい音声部分が収録対象音声に
係るものであり、所定閾値以下であるものが非収録対象
音声に係るものである等の推定が可能となる。
【0008】また、本発明の一態様では、前記推定手段
は、前記波形に含まれる各音声部分の周波数情報に基づ
いて、その音声部分が収録対象音声と非収録対象音声の
いずれに係るものかを推定する。こうすれば、例えば各
音声部分の周波数の特徴により、その音声部分が収録対
象音声と非収録対象音声のいずれに係るものかを推定す
ること等が可能となる。なお、周波数情報は、例えば話
者の基本周波数(f)情報、ゼロクロス数、周波数分
布等である。
【0009】また、本発明の一態様では、前記波形に対
して音声認識処理を施す音声認識手段をさらに含み、前
記推定手段は、前記波形に含まれる各音声部分に対する
前記音声認識処理における認識結果の尤度に基づき、そ
の音声部分が収録対象音声と非収録対象音声のいずれに
係るものかを推定する。こうすれば、例えば認識結果の
尤度が所定閾値よりも高い音声部分が収録対象音声に係
るものであると推定し、所定閾値以下であるものを非収
録対象音声に係るものであると推定すること等が可能と
なる。
【0010】また、本発明に係る音声編集プログラム
は、音声の波形を表示するステップと、前記波形に含ま
れる音声部分を判断するステップと、前記波形に含まれ
る各音声部分が、収録対象音声と非収録対象音声のいず
れに係るものかを推定するステップと、前記波形に含ま
れる各音声部分に対応づけて、前記推定するステップで
の推定結果を表示するステップと、をコンピュータに実
行させるものである。
【0011】本発明によれば、コンピュータの表示手段
に音声の波形が表示されるとともに、その波形に含まれ
る各音声部分に対応づけて、その音声部分が収録対象音
声と非収録対象音声のいずれに係るものかの推定結果が
表示されるので、編集者は表示内容により、各音声部分
が収録対象音声と非収録対象音声のいずれに係るものか
を容易に判断できるようになり、編集効率を向上させる
ことができる。
【0012】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図面に基づき詳細に説明する。
【0013】図1は、本発明の一実施の形態に係る音声
編集装置として動作するコンピュータシステムの構成を
示す図である。同図に示すコンピュータシステム10で
は、CPU(中央処理装置)14と、画像処理部16
と、モニタ18と、ハードディスク記憶装置19と、R
AM(ランダムアクセスメモリ)20と、ROM(リー
ドオンリメモリ)22と、入出力インタフェース24,
28とが、バス12により相互にデータ授受可能に接続
されている。また、入出力インタフェース24にはメデ
ィア読み取り装置26が接続され、入出力インタフェー
ス28には入力装置30が接続されている。
【0014】CPU14は、メディア読み取り装置26
から供給されるプログラムを実行し、コンピュータシス
テム10の各部を制御するものであり、画像処理部16
はCPU14からの制御に従って画像データを生成し、
それを所定タイミングでビデオ信号に変換し、モニタ1
8に出力するものである。モニタ18は、CRTやLC
D等により構成される表示装置である。ハードディスク
記憶装置は、メディア読み取り装置26により読み取ら
れるプログラム等のデータをインストールしたり、CP
U14の作業用として利用したりされる記憶デバイスで
ある。RAM20は、CPU14の作業用として用いら
れる記憶デバイスである。ROM22には、BIOS
(Basic Input Output System)等のデータが記憶され
る。
【0015】入出力インタフェース24は、CPU14
とメディア読み取り装置26との間でなされるデータ授
受を中継するものであり、入出力インタフェース28は
CPU14と入力装置30との間でなされるデータ授受
を中継するものである。バス12は、システム各部の間
でなされるデータ及びアドレスの授受に用いられる。
【0016】メディア読み取り装置26は、FD(フロ
ッピー(登録商標)ディスク)、MOディスク(光磁気
ディスク)、CD(コンパクトディスク)−ROM、D
VD(ディジタルビデオディスク)等の情報記憶媒体か
らプログラム等のデータを読み取る装置である。なお、
ここでは情報記憶媒体からプログラムを供給するものと
するが、コンピュータシステム10にデータ通信のため
のデバイスを接続し、インターネット等の通信ネットワ
ークを介してプログラムを供給するようにしてもよい。
【0017】入力装置30は、例えばキーボード等の文
字入力デバイス、マウス等のポインティングデバイス、
音声編集の対象である音声を入力するためのマイク等を
含む。マイクから入力された音声はディジタル化され、
波形データファイルとしてハードディスク記憶装置19
に記憶される。その他、予め他の装置で編集対象となる
音声をディジタル化して、波形データファイルとして情
報記憶媒体に記憶し、それをメディア読み取り装置26
で読み取って、ハードディスク記憶装置19に記憶して
おくようにしてもよい。或いは、インターネット等の通
信ネットワークを介してコンピュータシステムに波形デ
ータファイルを供給し、ハードディスク記憶装置19に
記憶しておくようにしてもよい。
【0018】かかる構成を有するコンピュータシステム
10に、CD−ROMやDVD等の情報記憶媒体から音
声編集プログラムが供給され、それがハードディスク記
憶装置19にインストールされることにより、同コンピ
ュータシステム10が音声編集装置として機能する。
【0019】図2は、コンピュータシステム10で音声
編集プログラムを起動した場合に、モニタ18で表示さ
れる音声編集(波形編集)画面の一例を示している。同
図に示す音声編集画面は、例えばGUI(Graphic User
Interface)をコンピュータシステム10で採用した場
合には、1つのウィンドウとしてモニタ18に表示され
るものである。同図に示すように、音声編集画面では、
画面上方に編集対象である音声の波形31が表示され
る。同図に示す波形31は、横軸を時間軸とし、縦軸を
振幅(波高値)として収録音声を示したものであり、3
つの音声部分38,40,42が含まれている。
【0020】ここで、音声部分とは、ノイズでない音声
に係る波形部分、つまり音声認識処理により音声が認識
される波形部分をいう。各音声部分38,40,42の
開始位置(タイミング)及び終了位置(タイミング)を
マーカ表示等により音声編集画面上で示すようにしても
よい。
【0021】音声部分38,40,42からは公知の音
声認識処理により音声内容を表す文字列が認識されるよ
うになっており、その文字列の全部又は一部が認識結果
枠32,34,36の中に表示されるようになってい
る。ここで、認識結果表示枠32,34,36の枠線の
うち、左側の縦線は音声部分の開始位置に対応してお
り、右側の縦線は音声部分の終了位置に対応している。
こうして、各音声部分38,40,42に対応づけて、
認識結果表示枠32,34,36がそれぞれ表示され、
それらの枠内に各音声部分38,40,42の音声認識
結果である文字列がそれぞれ表示されるようになってい
る。
【0022】また、認識結果表示枠32,34,36に
認識結果が表示される場合、そのフォントサイズによ
り、各音声部分が収録対象音声に係るものか非収録対象
音声に係るものかの推定結果が示されるようになってい
る。すなわち、収録対象音声であると推定される場合に
は大きなフォントにより認識結果が表示されるようにな
っており、非収録対象音声であると推定される場合には
小さなフォントにより認識結果が表示されるようになっ
ている。また、いずれとも推定できない場合には中くら
いのフォントにより認識結果が表示されるようになって
いる。こうすれば、編集者は各音声部分に対応して表示
された認識結果のフォントサイズから、その音声部分が
収録対象音声に係る部分であるのか、それとも非収録対
象音声に係る部分であるのか、を一目で把握することが
できる。
【0023】なお、収録対象音声は、例えば歌手の歌
声、会議参加者の発言、声優の喋る台詞等である。一
方、非収録対象音声は、例えば歌手、会議参加者、声優
等の収録対象者の独り言や、スタジオスタッフの声等で
ある。
【0024】また、同図に示す音声編集画面では、図示
を省略するが、波形31の振幅や時間を示す目盛りや、
音声編集の為の各種ツールを編集者が選択するためのツ
ールバーやメニューも表される。
【0025】図3は、音声編集プログラムの一部であ
る、編集画面表示ルーチンを示すフロー図である。音声
編集プログラムには、同編集画面表示ルーチンの他、同
ルーチンにより表示される波形31を編集者の指示に基
づいて編集するための各種編集ルーチンも含まれる。
【0026】同図に示すように、編集画面表示ルーチン
では、まず波形ファイル名、表示範囲、縮尺が取得され
る(S101)。波形ファイル名は、編集対象である音
声を収録した波形ファイルの名称(必要に応じてパス
も)であり、例えば編集者がメニュー画面においてマウ
ス等の入力装置30で指定することにより、或いはファ
イル名をキーボード等の入力装置30から入力すること
等により、この波形ファイル名が取得される。表示範囲
は、編集対象である音声のうち編集画面に波形31を表
示する範囲であり、例えば一旦波形31をモニタ18に
表示させた上で、マウス等の入力装置30で横スクロー
ルさせ、或いはGUIにおけるウィンドウサイズを変更
させて、編集者に表示範囲を指示させることにより、こ
の表示範囲が取得される。縮尺は、波形31の表示縮尺
であり、例えばキーボードや等の入力装置30による拡
大指示又は縮小処理等により、この縮尺が取得される。
【0027】次に、S101で取得された波形ファイル
名を有する波形ファイルがハードディスク記憶装置19
から読み出され(S102)、それに基づいてS101
で取得された表示範囲の波形31がRAM20又は画像
処理部16に含まれるVRAMに描画される(S10
3)。続いて、S102で読み出された波形ファイルに
対して音声認識処理が施され、波形31に含まれる各音
声部分が特定され、それらの認識結果である文字列が生
成される(S104)。そして、表示範囲のフレーズ数
F、フレーズ位置(Ps,Pe)、フレーズ文字数
(i=1〜F)がRAM20に格納される(S10
5)ここで、フレーズ数Fは表示範囲における音声部分
の数であり、フレーズ位置Psは音声編集画面におけ
るi番目の音声部分の開始位置(x座標(水平位置))
であり、フレーズ位置Peは音声編集画面におけるi
番目の音声部分の終了位置(x座標(水平位置))であ
る。また、フレーズ文字数yはi番目の音声部分に対
する認識結果の文字数である。その後、フレーズ位置P
からフレーズ位置Psが減算され、これによりフ
レーズ長xが算出される(S106)。フレーズ長x
は、音声編集画面におけるi番目の音声部分の横方向
(時間軸方向)の長さ(ピクセル数)を表す。
【0028】次に、音声部分を指定する変数iを1に設
定し(S107)、i番目の音声部分に対する音声認識
結果を表示するときのフォントサイズz(ここでは特
に、1文字を表示するために必要な正方形の表示領域の
一辺の長さ(ピクセル)をいう。)を決定する(S10
8)。このフォントサイズzを決定するためには、ま
ずi番目の音声部分が収録対象音声を表しているか、そ
れとも非収録音声を表しているかを推定する。そして、
この推定結果に基づいてフォントサイズを決定する。例
えば、収録対象音声であると推定される場合にはフォン
トサイズzに大きなフォントサイズを設定し、非収録
対象音声であると推定される場合にはフォントサイズz
に小さなフォントサイズを設定する。また、いずれと
も判別ができない場合には中くらいの大きさのフォント
サイズを設定する。フォントサイズ決定処理について
は、図5〜図7に基づき、後に詳述する。以上のS10
5、S106及びS108における処理の結果、RAM
20には図5に示すテーブルが用意されることになる。
【0029】次に、フレーズ長xがフォントサイズz
よりも小さいかどうかを判断する(S109)。フレ
ーズ長xがフォントサイズzよりも小さい場合に
は、音声部分の直下の表示領域に認識結果表示枠を収め
きれない場合であり、例外文字描画処理が実行される
(S111)。例外文字描画処理は図9に示される処理
である。一方、フレーズ長xがフォントサイズz
上である場合には、音声部分の直下の表示領域に認識結
果表示枠を描画できる場合であり、通常文字描画処理が
実行される(S110)。通常文字描画処理は図8に示
される。例外文字描画処理及び通常文字描画処理は、共
にi番目の音声部分の下方に認識結果表示枠を描画する
とともに、その中に認識結果である文字列を描画する処
理である。
【0030】通常文字描画処理(S110)又は例外文
字描画処理(S111)が実行された後、変数iがフレ
ーズ数Fに達したかどうかが判断され(S112)、達
していなければ変数iに1が加算され、次の音声部分に
対してS108からS112までの処理が再び実行され
る。こうして、変数iが1からFまで順に増加し、それ
ぞれの変数iについてS108からS112までの処理
が実行されると、それまでに描画された音声編集画面が
モニタ18により表示される(S114)。例えば音声
編集画面がRAM20に描画された場合には、CPU1
4はそれを画像処理部16に転送すると、それが所定タ
イミングでモニタ18に出力され、音声編集画面が表示
される。
【0031】以上のようにして、音声編集画面として、
波形31を表示するとともに、各音声部分の下方に認識
結果表示枠及び認識結果を表示することができる。
【0032】図5は、フォントサイズ決定処理(S10
8)の一例を示すフロー図である。この例では、各音声
部分が収録対象音声に係る部分であるか、非収録音声に
係る部分であるのかを、その音声部分の音圧により推定
するようにしている。この処理では、まずi番目の音声
部分(フレーズi)の音圧P[dB]を次式(1)に
より算出する(S401)。ここでは、波形データが1
6ビットPCMデータであるものとしており、Xは単位
時間あたりの波高値の絶対値の和をサンプル数で除した
値である。また、0x8000は8000H(ヘキサ)
を意味している。同式(1)によれば、−96dBで無
音となり、0dBで最大音量となる。
【0033】
【数1】 P=20log10(X/0x8000) …(1)
【0034】こうして音圧Pを算出すると、次に音圧
が所定閾値P1(例えば−40dB)よりも大きい
かを判断する(S402)。そして、所定閾値P1より
も大きければ、フォントサイズzとして「大(例えば
12pt)」を設定する(S404)。一方、所定閾値
P1未満であれば、次に音圧Pが所定閾値P2(例え
ば−60dB)よりも大きいかを判断する(S40
3)。そして、所定閾値P2よりも大きければ、フォン
トサイズzとして「中(例えば10pt)」を設定す
る(S405)。一方、音圧Pが所定閾値P2以下で
あれば、フォントサイズzとして「小(例えば8p
t)」を設定する(S406)。
【0035】こうすれば、各音声部分の音圧Pが大き
いほどフォントサイズzを大きくすることができ、編
集者は認識結果表示枠32,34,36等の中に表示さ
れる文字のフォントサイズを確認して、それに対応する
音声部分が収録対象音声に係るものであるのか、非収録
対象音声に係るものであるのか、の判断に役立てること
ができる。
【0036】なお、一般に、収録対象音声は比較的しっ
かりと録音されており、音量Pが大きいと考えられる
のに対し、非収録対象音声は音圧Pが小さいものと考
えられることから、各音声部分の音圧Pから、その音
声部分が収録対象音声に係るものであるか否かを推定す
るのには合理性があると言える。
【0037】なお、音圧は上式(1)により算出される
ものであり、各音声部分の波高値に基づく情報である
が、各音声部分の波高値に基づく他の情報(例えば波高
値のピーク値、実効音圧、波高値の絶対値の和等)に基
づき、その音声部分が収録対象音声に係るものであるか
否かを判断するのも合理性がある。いずれにしても、各
音声部分の波高値(1又は複数)に基づき、各音声部分
が収録対象音声であるか否かを好適に推定することがで
きる。
【0038】図6は、フォントサイズ決定処理(S10
8)の他の例を示すフロー図である。この例では、各音
声部分が収録対象音声に係る部分であるか、非収録音声
に係る部分であるのかを、その音声部分の周波数分布に
より推定するようにしている。この処理では、まずi番
目の音声部分(フレーズi)の周波数分布を算出する
(S501)。周波数分布は、各音声部分が、どの周波
数帯にどの程度の成分を含んでいるか、を表す情報であ
る。
【0039】周波数分布を算出すると、次にその周波数
分布が台詞型周波数分布であるか否かを調べる(S50
2)。台詞型周波数分布としては、例えば多数の声優が
各種台本を読んだときの平均的な周波数分布等を採用す
ることができる。S502の処理では、例えばS501
で算出した周波数分布と予め用意した台詞型周波数分布
との一致度を算出し、それが所定閾値を超えるか否かに
より、台詞型か否かを判断するようにすればよい。そし
て、S501で算出した周波数分布が台詞型である場
合、フォントサイズzに「大(例えば12pt)」を
設定し、台詞型でなければ、フォントサイズzに「小
(例えば8pt)」を設定する。
【0040】こうすれば、各音声部分の周波数分布が台
詞型周波数分布に近いときに、フォントサイズzを大
きくすることができ、編集者は認識結果表示枠32,3
4,36等の中に表示される文字のフォントサイズを確
認して、それに対応する音声部分が収録対象音声(ここ
では台詞)に係るものであるのか、非収録対象音声(こ
こでは台詞外)に係るものであるのか、の判断に役立て
ることができる。
【0041】なお、ここでは各音声部分の周波数分布が
台詞型か非台詞型かを判断するようにしたが、歌唱型か
非歌唱型かを判断するようにしてもよいし、会話型か非
会話型かを判断するようにしてもよい。いずれにして
も、予め収録対象音声(台詞、歌、会話等)の平均的な
周波数分布を用意しておき、それに各音声部分の周波数
特性が近いかどうかを調べることにより、各音声部分が
収録対象音声に係るものか否かを推定することができ
る。なお、ここでは説明の簡略のために周波数分布のみ
を用いた例を示したが、この他に、周波数分布の動的特
徴パラメータ(変化の仕方)を用いても大変有効であ
る。
【0042】なお、一般に、収録対象音声はマイクに向
かって直接的に発音されることが多いのに対し、非収録
対象音声はマイクの遠方から発音され、或いはマイクの
方向とは外れた向きに発音されることが多いと考えられ
ることから、両者の周波数分布には違いがあり、各音声
部分の周波数分布から、その音声部分が収録対象音声に
係るものであるか否かを推定するのには合理性があると
言える。同様に、各音声部分の基本周波数(f0)やゼ
ロクロス数等の他の周波数情報により、その音声部分が
収録対象音声に係るものであるか否かを推定するのにも
合理性があると言える。
【0043】なお、男性の声優が各種台本を読んだとき
の平均的な周波数分布と、女性の声優が各種台本を読ん
だときの平均的な周波数分布と、を予め用意しておき、
S501で算出した周波数分布が、そのいずれに近いか
を調べることにより、各音声部分が、男性の声優が台本
を読んだものであるか、女性の声優が台本を読んだもの
であるか、を推定して、それに応じてフォントサイズや
フォントカラーを変えるようにしてもよい。こうすれ
ば、フォントサイズやフォントカラーを見て、各音声部
分が女性の声優によるものか、男性の声優によるもの
か、の判断に役立てることができる。
【0044】図7は、フォントサイズ決定処理(S10
8)のさらに他の例を示すフロー図である。この例で
は、各音声部分が収録対象音声に係る部分であるか、非
収録音声に係る部分であるのかを、その音声部分に対す
る音声認識処理において得られる認識結果の尤度(尤も
らしさ)により推定するようにしている。すなわち、音
声認識処理では、S104(図3)の音声認識処理で
は、各音声部分に対する認識結果を生成するにあたり、
多数の文字列について認識結果としての尤度を算出し、
そのうち最も尤度が高い文字列を実際の認識結果として
いる。ここでは、各音声部分に対する認識結果に対して
S104で算出された尤度に基づき、その音声部分が収
録対象音声に係るものであるか否かを推定している。
【0045】この処理では、まずi番目の音声部分(フ
レーズi)の尤度αを取得する(S601)。なお、
尤度αはS104の処理において各音声部分に対応づ
けて保存しておくものとする。
【0046】尤度αすると、次に尤度α音が所定閾
値α1よりも大きいかを判断する(S602)。そし
て、所定閾値α1よりも大きければ、フォントサイズz
として「大(例えば12pt)」を設定する(S60
4)。一方、所定閾値α1未満であれば、次に尤度α
が所定閾値α2よりも大きいかを判断する(S60
3)。そして、所定閾値α2よりも大きければ、フォン
トサイズzとして「中(例えば10pt)」を設定す
る(S605)。一方、尤度αが所定閾値α2以下で
あれば、フォントサイズzとして「小(例えば8p
t)」を設定する(S606)。
【0047】こうすれば、各音声部分のαが高いほど
フォントサイズzを大きくすることができ、編集者は
認識結果表示枠32,34,36等の中に表示される文
字のフォントサイズを確認して、それに対応する音声部
分が収録対象音声に係るものであるのか、非収録対象音
声に係るものであるのか、の判断に役立てることができ
る。
【0048】なお、一般に、収録対象音声は比較的明瞭
に録音されており、認識結果の尤度αが大きいと考え
られるのに対し、非収録対象音声は尤度αが小さいも
のと考えられることから、各音声部分に対する認識結果
の尤度αから、その音声部分が収録対象音声に係るも
のであるか否かを推定するのには合理性があると言え
る。
【0049】次に、図8は、通常文字描画ルーチンを示
す図である。同図に示すように、通常文字描画ルーチン
では、まず次式(2)を満足する行数nが決定される
(S201)。
【0050】
【数2】 x×(n−1)<y×z≦x×n …(2)
【0051】次に、行数nが最大行数N以下であるかが
判断される(S202)。行数nが最大行数N以下の場
合、i番目の音声部分(フレーズ)の下に縦z×nド
ット、横xドットの認識結果表示枠が描画される(S
203)。このとき、認識結果表示枠の左上隅のx座標
(水平座標)がi番目の音声部分のフレーズ(開始)位
置Psとなるように描画する。その後、認識結果表示
枠の中にS104で得られたi番目の音声部分について
の認識結果をフォントサイズzで描画する(S20
4)。
【0052】一方、行数nが最大行数Nよりも大きい場
合、i番目の音声部分の下に縦z×Nドット、横x
ドットの認識結果表示枠が描画される(S205)。こ
のとき認識結果表示枠の左上隅のx座標(水平座標)が
i番目の音声部分のフレーズ(開始)位置Psとなる
ように描画する。そして、S104で得られたi番目の
音声部分についての認識結果である文字列のうち、音声
編集画面への表示を省略する文字を決定する(S20
6)。具体的には、次式(3)で示される省略文字個数
を算出し、認識結果である文字列のうち、先頭文字
及び末尾文字を除き、a個の連続する文字を省略文字
として選び出す。ここで、int()は括弧内の数値を
整数化する関数である。また、第2項は認識結果表示枠
で表示可能な文字数を表し、第3項は省略文字が存在す
る記号(例えば「…」等)を埋めるための文字数を1つ
用意するために設けられている。
【0053】
【数3】
【0054】 a=y−int(x/z)×N+1 …(3)
【0055】そして、省略文字として選出されなかった
文字を、S205で描画した認識結果表示枠の中にフォ
ントサイズzで描画する(S207)。このとき、省
略文字が元々存在していた部分には、例えば「…」や
「〜」等、文字が省略されていることを表す記号を表示
するようにすれば好適である。
【0056】以上のようにすれば、音声部分の直下に認
識結果表示枠を表示し、その中に認識結果である文字列
の一部又は全部を表示することができる。このとき、認
識結果である文字列を一部省略して音声編集画面に表示
する場合でも、先頭文字及び末尾文字は省略されないよ
うにしたので、編集者は容易に音声部分の内容を判断で
きるようになる。さらに、各認識結果表示枠の中に表示
される文字列は、そのフォントサイズが、対応する音声
部分が収録対象音声に係るものであるか否かの推定結果
に応じて決定されるようになっているので、編集者はフ
ォントサイズを見て、各音声部分が収録対象音声に係る
ものであるか否かの判断に役立てることができる。
【0057】次に、図7は、例外文字描画ルーチンを示
す図である。同図に示すように、例外文字描画ルーチン
では、まず次式(4)が満足されるかが判断される(S
301)。
【0058】
【数4】 Ps+z>Psi+1 …(4)
【0059】上式(4)が満足される場合、音声部分の
下側にフォントサイズzで文字を描画すると、右隣の
音声部分の直下に及んでしまい、そこには該音声部分に
対する認識結果を描画できなくなってしまうことから、
例外文字描画ルーチン及びその親プロセスである編集画
面表示ルーチンを中断し、例えばフォントサイズz
表示範囲、縮尺の変更を編集者に促すメッセージを表示
する。
【0060】一方、上式(4)が満足されない場合、次
に行数nが最大行数N以下であるかが判断される(S3
02)。行数nが最大行数N以下の場合、i番目の音声
部分(フレーズ)の下に縦z×nドット、横zドッ
トの認識結果表示枠が描画される(S303)。このと
き、認識結果表示枠の左上隅のx座標(水平座標)がi
番目の音声部分のフレーズ(開始)位置Psとなるよ
うに描画する。その後、認識結果表示枠の中にS104
で得られたi番目の音声部分についての認識結果をフォ
ントサイズzで描画する(S304)。ここでは、認
識結果が縦書き表示されることになる。
【0061】一方、行数nが最大行数Nよりも大きい場
合、i番目の音声部分の下に縦z×Nドット、横z
ドットの認識結果表示枠が描画される(S305)。こ
のとき認識結果表示枠の左上隅のx座標(水平座標)が
i番目の音声部分のフレーズ(開始)位置Psとなる
ように描画する。そして、S104で得られたi番目の
音声部分についての認識結果である文字列のうち、音声
編集画面への表示を省略する文字を決定する(S30
6)。具体的には、上式(3)で示される省略文字個数
を算出し、認識結果である文字列のうち、先頭文字
及び末尾文字を除き、a個の連続する文字を省略文字
として選び出す。
【0062】そして、省略文字として選出されなかった
文字を、S305で描画した認識結果表示枠の中にフォ
ントサイズzで描画する(S307)。このとき、省
略文字が元々存在していた部分には、例えば「…」や
「〜」等、文字が省略されていることを表す記号を表示
するようにすれば好適である。
【0063】以上のようにすれば、音声部分の下方に認
識結果表示枠を表示し、その中に認識結果である文字列
の一部又は全部を表示することができる。このとき、認
識結果表示枠の右側の枠線(縦線)が、右隣の音声部分
の認識結果表示枠が表示されるべき部分に入り込んでし
まう場合には、処理が中断されるようになる。
【0064】以上説明した音声編集装置(音声編集プロ
グラム)によれば、音声編集画面に波形31が表示され
るとともに、音声部分38,40,42が、認識結果表
示枠32,34,36の枠線(縦枠線)により、他の部
分(非音声部分)と区画されて表されるので、編集者は
一見しただけで波形31に含まれる音声部分を把握する
ことができる。また、各音声部分38,40,42に対
応づけて、認識結果表示枠32,34,36がそれぞれ
表示され、その内部に各音声部分38,40,42の認
識結果の全部又は一部が表示されるので、編集者は一見
しただけで波形31に含まれる各音声部分がどのような
内容のものかを判断することができる。さらに、そのと
きのフォントサイズが、各音声部分が収録音声に係るも
のであるか否かの推定結果に応じて決定されるようにな
っているので、編集者はフォントサイズを見て、その内
容が収録対象音声に係るものか否かの判断に役立てるこ
とができ、音声編集の効率を格段に向上させることがで
きる。
【0065】なお、本発明は以上の実施の形態に限定さ
れるものではない。
【0066】例えば、音声編集画面は図2に示すものに
限らず、様々なパターンを採用することができる。例え
ば、図10に示すように、各音声部分58,60,62
に対応づけて、波形64の下側に認識結果表示枠52,
54,56をそれぞれ表示するとともに、上側にマーカ
66,68,70を表示するようにして、このマーカ6
6,68,70の大きさを各音声部分58,60,62
が収録対象音声に係るものであるかの推定結果に基づい
て決定するようにしてもよい。その他、音声部分58,
60,62自体の色又はその背景色を同推定結果に応じ
て変えるようにしてもよい。いずれにしても、各音声部
分が収録対象音声に係るものか否かを、その音声部分に
対応づけて表示するようにすれば、音声の編集効率を格
段に向上させることができる。
【0067】
【発明の効果】以上説明したように、本発明によれば、
音声の波形を表示するとともに、前記波形に含まれる音
声部分を判断して、各音声部分が収録対象音声と非収録
対象音声のいずれに係るものかを推定し、各音声部分に
対応づけて推定結果を表示するようにしたので、編集者
は表示内容により、各音声部分が収録対象音声と非収録
対象音声のいずれに係るものかを容易に判断できるよう
になり、編集効率を向上させることができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声編集装置とし
て機能するコンピュータシステムの構成を示す図であ
る。
【図2】 音声編集画面の一例を示す図である。
【図3】 音声編集画面表示ルーチンを説明するフロー
図である。
【図4】 音声編集画面表示ルーチンにおいて生成され
るテーブルを示す図である。
【図5】 フォントサイズ決定ルーチンの一例を説明す
るフロー図である。
【図6】 フォントサイズ決定ルーチンの他の例を説明
するフロー図である。
【図7】 フォントサイズ決定ルーチンのさらに他の例
を説明するフロー図である。
【図8】 通常文字描画ルーチンを説明するフロー図で
ある。
【図9】 例外文字描画ルーチンを説明するフロー図で
ある。
【図10】 音声編集画面の変形例を示す図である。
【符号の説明】
10 コンピュータシステム、12 バス、14 CP
U、16 画像処理部、18 モニタ、19 ハードデ
ィスク記憶装置、20 RAM、22 ROM、24,
28 入出力インタフェース、26 メディア読み取り
装置、30 入力装置、31,64 波形、38,4
0,42,58,60,62 音声部分、32,34,
36,52,54,56 認識結果表示枠、66,6
8,70 (推定結果表示)マーカ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 11/02

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声の波形を表示する波形表示手段と、 前記波形に含まれる音声部分を判断する音声部分判断手
    段と、 前記波形に含まれる各音声部分が、収録対象音声と非収
    録対象音声のいずれに係るものかを推定する推定手段
    と、 前記波形に含まれる各音声部分に対応づけて、前記収録
    対象音声推定手段による推定結果を表示する推定結果表
    示手段と、 を含むことを特徴とする音声編集装置。
  2. 【請求項2】 請求項1に記載の音声編集装置におい
    て、 前記推定手段は、前記波形に含まれる各音声部分の波高
    値に基づいて、その音声部分が収録対象音声と非収録対
    象音声のいずれに係るものかを推定することを特徴とす
    る音声編集装置。
  3. 【請求項3】 請求項1又は2に記載の音声編集装置に
    おいて、 前記推定手段は、前記波形に含まれる各音声部分の周波
    数情報に基づいて、その音声部分が収録対象音声と非収
    録対象音声のいずれに係るものかを推定することを特徴
    とする音声編集装置。
  4. 【請求項4】 請求項1乃至3のいずれかに記載の音声
    編集装置において、 前記波形に対して音声認識処理を施す音声認識手段をさ
    らに含み、 前記推定手段は、前記波形に含まれる各音声部分に対す
    る前記音声認識処理における認識結果の尤度に基づき、
    その音声部分が収録対象音声と非収録対象音声のいずれ
    に係るものかを推定することを特徴とする音声編集装
    置。
  5. 【請求項5】 音声の波形を表示するステップと、 前記波形に含まれる音声部分を判断するステップと、 前記波形に含まれる各音声部分が、収録対象音声と非収
    録対象音声のいずれに係るものかを推定するステップ
    と、 前記波形に含まれる各音声部分に対応づけて、前記推定
    するステップでの推定結果を表示するステップと、 をコンピュータに実行させるための音声編集プログラ
    ム。
JP2001101223A 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム Expired - Fee Related JP3534711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001101223A JP3534711B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001101223A JP3534711B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Publications (2)

Publication Number Publication Date
JP2002297187A true JP2002297187A (ja) 2002-10-11
JP3534711B2 JP3534711B2 (ja) 2004-06-07

Family

ID=18954577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001101223A Expired - Fee Related JP3534711B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Country Status (1)

Country Link
JP (1) JP3534711B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
JP2005301953A (ja) * 2004-04-12 2005-10-27 Kenichi Asano 聞き手の側のペースで音声とそれに対応する文章を関連させる方法
KR100766058B1 (ko) * 2005-12-08 2007-10-11 한국전자통신연구원 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치
KR20150005436A (ko) * 2013-07-04 2015-01-14 티아크 가부시키가이샤 편집 처리장치 및 편집 처리 프로그램을 기록한 기록매체

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749695A (ja) * 1993-06-03 1995-02-21 Toshiba Corp 時系列データ記録再生装置
JPH0863186A (ja) * 1994-08-16 1996-03-08 Fujitsu Ltd 音声情報の処理方法及びその装置
JPH10222187A (ja) * 1996-12-04 1998-08-21 Just Syst Corp 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JPH11109988A (ja) * 1997-10-03 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749695A (ja) * 1993-06-03 1995-02-21 Toshiba Corp 時系列データ記録再生装置
JPH0863186A (ja) * 1994-08-16 1996-03-08 Fujitsu Ltd 音声情報の処理方法及びその装置
JPH10222187A (ja) * 1996-12-04 1998-08-21 Just Syst Corp 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JPH11109988A (ja) * 1997-10-03 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297188A (ja) * 2001-03-30 2002-10-11 Konami Computer Entertainment Yokyo Inc 音声編集装置及び音声編集プログラム
JP2005301953A (ja) * 2004-04-12 2005-10-27 Kenichi Asano 聞き手の側のペースで音声とそれに対応する文章を関連させる方法
KR100766058B1 (ko) * 2005-12-08 2007-10-11 한국전자통신연구원 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치
KR20150005436A (ko) * 2013-07-04 2015-01-14 티아크 가부시키가이샤 편집 처리장치 및 편집 처리 프로그램을 기록한 기록매체
JP2015014861A (ja) * 2013-07-04 2015-01-22 ティアック株式会社 編集処理装置及び編集処理プログラム
KR101575762B1 (ko) * 2013-07-04 2015-12-21 티아크 가부시키가이샤 편집 처리장치 및 편집 처리 프로그램을 기록한 기록매체
US10019134B2 (en) 2013-07-04 2018-07-10 Teac Corporation Edit processing apparatus and storage medium

Also Published As

Publication number Publication date
JP3534711B2 (ja) 2004-06-07

Similar Documents

Publication Publication Date Title
EP0607615B1 (en) Speech recognition interface system suitable for window systems and speech mail systems
US8000963B2 (en) Sound reproducing apparatus
CN107564510A (zh) 一种语音虚拟角色管理方法、装置、服务器和存储介质
JP2009186989A (ja) 音声対話装置及び音声対話プログラム
CN106716466A (zh) 会议信息储存装置、方法以及程序
JP2003202885A (ja) 情報処理装置及び方法
CA2297414A1 (en) Method and system for distinguishing between text insertion and replacement
JP2001117579A (ja) 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US20100235169A1 (en) Speech differentiation
JP3340581B2 (ja) テキスト読み上げ装置及びウインドウシステム
JP3534711B2 (ja) 音声編集装置及び音声編集プログラム
JP3534712B2 (ja) 音声編集装置及び音声編集プログラム
JP2005242891A (ja) 事例検索プログラム
JP2003131700A (ja) 音声情報出力装置及びその方法
JP2001272990A (ja) 対話記録編集装置
JP2005352151A (ja) 人間の感情状態に応じた音楽出力装置及び音楽出力方法
JP2005509906A (ja) 所定ウィンドウにてテキストを編集する装置
JPH11265190A (ja) 音楽演奏装置
JP4311710B2 (ja) 音声合成制御装置
JP2002268664A (ja) 音声変換装置及びプログラム
JP2020042229A (ja) 議事録生成システムおよび議事録生成プログラム
JP2004021028A (ja) 音声対話装置及び音声対話プログラム
JP2003044072A (ja) 音声読み上げ設定装置、音声読み上げ装置、音声読み上げ設定方法、音声読み上げ設定プログラム及び記録媒体
JPH0538700U (ja) 音声応答装置
JP5187102B2 (ja) 表示制御装置、表示制御方法、及び表示制御プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100319

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110319

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110319

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S802 Written request for registration of partial abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311802

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees