JP3534712B2 - 音声編集装置及び音声編集プログラム - Google Patents

音声編集装置及び音声編集プログラム

Info

Publication number
JP3534712B2
JP3534712B2 JP2001101224A JP2001101224A JP3534712B2 JP 3534712 B2 JP3534712 B2 JP 3534712B2 JP 2001101224 A JP2001101224 A JP 2001101224A JP 2001101224 A JP2001101224 A JP 2001101224A JP 3534712 B2 JP3534712 B2 JP 3534712B2
Authority
JP
Japan
Prior art keywords
voice
character
display
waveform
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001101224A
Other languages
English (en)
Other versions
JP2002297188A (ja
Inventor
治 笠井
Original Assignee
株式会社コナミコンピュータエンタテインメント東京
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社コナミコンピュータエンタテインメント東京 filed Critical 株式会社コナミコンピュータエンタテインメント東京
Priority to JP2001101224A priority Critical patent/JP3534712B2/ja
Publication of JP2002297188A publication Critical patent/JP2002297188A/ja
Application granted granted Critical
Publication of JP3534712B2 publication Critical patent/JP3534712B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声編集装置及び
音声編集プログラムに関し、特に、編集対象となる音声
の波形とともに、各音声部分の内容を画面表示すること
により、音声の編集効率を向上させる技術に関する。
【0002】
【従来の技術】音楽、会話、アニメーションやゲームに
おける台詞等は、録音スタジオ等で収録された後、ディ
ジタルデータ化され、音声編集プログラムによって編集
・加工されることが多い。音声編集プログラムでは、デ
ィジタル形式の音声データ(波形データ)に基づいて、
収録音声の波形をコンピュータディスプレイに表示する
ようになっており、編集者は、表示画面上で波形位置
(音声タイミング)又は波形範囲(音声区間)をマウス
等のポインティングデバイスで指定して、その指定した
波形位置以降の収録音声、又は波形範囲の収録音声を音
声出力させることができるようになっている。そして、
波形の内容(音声内容)を適宜確認しながら、任意の波
形位置又は波形範囲をマウス等で指定し、さらにカッ
ト、コピー、ペースト、各種サウンドエフェクト付加等
の編集方法を指定することにより、収録音声の編集作業
を進めるようになっている。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の音声編集プログラムでは、表示画面上で波形の位置
又は範囲を指定して、指定位置からの音声内容、又は指
定範囲の音声内容をいちいち耳で確認しなければならな
いので、編集効率が悪いという問題がある。
【0004】本発明は上記課題に鑑みてなされたもので
あって、その目的は、波形に加え、その各部の音声内容
を画面表示することにより、音声編集の効率を高めるこ
とができる音声編集装置及び音声編集プログラムを提供
することにある。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明に係る音声編集装置は、音声の波形を表示す
る波形表示手段と、前記波形に含まれる音声部分を判断
する音声部分判断手段と、前記波形に含まれる各音声部
分の内容の少なくとも一部を表す文字又は文字列を生成
する文字列生成手段と、前記波形に含まれる各音声部分
に対応づけて、その音声部分の内容の少なくとも一部を
表す前記文字又は文字列を表示する文字列表示手段と、
を含むことを特徴とする。
【0006】本発明では、音声の波形が表示されるとと
もに、その波形に含まれる各音声部分に対応づけて、そ
の音声部分の内容の少なくとも一部を表す文字又は文字
列が表示される。文字又は文字列は、例えば公知の音声
認識技術により生成可能であり、波形に含まれる各音声
部分も、例えば公知の音声認識技術により判断可能であ
る。本発明によれば、編集者は、音声の波形のみなら
ず、その波形に含まれる各音声部分の内容を目で確認で
きるようになり、音声編集の効率を高めることができ
る。
【0007】また、本発明の一態様においては、前記波
形に含まれる各音声部分を、他の部分と区別して表示す
る音声部分区別表示手段をさらに含む。こうすれば、編
集者は編集箇所を容易に確認できるようになる。
【0008】また、本発明の一態様においては、前記文
字列表示手段は、前記波形に含まれる各音声部分の表示
位置に基づき、その音声部分の内容の少なくとも一部を
表す前記文字又は文字列の表示位置を決定する。こうす
れば、各音声部分の表示位置に対応する位置にその内容
の少なくとも一部を表す文字又は文字列が表示されるよ
うになるので、さらに編集効率を高めることができる。
【0009】また、本発明の一態様においては、前記文
字列生成手段は、前記波形に含まれる各音声部分の全内
容を表す文字列のうち、最初の文字以外から、前記文字
列表示手段により表示する文字又は文字列から省略する
文字を選出する省略文字選出手段を含む。こうすれば、
ある音声部分に対応づけて、その音声部分の全内容を表
す文字列を表示する余裕がない場合に、一部を省略して
表示できるようになる。このとき、各音声部分に対応づ
けて表示される前記文字又は文字列が、その音声部分の
全内容を表す文字列の最初の文字を少なくとも含むよう
になるため、編集者は文字列を見て簡単に各音声部分の
内容を判断できるようになる。
【0010】この態様では、前記省略文字選出手段は、
前記波形に含まれる各音声部分の全内容を表す文字列の
うち、最初の文字及び最後の文字以外から、前記文字列
表示手段により表示する文字又は文字列から省略する文
字を選出するようにしてもよい。こうすれば、各音声部
分に対応づけて表示される前記文字又は文字列が、その
音声部分の全内容を表す文字列の最初の文字と最後の文
字の双方を少なくとも含むようになるため、編集者は文
字列を見て、さらに簡単に各音声部分の内容を判断でき
るようになる。
【0011】また、本発明の一態様では、前記波形に含
まれる各音声部分の表示上の長さに基づいて、その音声
部分の内容の少なくとも一部を表す前記文字又は文字列
を表示するときのフォントサイズを制御するフォントサ
イズ制御手段をさらに含む。こうすれば、例えばある音
声部分が短く表示されるときに、それに応じてフォント
サイズを小さくすること等ができるようになる。
【0012】また、本発明の一態様では、前記波形に含
まれる各音声部分の全内容を表す文字又は文字列の文字
数に基づいて、その音声部分の内容の少なくとも一部を
表す前記文字又は文字列を表示するときのフォントサイ
ズを制御するフォントサイズ制御手段をさらに含む。こ
うすれば、例えば前記波形に含まれる各音声部分の全内
容を表す文字又は文字列の文字数が多い場合に、それに
応じてフォントサイズを小さくすること等ができるよう
になる。
【0013】また、本発明に係る音声編集プログラム
は、音声の波形を表示するステップと、前記波形に含ま
れる音声部分を判断するステップと、前記波形に含まれ
る各音声部分の内容の少なくとも一部を表す文字又は文
字列を生成するステップと、前記波形に含まれる各音声
部分に対応づけて、その音声部分の内容の少なくとも一
部を表す前記文字又は文字列を表示するステップと、を
コンピュータに実行させるためのものである。
【0014】本発明では、音声の波形が表示されるとと
もに、その波形に含まれる各音声部分に対応づけて、そ
の音声部分の内容の少なくとも一部を表す文字又は文字
列が表示される。文字又は文字列は、例えば公知の音声
認識技術により生成可能であり、波形に含まれる各音声
部分も、例えば公知の音声認識技術により判断可能であ
る。本発明によれば、編集者は、音声の波形のみなら
ず、その波形に含まれる各音声部分の内容を目で確認で
きるようになり、音声編集の効率を高めることができ
る。
【0015】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図面に基づき詳細に説明する。
【0016】図1は、本発明の一実施の形態に係る音声
編集装置として動作するコンピュータシステムの構成を
示す図である。同図に示すコンピュータシステム10で
は、CPU(中央処理装置)14と、画像処理部16
と、モニタ18と、ハードディスク記憶装置19と、R
AM(ランダムアクセスメモリ)20と、ROM(リー
ドオンリメモリ)22と、入出力インタフェース24,
28とが、バス12により相互にデータ授受可能に接続
されている。また、入出力インタフェース24にはメデ
ィア読み取り装置26が接続され、入出力インタフェー
ス28には入力装置30が接続されている。
【0017】CPU14は、メディア読み取り装置26
から供給されるプログラムを実行し、コンピュータシス
テム10の各部を制御するものであり、画像処理部16
はCPU14からの制御に従って画像データを生成し、
それを所定タイミングでビデオ信号に変換し、モニタ1
8に出力するものである。モニタ18は、CRTやLC
D等により構成される表示装置である。ハードディスク
記憶装置は、メディア読み取り装置26により読み取ら
れるプログラム等のデータをインストールしたり、CP
U14の作業用として利用したりされる記憶デバイスで
ある。RAM20は、CPU14の作業用として用いら
れる記憶デバイスである。ROM22には、BIOS
(Basic Input Output System)等のデータが記憶され
る。
【0018】入出力インタフェース24は、CPU14
とメディア読み取り装置26との間でなされるデータ授
受を中継するものであり、入出力インタフェース28は
CPU14と入力装置30との間でなされるデータ授受
を中継するものである。バス12は、システム各部の間
でなされるデータ及びアドレスの授受に用いられる。
【0019】メディア読み取り装置26は、FD(フロ
ッピー(登録商標)ディスク)、MOディスク(光磁気
ディスク)、CD(コンパクトディスク)−ROM、D
VD(ディジタルビデオディスク)等の情報記憶媒体か
らプログラム等のデータを読み取る装置である。なお、
ここでは情報記憶媒体からプログラムを供給するものと
するが、コンピュータシステム10にデータ通信のため
のデバイスを接続し、インターネット等の通信ネットワ
ークを介してプログラムを供給するようにしてもよい。
【0020】入力装置30は、例えばキーボード等の文
字入力デバイス、マウス等のポインティングデバイス、
音声編集の対象である音声を入力するためのマイク等を
含む。マイクから入力された音声はディジタル化され、
波形データファイルとしてハードディスク記憶装置19
に記憶される。その他、予め他の装置で編集対象となる
音声をディジタル化して、波形データファイルとして情
報記憶媒体に記憶し、それをメディア読み取り装置26
で読み取って、ハードディスク記憶装置19に記憶して
おくようにしてもよい。或いは、インターネット等の通
信ネットワークを介してコンピュータシステムに波形デ
ータファイルを供給し、ハードディスク記憶装置19に
記憶しておくようにしてもよい。
【0021】かかる構成を有するコンピュータシステム
10に、CD−ROMやDVD等の情報記憶媒体から音
声編集プログラムが供給され、それがハードディスク記
憶装置19にインストールされることにより、同コンピ
ュータシステム10が音声編集装置として機能する。
【0022】図2は、コンピュータシステム10で音声
編集プログラムを起動した場合に、モニタ18で表示さ
れる音声編集(波形編集)画面の一例を示している。同
図に示す音声編集画面は、例えばGUI(Graphic User
Interface)をコンピュータシステム10で採用した場
合には、1つのウィンドウとしてモニタ18に表示され
るものである。同図に示すように、音声編集画面では、
画面上方に編集対象である音声の波形48が表示され
る。同図に示す波形48は、横軸を時間軸とし、縦軸を
振幅(波高値)として収録音声を示したものであり、3
つの音声部分36,38,40が含まれている。
【0023】ここで、音声部分とは、ノイズでない音声
に係る波形部分、つまり音声認識処理により音声が認識
される波形部分をいう。各音声部分36,38,40の
開始位置(タイミング)は開始タイミング指示線32に
より示され、終了位置(タイミング)は終了タイミング
指示線34により示されている。
【0024】音声部分36,38,40からは、音声認
識処理により、認識結果表示枠42,44,46の中に
表示される文字列がそれぞれ認識されている。ここで、
認識結果表示枠42,44,46の枠線のうち、左側の
縦線は開始タイミング指示線34と同一線上に配置され
るようになっており、右側の縦線は終了タイミング指示
線34と同一線上に配置されるようになっている。こう
して、各音声部分36,38,40に対応づけて、認識
結果表示枠42,44,46がそれぞれ表示され、それ
らの枠内に各音声部分36,38,40の音声認識結果
である文字列がそれぞれ表示されるようになっている。
【0025】また、同図に示す音声編集画面では、波形
48に3つの音声部分36,38,40しか含まれてい
ないように見える、表示縮尺を変更することによって波
形48の時間軸方向の拡縮が可能であり、表示縮尺を小
さくすることで図3に示すように他の音声部分35,4
1、及びそれらに対応する認識結果表示枠43,47も
音声編集画面に現れるようになる。
【0026】なお、図2及び図3に示す音声編集画面で
は、図示を省略するが、波形48の振幅や時間を示す目
盛りや、音声編集の為の各種ツールを編集者が選択する
ためのツールバーやメニューも表される。
【0027】図4は、音声編集プログラムの一部であ
る、編集画面表示ルーチンを示すフロー図である。音声
編集プログラムには、同編集画面表示ルーチンの他、同
ルーチンにより表示される波形48を編集者の指示に基
づいて編集するための各種編集ルーチンも含まれる。
【0028】同図に示すように、編集画面表示ルーチン
では、まず波形ファイル名、表示範囲、縮尺、フォント
サイズzが取得される(S101)。波形ファイル名
は、編集対象である音声を収録した波形ファイルの名称
(必要に応じてパスも)であり、例えば編集者がメニュ
ー画面においてマウス等の入力装置30で指定すること
により、或いはファイル名をキーボード等の入力装置3
0から入力すること等により、この波形ファイル名が取
得される。表示範囲は、編集対象である音声のうち編集
画面に波形48を表示する範囲であり、例えば一旦波形
48をモニタ18に表示させた上で、マウス等の入力装
置30で横スクロールさせ、或いはGUIにおけるウィ
ンドウサイズを変更させて、編集者に表示範囲を指示さ
せることにより、この表示範囲が取得される。縮尺は、
波形48の表示縮尺であり、例えばキーボードや等の入
力装置30による拡大指示又は縮小処理等により、この
縮尺が取得される。フォントサイズzは、認識結果表示
枠42,43,44,46,47等の中に音声認識結果
たる文字列を表示するときに使用するフォントの大きさ
(ここでは特に、1文字を表示するために必要な正方形
の表示領域の一辺の長さ(ピクセル)をいう。)であ
り、例えば編集者がメニュー画面においてマウス等の入
力装置30で指定することにより、或いはフォントサイ
ズzをキーボード等の入力装置30から入力すること等
により、このフォントサイズzが取得される。
【0029】次に、S101で取得された波形ファイル
名を有する波形ファイルがハードディスク記憶装置19
から読み出され(S102)、それに基づいてS101
で取得された表示範囲の波形48がRAM20又は画像
処理部16に含まれるVRAMに描画される(S10
3)。続いて、S102で読み出された波形ファイルに
対して音声認識処理が施され、波形48に含まれる各音
声部分が特定され、それらの認識結果である文字列が生
成される(S104)。そして、表示範囲のフレーズ数
F、フレーズ位置(Ps,Pei)、フレーズ文字数
(i=1〜F)がRAM20に格納される(S10
5)ここで、フレーズ数Fは表示範囲における音声部分
の数であり、フレーズ位置Psは音声編集画面におけ
るi番目の音声部分の開始位置(x座標(水平位置))
であり、フレーズ位置Peは音声編集画面におけるi
番目の音声部分の終了位置(x座標(水平位置))であ
る。また、フレーズ文字数yはi番目の音声部分に対
する認識結果の文字数である。その後、フレーズ位置P
からフレーズ位置Psが減算され、これによりフ
レーズ長xが算出される(S106)。フレーズ長x
は、音声編集画面におけるi番目の音声部分の横方向
(時間軸方向)の長さ(ピクセル数)を表す。S105
及びS106の結果、RAM20には図5に示すテーブ
ルが用意されることになる。
【0030】次に、音声部分を指定する変数iを1に設
定し(S107)、フレーズ長xがフォントサイズz
よりも小さいかどうかを判断する(S108)。フレー
ズ長xがフォントサイズzよりも小さい場合には、音
声部分の直下の表示領域に認識結果表示枠を収めきれな
い場合であり、例外文字描画処理が実行される(S11
0)。例外文字描画処理は図7に示される処理である。
一方、フレーズ長xがフォントサイズz以上である場
合には、音声部分の直下の表示領域に認識結果表示枠を
描画できる場合であり、通常文字描画処理が実行される
(S109)。通常文字描画処理は図6に示される。例
外文字描画処理及び通常文字描画処理は、共にi番目の
音声部分の下方に認識結果表示枠を描画するとともに、
その中に認識結果である文字列を描画する処理である。
【0031】通常文字描画処理(S109)又は例外文
字描画処理(S110)が実行された後、変数iがフレ
ーズ数Fに達したかどうかが判断され(S111)、達
していなければ変数iに1が加算され、次の音声部分に
対してS108からS111までの処理が再び実行され
る。こうして、変数iが1からFまで順に増加し、それ
ぞれの変数iについてS108からS111までの処理
が実行されると、それまでに描画された音声編集画面が
モニタ18により表示される(S113)。例えば音声
編集画面がRAM20に描画された場合には、CPU1
4はそれを画像処理部16に転送すると、それが所定タ
イミングでモニタ18に出力され、音声編集画面が表示
される。
【0032】以上のようにして、音声編集画面として、
波形48を表示するとともに、各音声部分の下方に認識
結果表示枠及び認識結果を表示することができる。
【0033】図6は、通常文字描画ルーチンを示す図で
ある。同図に示すように、通常文字描画ルーチンでは、
まず次式(1)を満足する行数nが決定される(S20
1)。
【0034】
【数1】 x×(n−1)<y×z≦x×n …(1)
【0035】次に、行数nが最大行数N以下であるかが
判断される(S202)。行数nが最大行数N以下の場
合、i番目の音声部分(フレーズ)の下に縦z×nドッ
ト、横xiドットの認識結果表示枠が描画される(S2
03)。このとき、認識結果表示枠の左上隅のx座標
(水平座標)がi番目の音声部分のフレーズ(開始)位
置Psとなるように描画する。また、併せて開始タイ
ミング指示線32及び終了タイミング指示線34を描画
する。このとき、開始タイミング指示線32は、フレー
ズ(開始)位置Psで波形48のゼロ振幅ラインと交
差するよう描画される。また、終了タイミング指示線3
4は、フレーズ(終了)タイミングPeで波形48の
ゼロ振幅ラインと交差するよう描画される。その後、認
識結果表示枠の中にS104で得られたi番目の音声部
分についての認識結果をフォントサイズzで描画する
(S204)。
【0036】一方、行数nが最大行数Nよりも大きい場
合、i番目の音声部分の下に縦z×Nドット、横x
ットの認識結果表示枠が描画される(S205)。この
とき認識結果表示枠の左上隅のx座標(水平座標)がi
番目の音声部分のフレーズ(開始)位置Psとなるよ
うに描画する。また、併せて開始タイミング指示線32
及び終了タイミング指示線34を描画する。そして、S
104で得られたi番目の音声部分についての認識結果
である文字列のうち、音声編集画面への表示を省略する
文字を決定する(S206)。具体的には、次式(2)
で示される省略文字個数aを算出し、認識結果である
文字列のうち、先頭文字及び末尾文字を除き、a個の
連続する文字を省略文字として選び出す。ここで、in
t()は括弧内の数値を整数化する関数である。また、
第2項は認識結果表示枠で表示可能な文字数を表し、第
3項は省略文字が存在する記号(例えば「…」等)を埋
めるための文字数を1つ用意するために設けられてい
る。
【0037】
【数2】 a=yi−int(x/z)×N+1 …(2)
【0038】そして、省略文字として選出されなかった
文字を、S205で描画した認識結果表示枠の中にフォ
ントサイズzで描画する(S207)。このとき、省略
文字が元々存在していた部分には、例えば「…」や
「〜」等、文字が省略されていることを表す記号を表示
するようにすれば好適である。
【0039】以上のようにすれば、音声部分の直下に、
開始タイミング指示線32と左側の枠線が一致するとと
もに、終了タイミング指示線34と右側の枠線が一致す
るよう、認識結果表示枠を表示し、その中に認識結果で
ある文字列の一部又は全部を表示することができる。こ
のとき、認識結果である文字列を一部省略して音声編集
画面に表示する場合でも、先頭文字及び末尾文字は省略
されないようにしたので、編集者は容易に音声部分の内
容を判断できるようになる。
【0040】次に、図7は、例外文字描画ルーチンを示
す図である。同図に示すように、例外文字描画ルーチン
では、まず次式(3)が満足されるかが判断される(S
301)。
【0041】
【数3】 Ps+z>Psi+1 …(3)
【0042】上式(3)が満足される場合、音声部分の
下側にフォントサイズzで文字を描画すると、右隣の音
声部分の直下に及んでしまい、そこには該音声部分に対
する認識結果を描画できなくなってしまうことから、例
外文字描画ルーチン及びその親プロセスである編集画面
表示ルーチンを中断し、例えばフォントサイズz、表示
範囲、縮尺の変更を編集者に促すメッセージを表示す
る。
【0043】一方、上式(3)が満足されない場合、次
に行数nが最大行数N以下であるかが判断される(S3
02)。行数nが最大行数N以下の場合、i番目の音声
部分(フレーズ)の下に縦z×nドット、横zドットの
認識結果表示枠が描画される(S303)。このとき、
認識結果表示枠の左上隅のx座標(水平座標)がi番目
の音声部分のフレーズ(開始)位置Psとなるように
描画する。また、併せて開始タイミング指示線32及び
終了タイミング指示線34を描画する。その後、認識結
果表示枠の中にS104で得られたi番目の音声部分に
ついての認識結果をフォントサイズzで描画する(S3
04)。ここでは、認識結果が縦書き表示されることに
なる。
【0044】一方、行数nが最大行数Nよりも大きい場
合、i番目の音声部分のの下に縦z×Nドット、横zド
ットの認識結果表示枠が描画される(S305)。この
とき認識結果表示枠の左上隅のx座標(水平座標)がi
番目の音声部分のフレーズ(開始)位置Psとなるよ
うに描画する。また、併せて開始タイミング指示線32
及び終了タイミング指示線34を描画する。そして、S
104で得られたi番目の音声部分についての認識結果
である文字列のうち、音声編集画面への表示を省略する
文字を決定する(S306)。具体的には、上式(2)
で示される省略文字個数aを算出し、認識結果である
文字列のうち、先頭文字及び末尾文字を除き、a個の
連続する文字を省略文字として選び出す。
【0045】そして、省略文字として選出されなかった
文字を、S305で描画した認識結果表示枠の中にフォ
ントサイズzで描画する(S307)。このとき、省略
文字が元々存在していた部分には、例えば「…」や
「〜」等、文字が省略されていることを表す記号を表示
するようにすれば好適である。
【0046】以上のようにすれば、音声部分の下方に、
開始タイミング指示線32と左側の枠線が一致するよう
認識結果表示枠を表示し、その中に認識結果である文字
列の一部又は全部を表示することができる。このとき、
認識結果表示枠の右側の枠線(縦線)は終了タイミング
指示線34よりも右側に表されることになるが、右隣の
音声部分の認識結果表示枠が表示されるべき部分に、そ
の枠線が入り込んでしまう場合には、処理が中断される
ようになる。
【0047】以上説明した音声編集装置(音声編集プロ
グラム)によれば、音声編集画面に波形48が表示され
るとともに、音声部分35,36,38,40,41等
が、開始タイミング指示線32、終了タイミング指示線
34、或いは認識結果表示枠42,43,44,46,
47等の枠線により、他の部分(非音声部分)と区画さ
れて表されるので、編集者は一見しただけで波形48に
含まれる音声部分を把握することができる。また、各音
声部分35,36,38,40,41等に対応づけて、
認識結果表示枠42,43,44,46,47等が表示
され、その内部に各音声部分35,36,38,40,
41等の認識結果の全部又は一部が表示されるので、編
集者は一見しただけで波形48に含まれる各音声部分が
どのような内容のものかを判断することができ、音声編
集の効率を格段に向上させることができる。
【0048】なお、本発明は以上の実施の形態に限定さ
れるものではない。
【0049】例えば、以上の説明では、図7のS301
の処理において、認識結果表示枠が干渉すると判断され
る場合に、処理を中断するようにしたが、当該音声部分
に対する認識結果表示枠及び認識結果の表示を省略し
て、処理を続行するようにしてもよい。このとき、マウ
ス等のポインティングデバイスで音声部分を指定した場
合に、その部分に関する認識結果が表示されるようにす
ることが望ましい。或いは、認識結果表示枠が干渉する
と判断される場合に、その部分のフォントサイズを小さ
なものに変更するようにしてもよい。すなわち、音声部
分の表示上の長さ(時間軸方向の長さ)に応じて、その
音声部分に対する認識結果を表示するときのフォントサ
イズを制御すれば、他の音声部分に対する認識結果を表
示する領域との干渉を無くすことができる。
【0050】このように、音声認識処理による認識結果
たる文字列を表示するのに、フォントサイズを固定する
必要はなく、この他、例えば各音声部分に対する認識結
果の文字数に基づいてフォントサイズを制御するように
してもよい。例えば、ある音声部分に対する認識結果に
ついて、その文字数が多い場合、フォントサイズを小さ
くして編集画面の一覧性を向上させるようにすればよ
い。逆に、別の音声部分に対する認識結果については、
その文字数が少ない場合、フォントサイズを大きくして
視認性を向上させるようにすればよい。
【0051】また、波形48に含まれる各音声部分を他
の部分と区別して表示するには、開始タイミング指示線
32、終了タイミング指示線34、認識結果表示枠4
2,43,44,46,47等を利用する他、例えば各
音声部分を他の部分と違う色で表示したり、各音声部分
の背景を他の部分の背景と異ならせたりする等でもよ
い。
【0052】また、音声編集画面は図2及び図3に示す
ものに限らず、様々なパターンを採用することができ
る。例えば、図8に示すように、各音声部分に吹き出し
を設定し、その中に各音声部分に対する認識結果の全部
又は一部を表示するようにしてもよい。また、図9に示
すように、各音声部分を囲む領域を他の領域と区別して
表示するとともに、いずれかの音声部分を囲む領域がマ
ウス等のポインティングデバイスで指定された場合に、
ウィンドウにその音声部分に対する認識結果の全部又は
一部が表示されるようにしてもよい。
【0053】
【発明の効果】以上説明したように、本発明によれば、
音声の波形を表示するとともに、そこに含まれる各音声
部分に対応づけて、その音声部分の内容の少なくとも一
部を表す文字列を表示するようにしたので、音声の波形
のみならず、その波形に含まれる各音声部分の内容を目
で確認できるようになり、音声編集の効率を高めること
ができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声編集装置とし
て機能するコンピュータシステムの構成を示す図であ
る。
【図2】 音声編集画面の一例を示す図である。
【図3】 図2とは波形表示縮尺が異なる音声編集画面
の一例を示す図である。
【図4】 音声編集画面表示ルーチンを説明するフロー
図である。
【図5】 音声編集画面表示ルーチンにおいて生成され
るテーブルを示す図である。
【図6】 通常文字描画ルーチンを説明するフロー図で
ある。
【図7】 例外文字描画ルーチンを説明するフロー図で
ある。
【図8】 音声編集画面の変形例を示す図である。
【図9】 音声変種画面の他の変形例を示す図である。
【符号の説明】
10 コンピュータシステム、12 バス、14 CP
U、16 画像処理部、18 モニタ、19 ハードデ
ィスク記憶装置、20 RAM、22 ROM、24,
28 入出力インタフェース、26 メディア読み取り
装置、30 入力装置、32 (音声部分の)開始タイ
ミング指示線、34 (音声部分の)終了タイミング指
示線、35,36,38,40,41 音声部分、4
2,43,44,46,47 認識結果表示枠。
フロントページの続き (56)参考文献 特開 平10−222187(JP,A) 特開 平7−49695(JP,A) 特開 平9−284670(JP,A) 特開 平5−67107(JP,A) 特開 平5−120280(JP,A) 特開 平9−233161(JP,A) 特開2001−155467(JP,A) 特開2001−306087(JP,A) 特開2000−47683(JP,A) 特開2002−297187(JP,A) 特公 平7−15695(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 G06F 3/16

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声の波形を表示する波形表示手段と、 前記波形に含まれる音声部分を判断する音声部分判断手
    段と、 前記波形に含まれる各音声部分に対して認識処理を施
    し、該各音声部分の内容の少なくとも一部を表す文字又
    は文字列を生成する文字列生成手段と、前記文字又は文字列の文字数、前記波形に含まれる各音
    声部分の表示上の長さ、所定のフォントサイズに基づい
    て、該各音声部分に対応づけて該文字又は文字列を表示
    する場合の行数を決定する行数決定手段と、 前記行数決定手段により決定した行数が所定の最大行数
    以下の場合には、前記各音声部分の表示上の長さに基づ
    く横ドット数、前記行数決定手段により決定した行数及
    び前記所定のフォントサイズに基づく縦ドット数の表示
    枠を、前記行数決定手段により決定した行数が前記所定
    の最大行数より大きい場合には、前記各音声部分の表示
    上の長さに基づく横ドット数、前記所定の最大行数及び
    前記所定のフォントサイズに基づく縦ドット数の表示枠
    を、該各音声部分に対応づけて表示する表示枠表示手段
    と、 前記行数決定手段により決定した行数が前記所定の最大
    行数以下の場合には、 前記文字又は文字列の全部を前記
    表示枠内に表示するとともに、前記行数決定手段により
    決定した行数が前記所定の最大行数より大きい場合に
    は、前記文字又は文字列の一部を省略して前記表示枠内
    表示する文字列表示手段と、 を含むことを特徴とする音声編集装置。
  2. 【請求項2】 請求項1に記載の音声編集装置におい
    て、 前記波形に含まれる各音声部分を、他の部分と区別して
    表示する音声部分区別表示手段をさらに含むことを特徴
    とする音声編集装置。
  3. 【請求項3】 請求項1又は2に記載の音声編集装置に
    おいて、 前記表示枠表示手段は、前記波形に含まれる各音声部分
    の表示位置に基づき、前記表示枠の表示位置を決定する
    ことを特徴とする音声編集装置。
  4. 【請求項4】 請求項1乃至3のいずれかに記載の音声
    編集装置において、 前記文字列表示手段は、前記波形に含まれる各音声部分
    の全内容を表す文字列のうち、最初の文字以外から、前
    記文字列表示手段により表示する文字列から省略する文
    字を選出することを特徴とする音声編集装置。
  5. 【請求項5】 請求項4に記載の音声編集装置におい
    て、 前記文字列表示手段は、前記波形に含まれる各音声部分
    の全内容を表す文字列のうち、最初の文字及び最後の文
    字以外から、前記文字列表示手段により表示する文字列
    から省略する文字を選出することを特徴とする音声編集
    装置。
  6. 【請求項6】 請求項1乃至5のいずれかに記載の音声
    編集装置において、 前記波形に含まれる各音声部分の表示上の長さに基づい
    て、その音声部分の内容の少なくとも一部を表す前記文
    字又は文字列を表示するときの前記所定のフォントサイ
    ズを制御するフォントサイズ制御手段をさらに含むこと
    を特徴とする音声編集装置。
  7. 【請求項7】 請求項1乃至6のいずれかに記載の音声
    編集装置において、 前記波形に含まれる各音声部分の全内容を表す文字又は
    文字列の文字数に基づいて、その音声部分の内容の少な
    くとも一部を表す前記文字又は文字列を表示するときの
    前記所定のフォントサイズを制御するフォントサイズ制
    御手段をさらに含むことを特徴とする音声編集装置。
  8. 【請求項8】 音声の波形を表示するステップと、 前記波形に含まれる音声部分を判断するステップと、 前記波形に含まれる各音声部分に対して認識処理を施
    し、該各音声部分の内容の少なくとも一部を表す文字又
    は文字列を生成するステップと、前記文字又は文字列の文字数、前記波形に含まれる各音
    声部分の表示上の長さ、所定のフォントサイズに基づい
    て、該各音声部分に対応づけて該文字又は文字列を表示
    する場合の行数を決定するステップと、 前記行数を決定するステップにより決定した行数が所定
    の最大行数以下の場合には、前記各音声部分の表示上の
    長さに基づく横ドット数、前記行数を決定するステップ
    により決定した行数及び前記所定のフォントサイズに基
    づく縦ドット数の表示枠を、前記行数を決定するステッ
    プにより決定した行数が前記所定の最大行数より大きい
    場合には、前記各音声部分の表示上の長さに基づく横ド
    ット数、前記所定の最大行数及び前記所定のフォントサ
    イズに基づく縦ドット数の表示枠を、該各音声部分に対
    応づけて表示するステップと、 前記行数を決定するステップにより決定した行数が前記
    所定の最大行数以下の場合には、 前記文字又は文字列
    全部を前記表示枠内に表示するとともに、前記行数を決
    定するステップにより決定した行数が前記所定の最大行
    数より大きい場合には、前記文字又は文字列の一部を省
    略して前記表示枠内に表示するステップと、 をコンピュータに実行させるための音声編集プログラ
    ム。
JP2001101224A 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム Expired - Fee Related JP3534712B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001101224A JP3534712B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001101224A JP3534712B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Publications (2)

Publication Number Publication Date
JP2002297188A JP2002297188A (ja) 2002-10-11
JP3534712B2 true JP3534712B2 (ja) 2004-06-07

Family

ID=18954578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001101224A Expired - Fee Related JP3534712B2 (ja) 2001-03-30 2001-03-30 音声編集装置及び音声編集プログラム

Country Status (1)

Country Link
JP (1) JP3534712B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3534711B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
JP2005301953A (ja) * 2004-04-12 2005-10-27 Kenichi Asano 聞き手の側のペースで音声とそれに対応する文章を関連させる方法
JP2007189398A (ja) * 2006-01-12 2007-07-26 Oki Electric Ind Co Ltd 音声録音装置
KR101597286B1 (ko) * 2009-05-07 2016-02-25 삼성전자주식회사 아바타 영상 메시지를 생성하는 장치 및 방법
JP5685702B2 (ja) * 2009-11-10 2015-03-18 株式会社アドバンスト・メディア 音声認識結果管理装置および音声認識結果表示方法
JP6509516B2 (ja) * 2014-09-29 2019-05-08 Dynabook株式会社 電子機器、方法及びプログラム
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0715695B2 (ja) * 1988-08-04 1995-02-22 シャープ株式会社 翻訳装置
JPH0567107A (ja) * 1991-09-10 1993-03-19 Toshiba Corp 文章表示装置
JPH05120280A (ja) * 1991-10-30 1993-05-18 Nec Corp フオントサイズ自動変更方式
JP3437617B2 (ja) * 1993-06-03 2003-08-18 株式会社東芝 時系列データ記録再生装置
JP3951193B2 (ja) * 1996-02-26 2007-08-01 ソニー株式会社 通信端末装置
JP3601181B2 (ja) * 1996-04-19 2004-12-15 株式会社日立製作所 受信装置
JP3270356B2 (ja) * 1996-12-04 2002-04-02 株式会社ジャストシステム 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2000047683A (ja) * 1998-07-30 2000-02-18 Matsushita Electric Ind Co Ltd セグメンテーション補助装置及び媒体
JP3444831B2 (ja) * 1999-11-29 2003-09-08 株式会社ジャストシステム 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体
JP3534711B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム

Also Published As

Publication number Publication date
JP2002297188A (ja) 2002-10-11

Similar Documents

Publication Publication Date Title
JP3362913B2 (ja) 手書き文字入力装置
US8244541B2 (en) Content creation system, content creation method, computer executable program for executing the same content creation method, computer readable storage medium having stored the same program, graphical user interface system and display control method
US5875429A (en) Method and apparatus for editing documents through voice recognition
US20020178011A1 (en) Method, storage medium, apparatus, server and program for providing an electronic chat
US8000963B2 (en) Sound reproducing apparatus
JP2004523039A (ja) 音声xmlファイルを自動的に生成する方法およびシステム
JP3534712B2 (ja) 音声編集装置及び音声編集プログラム
JP2991178B2 (ja) 音声ワープロ
JP3340581B2 (ja) テキスト読み上げ装置及びウインドウシステム
US20050219219A1 (en) Text data editing apparatus and method
JP3534711B2 (ja) 音声編集装置及び音声編集プログラム
JPH07168691A (ja) 表示図形領域選択方式
JP4311710B2 (ja) 音声合成制御装置
WO2001042975A1 (fr) Procede et dispositif de traitement de l'information, et support
US20050097439A1 (en) Information processing method and information processing apparatus
JPH08272388A (ja) 音声合成装置及びその方法
JP3302316B2 (ja) 歌詞表示方法および歌詞表示装置
JPH08137651A (ja) 情報処理装置及びその方法
JPH08115335A (ja) マルチメディア処理装置
JPH1069479A (ja) 文書作成方法および文書作成プログラムを記録した媒体
JP3138546B2 (ja) 利用者文字の作成方法
JP3507182B2 (ja) 図形編集装置及び図形編集方法
JP2000250687A (ja) 情報処理装置及びカーソル制御処理プログラムを記録した記録媒体
JPH0959360A (ja) 文書処理装置及び文字列に対する修飾情報の配置方法
JPH0612413A (ja) 文書処理方法及びその装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100319

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110319

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110319

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees