JPH1074138A - 音声をセグメント化するための方法と装置 - Google Patents
音声をセグメント化するための方法と装置Info
- Publication number
- JPH1074138A JPH1074138A JP9145559A JP14555997A JPH1074138A JP H1074138 A JPH1074138 A JP H1074138A JP 9145559 A JP9145559 A JP 9145559A JP 14555997 A JP14555997 A JP 14555997A JP H1074138 A JPH1074138 A JP H1074138A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- speech
- voice
- block
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 description 9
- 239000003550 marker Substances 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/6505—Recording arrangements for recording a message from the calling party storing speech in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/30—Aspects of automatic or semi-automatic exchanges related to audio recordings in general
- H04M2203/301—Management of recordings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
- H04M3/53333—Message receiving aspects
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
ように音声をセグメント化する。 【解決手段】推定ポーズを検出するため、選択されたポ
ーズのサブセットに音声ブロック境界を形成し、この選
択を事前に選択された標的音声ブロック長に基づいてお
こなう。一実施例では、所望のポーズ数nを算出するた
めファイル内の音声データの総継続時間を標的音声ブロ
ック長で除し、そのファイル内の最重要n個のポーズを
検出し、音声データ中のこれらのn個のポーズで音声ブ
ロック境界を形成する。
Description
を容易にするための方法と装置に関する。
ン上に残されたりボイスメール・システムを介して転送
されるなど、個人間の通信方法として普及している。そ
のような音声メッセージは、送信側では迅速に生成でき
るのに対し、受信側で閲読するのはかなり困難である。
すなわち、音声は、聞くために時間を要し、電子メール
や手書きのメモなどの元来視覚形態のメッセージとは異
なり、関連情報を迅速に走査することができない。。
を自動的にテキストに変換することによってこの問題に
対処することが望ましい。いかしながら、現行の音声認
識技法では、音声メッセージに存在する種類の自然発生
音声を正確には変換することはできないので、この手法
はまだ実際的なものではない。したがって、ユーザが実
際に音声信号を認識せずに音声データを閲読できるよう
にし、音声記録の表示、構造化、注釈付けを行ういくつ
かの手法が開発されている。
基本技法を使用しているが、必ずしもそれに依存してい
るわけではない。そのような1つの表示形態は、始めか
ら終わりまでタイム・マークで目盛付けされた(たとえ
ば、4秒メッセージは、「0秒」、「1秒」、「2
秒」、「3秒」、「4秒」という適切な間隔で配置され
たラベルを含むことができる)単一のグラフィカル行で
ある。主音声部分を主沈黙部分と区別するように音声記
録を処理するアルゴリズムを使用することもできる。そ
のような音声検出アルゴリズムは、通信、音声認識、音
声圧縮で広く使用されている。これによって、音声記録
が時間線に沿って表されるが、(たとえば)音声部分が
暗いセグメントとして表示され検出された沈黙部分が明
るいセグメントとして表示されるより豊かなグラフィカ
ル表示形が可能になる。下記の2つの従来技術がこの技
法を使用している。
orner著「Capturing,Structur
ing,and Representing Ubiq
uitous Audio」(ACM Transac
tions on Information Syst
ems、第11巻、第4号、1993年10月、376
〜400ページ)には、音声を取り扱うプロトタイプ・
システムが記載されている。
(1986年)は、音声記録に注釈付けしこの記録を編
集するプロトタイプ・システムを作製した。このシステ
ムは、AdesおよびSwinehart著「Voic
e Annotation and Editing
in a Workstation Environm
ent」(Xerox Corporation)の主
題である。AdesおよびSwinehartの目的
は、音声記録を句サイズまたは文サイズの単位に分離す
ることである。この2つの引用文献はどちらも、使用し
た音声セグメント化アルゴリズムを指定していない。
することに関する問題は、音声記録中の主要なポーズと
各句間の境界との相関が弱いことである。
ザが音声メッセージや、その他の会議の録音や録音のデ
ィクテーションなどの音声記録中の関連情報をより容易
に見つけられるように音声をセグメント化することであ
る。
ーズを検出するように音声データを処理するステップを
含み、選択されたポーズのサブセットに音声ブロック境
界を形成し、この選択が、事前に選択された標的音声ブ
ロック長に基づくものであることを特徴とする音声セグ
メント化方法が提供される。
有益でもない極端に長かったり短かかったりするセグメ
ントではなく、ユーザにとって有用な事前に選択された
サイズに近いブロックに音声データを分離できる利点を
有する。このようにして、ほぼ句に対応する音声ブロッ
クを得ることができる。
数nを算出するためファイル内の音声データの総継続時
間を標的音声ブロック長で除すステップと、そのファイ
ル内の最重要n個のポーズを検出することと、音声デー
タ中のこれらのn個のポーズで音声ブロック境界を形成
するステップとを含む。
することと比べて音声ブロック間の変動性を減少させ
る。しかし、音声ファイル全体に単一のしきい値を適用
するためにある程度の変動性が残る。
が標的音声ブロック長からどのくらい逸脱しているかを
示す誤差メトリックを作成するステップと、ファイル内
の音声データの誤差値を算出するステップと、音声デー
タ中の最重要ポーズを検出するステップと、該ポーズに
ある音声ブロック境界の両側の音声ブロックの平均誤差
値を算出し、この平均誤差値が現誤差値よりも小さい場
合にこの音声ブロック境界を音声データに保持するステ
ップと、反復的に次の最重要ポーズを検出し、次の最重
要ポーズにある音声ブロック境界の両側の音声ブロック
の平均誤差値を算出し、この音声ブロック境界を音声デ
ータに保持することによってさらに誤差値が減少する場
合にそうするステップとを含む。
しきい値を適用するのではなく分離決定が局所的に下さ
れるという利点を有する。
声ブロックの持続時間と標的音声ブロック長の差の二乗
に比例する。
時間の平方根と標的音声ブロック長との間の差の二乗に
比例する。
ロック境界ごとに、境界の両側の音声ブロックの平均誤
差値を、2つのブロックの和からなるブロックの誤差値
と比較するステップと、誤差を最も減少させる音声ブロ
ック境界を削除するステップと、それ以上誤差値が減少
しなくなるまでこれらのステップを繰り返すステップと
を含む。
要度」は、ポーズの持続時間に比例するものでも、ある
いはポーズのエネルギーに反比例するものでもよい。
システムも提供する。
用して、音声データを処理する前に音声セグメントが識
別される。しかし、これは不可欠なことではなく、単一
パス・セグメント化アルゴリズムを使用して音声/沈黙
検出器を不要にすることができる。そのような単一パス
・アルゴリズムでは、生音声データで所定のサイズの最
低エネルギー間隔を探索し、この最低エネルギー間隔を
それぞれの音声セグメント中の最重要ポーズとして処理
することができる。
を音声ブロックの形で表す表示手段を備えることができ
る。次に、一例として、添付の図面を参照して本発明の
一実施例を説明する。
ウズする「Personal Message Manager」アプリケーシ
ョンで実施することができる。
ソナル・コンピュータ上でマイクロソフト・ビジュアル
・ベイシック(Microsoft Visual B
asic)およびボーランドC(Borland C)
で書かれており、マイクロソフト・ウインドウズ(Mi
crosoft Windows)オペレーティング・
システムの下で動作する。音声記録機能および再生機能
はサウンド・ブラスター(SoundBlaster)
16ASPカード(Creative Labs,I
nc.)によってサポートされる。これらの機能は、標
準MSウインドウズ・マルチメディア・アプリケーショ
ン・プログラマーズ・インタフェース(MS Wind
ows MultiMedia Applicatio
n Programmer’s Interface)
を通じてアクセスされる。音声記録は、オーディオ・カ
ードに接続されたマイクロフォンを使用して作成し、や
はりカードに接続された1組のスピーカを介して再生す
ることができる。ユーザ入力はマウスによって行われ
る。別法として、電話回線またはLAN接続を介して音
声入力を得ることができる。
ユーザ・インタフェースの対話画面10を示す。アイコ
ン12で表された1組のフォルダは、前の音声メッセー
ジを記憶するためのものである。1つのフォルダ14が
選択されており、そのため、選択されたフォルダ内の各
メッセージごとの「ヘッダ」情報が、表示ボックス16
に表示される。表示ボックス16は、受信日および各メ
ッセージの送信者を表示する。図1は、1番上のメッセ
ージ18が選択されたことを示している。これによっ
て、選択されたメッセージ18は他の表示ボックス20
に一連のブロックとして表示される。表示ボックス20
内で、黒いブロックは音声を表し、白いブロックは沈黙
を表す。下記に、音声をセグメント化しこのように表示
できるようにするアルゴリズムについて説明する。
を再生し、再生を一時停止し、停止することができるよ
うにする1組の音声コントロール22がある。音声コン
トロール22は、再生ボタン24と、ポーズ・ボタン2
6と、停止ボタン28と、再生をスキップし前の音声ブ
ロックに戻る前ボタン30と、再生をスキップし次の音
声ブロックに進む次ボタン32と、最後に再生した音声
ブロックの再生を繰り返すリピート・ボタン34と、再
生速度を変更する速度制御ボタン36の各ボタンを備え
る。
示ボックス20内の音声ブロックを直接クリックし、そ
の特定のブロックを再生することもできる。図1では、
音声ファイルの始めから再生を開始する準備が完了した
ことを示す矢印状カーソル38が表示ボックス20内に
示されている。ある音声ブロックが再生されているとき
は、そのブロックの色が変化し、音声記録中の現在位置
をユーザに知らせる。
声の各部にラベル付けするためのマーカ42、44、4
6、48のパネル40がある。これらのマーカは、メッ
セージの内容に対する視覚的手がかりを提供するために
使用できる。電話帳マーカ42、時間/約束日記マーカ
44、メモ/督促リスト・マーカ46、その他の注目領
域マーカ48である。たとえば、メッセージ18の1つ
のセグメントは、「当方にご用の節は228ー455に
お願いします(If you need toget
back to me,my number is 2
28 455)」などの音声ブロックを含むことができ
る。このブロックは、電話帳マーカ42でラベル付けす
ることができる。表示ボックス20内の音声ブロック上
にマーカが置かれると、その音声ブロックは自動的に、
ユーザのコンピュータ・システム内の対応するアプリケ
ーションにリンクされる。このように視覚マーカを使用
して音声ブロックを自動的に他のアプリケーションにリ
ンクすることは、ユーザに好都合であり、音声データの
取扱に関連する様々なアプリケーションを統合するため
の重要なステップである。
でユーザの助けとなる。 ・情報抽出:これは通常、ユーザが最初にファイルを聞
き、重要な詳細を抽出したいと考えたときに行われる。
そして、長いファイルの場合は抽出はかなり困難であ
る。図1に示したインタフェースでは、ユーザは、自由
な時間に各音声ブロックを順次再生してファイルを調べ
ることができる。ユーザは、必要に応じて音声ブロック
の先送りまたは後戻りを実行してブロックを選択するこ
とができる。 ・探索:ユーザは、ブロックをクリックすることによっ
て、ファイルを迅速にブラウズして特定の情報、たとえ
ば電話番号を見つけることができる。 ・処理:ユーザは、特定の情報を将来使用できるように
記憶し、他のアプリケーション、たとえば「やること」
リストや電話帳などと共に使用できるように記憶するこ
とができる。他のアプリケーションで使用するブロック
を容易に選択することができる。
テムは、マイクロフォン50と、電話回線51と、LA
N接続部52と、1組の拡声器(またはヘッドセット)
53と、A/D変換器56とD/A変換器57とを含む
オーディオ・カード54と、PC58の各ハードウェア
構成要素を備える。
A/D変換器56が、マイクロフォン50(または電話
回線51)から導いたアナログ・オーディオ信号を、記
録された音声の標準ディジタル表現に変換し、あるいは
PC58が、LAN接続部52からディジタル信号を取
り出し、そのデータが標準「.wav」ファイル・フォ
ーマットで記憶される。D/A変換器57は、逆のディ
ジタル・アナログ変換を実行し、拡声器53を通じてデ
ィジタル「.wav」ファイルを再生する。
は、音声ファイル60の内容を処理する、音声検出器6
2、音声セグメンタ64、表示コントローラ66の各ソ
フトウェア構成要素を備える。
を使用して音声/沈黙検出が実行される。検出器62
は、オフライン・モードで動作し、すなわち音声ファイ
ル60全体を必要とし、下記のステップを実行する。 1.音声を10msフレームに分割し、各フレームごと
に、エネルギーの近似値を算出する。標本値の絶対値を
フレームに渡り加算し、その和の常用対数を40倍した
後整数部分をとって該近似値(整数エネルギー値)が求
まる。 int[40×log10(Σ|標本値|)] 2.各整数エネルギー値に対するフレーム数を表わすヒ
ストグラムを作成する。 3.3点平均フィルタを使用してヒストグラムを平滑化
する。 4.ヒストグラムの第1のピークを見つけ、音声/沈黙
しきい値を第1のピークよりも固定量(3ヒストグラム
・ビン=1.5dB)だけ高い値にする(この場合、ヒ
ストグラム内の第1のピークは平均雑音レベルの良好な
推定値であると仮定する)。次いで、このしきい値に応
じて各フレームを音声または沈黙として分類する。 5.音声中に分離された沈黙パッチを挿入する。ある音
声フレームと他の音声フレームとの間の時間間隙が所定
の範囲内である場合、それらのフレーム間の沈黙フレー
ムは音声に変更される。この所定の時間は100msに
設定されている。 6.沈黙中に分離された音声を挿入する。所定の持続時
間よりも短い音声セグメントを削除する。この持続時間
値は7フレームに設定されている。
すなわち音声ファイル60の受信時に音声データをただ
ちに処理する検出器を使用することができる。
分離された一連の音声ブロックである。この場合、上述
の理由で視覚表示および再生のためには多すぎるセグメ
ントが与えられ、したがって最重要ポーズを除くすべて
のポーズをなくす方法が必要である。本発明を使用する
場合、これを行うにはいくつかの方法があり、それらは
すべて、ある標的長のセグメントを生成することを目的
とする。実際には、標的長は通常、5秒でよい。
しきい値を使用することである。この場合、必要な平均
音声ブロック長を得るために、ポーズ長しきい値は、ブ
レークの数を音声ファイルの長さに比例する値にするよ
うに設定される。言い換えれば、所望のポーズ数nは、
音声ファイルの継続時間を標的音声ブロック長で除すこ
とによって導かれ、ファイル内のn個の最重要ポーズが
音声ブロック境界として保持される。この方法では、結
果がメッセージごとにある程度変動し、非常に長いセグ
メントがメッセージ中のいくつか残り、それに対して短
い分断したパッチがその他の点に現れる。
に単一のポーズ長しきい値を使用して大域的に決定を下
した。これは、ファイルの局所部分では不適切であるこ
とがある。代替方法の「階層法」では、より局所的に決
定が下される。階層法では、ファイルが再帰的により小
さなセグメントに分割される。下記の手順が使用され、
選択された誤差メトリックを使用して誤差値が算出され
る。 1.音声セグメント全体としての誤差値を算出する。 2.セグメント中の最重要ポーズを見つける。 3.最初のセグメントを長さLoldフレームのものとす
る。ステップ2で見つかったポーズが音声ブロック境界
として分類された場合、その結果得られる2つの音声ブ
ロックの長さをそれぞれ、LaおよびLbとする。次い
で、「古い」誤差εoldおよび「新しい」誤差εnewを下
記のように定義することができる。この場合、LTは標
的長である。 εold=(Lold−LT)2 εnew=[(La−LT)2+(Lb−LT)2]÷2
つかったポーズは音声ブロック境界として分類される。
そうでない場合は、そのように分類されない。
セグメントからなる各連続対に再帰的に適用される。ε
new>εoldである場合、再帰は終了し、次の音声セグメ
ントの分割は行われない。
ル全体が音声として分類され、長い初期セグメントが与
えられ、この長いセグメントに再帰的アルゴリズムを適
用することができる。その結果セグメント化が局所的に
最適なレベルで行われることを意味する。大きなセグメ
ントは、そのセグメント内のポーズが比較的短いものの
みでも分割される。逆に、結果的に短いフラグメント化
音声ブロックが得られる場合は、長いポーズを音声ブロ
ック境界として分類をおこなうことはできない。基本的
に、有用なサイズの音声ブロックがあり、極端に長いあ
るいは短いチャンクはユーザをいらいらさせる可能性が
高いと仮定される。
「階層(sqr)法」では、わずかに修正された誤差メ
トリックが使用される。 εold=(√Lold−√LT)2 εnew=[(√La−√LT)2+(√Lb−√LT)2]÷2 「階層(sqr)法」は、ある種のデータ・サンプルに
関してより良い結果を与えることが判明した。
「マージ」段を追加することによってさらに修正するこ
とができる。この方法、すなわち「階層(sqrme)
法」では、音声ブロックどうしを組み合わせて、標的音
声ブロック長にずっと近いセグメントを導くことができ
る。アルゴリズムは下記のとおりである。 1.前述のように階層法(または階層(sqr)法)を
使用して音声ブロックを画定する。 2.音声ブロック境界として分類された各ポーズごと
に、誤差(△ε)を算出する。 △ε={[(√La−√LT)2+(√Lb−√LT)2]÷2}−
(√Lab−√LT)2 上式で、LaおよびLbは、音声ブロック境界の左右のセ
グメントの長さであり、Labは、この境界を削除して1
つの組合せ音声ブロックを形成する場合の音声ブロック
の長さである。 3.正の誤差がない場合、マージ段を終了する。 4.そうでない場合、△εの最大値を有する音声ブロッ
ク境界を削除し、ステップ2から以下を繰り返す。
同誌が組み合わされ、標的音声ブロック長により近い単
一音声ブロックが形成される。
との違いは、階層(sqrme)法の方が音声ブロック
・サイズの分散がずっと小さく、大部分のブロックが標
的音声ブロック・サイズに近いことである。階層(sq
r)法は、中央の標的音声ブロック長の周りの音声ブロ
ック・サイズの分散がより大きい。
は、音声/沈黙検出器によって合理的な数のポーズが見
つけられる必要がある。雑音レベルが高いために検出器
がこれに失敗し、あるいは誤って沈黙を音声としてラベ
ル付けした場合、音声セグメント化アルゴリズムではこ
れを補正することはできない。代替単一パス法は、性能
上の損失なしにこの問題を解消する。
器は使用されない。その代わり、音声ファイル60を処
理し、音声を検出すると共に音声データをセグメント化
する、図3に点線で示した組合せ音声検出器・音声セグ
メンタ70が使用される。
法に基づくものであるが、音声セグメントで最重要ポー
ズを探索するのではなく、最初および最後の500ms
部分を除く最低のエネルギーを有する400ms間隔を
探索する。これを行うために、400ms窓が、音声セ
グメント上を10ms刻みで移動する。
った後、この間隔の両側の短期(10ms)エネルギー
が3dBだけ増加するまで間隔が広げられる。この間隔
は、セグメント化アルゴリズムによって閲読されるポー
ズとなる。
に高い場合でも非常に良好な性能が与えられる。このア
ルゴリズムが普遍的に有用であることを妨げるこのアル
ゴリズム自体の欠点は、見つけられた400ms間隔を
拡張する際に、ポーズを短くしすぎることである。これ
は、長い沈黙がめったにないボイスメールでは非常に好
都合であるが、長い沈黙を明確に識別する必要がある録
音には不適切である。検出する必要がある長い沈黙が存
在する可能性が高い音声ファイルでは、前述のアルゴリ
ズムのうちの1つをオンライン音声検出器と組合せて使
用することができる。
手法を使用する場合は組合せ音声検出器・音声セグメン
タ70)から導かれたセグメント化された音声は、図1
に示したように表示できるように表示コントローラ66
によって処理される。
は複数の音声ブロックを選択することができ、この場
合、表示コントローラ66は音声ファイル60にアクセ
スし、関連部分の再生を開始する。選択された音声デー
タは、D/A変換器57を使用して変換され、図2に示
した拡声器53(またはヘッドセット)を介してユーザ
に再生される。
ザに表示するシステムにおける適用に限らず、セグメン
ト化された音声の表示が行われないシステム、たとえば
音声が、ユーザに表示中のマテリアルと同期して再生で
きるようにセグメント化される医療情報システムや、メ
ッセージが電話によってアクセスされるボイスメール・
システムにも適用できることが理解されよう。後者の場
合、セグメント化は、音声の比較的短い部分の探索およ
び保存にも有用である。以下に本発明の実施態様の例を
示す。
声データを処理するステップを含み、選択されたポーズ
・サブセットで音声ブロック境界を形成し、前記選択が
事前に選択された標的音声ブロック長に基づくことを特
徴とする音声をセグメント化するための方法。 (実施態様2)所望のポーズ数nを算出するためにファ
イル内の音声データの総継続時間を標的音声ブロック長
で除すステップと、そのファイル内の最重要n個のポー
ズを検出するステップと、音声データ中のこれらのn個
のポーズで音声ブロック境界を形成するステップとを含
むことを特徴とする実施態様1に記載の方法。
ブロック長からどのくらい逸脱しているかを示す誤差メ
トリックを作成するステップと、ファイル内の音声デー
タの誤差値を算出するステップと、音声データ中の最重
要ポーズを検出するステップと、ポーズにある音声ブロ
ック境界の両側の音声ブロックの平均誤差値を算出し、
前記平均誤差値が現誤差値よりも小さい場合にこの音声
ブロック境界を音声データに保持するステップと、反復
的に次の最重要ポーズを検出し、次の最重要ポーズにあ
る音声ブロック境界の両側の音声ブロックの平均誤差値
を算出し、この音声ブロック境界を音声データに保持す
ることによってさらに誤差値が減少する場合にそうする
ステップとを含むことを特徴とする実施態様1に記載の
方法。
持続時間と標的音声ブロック長との間の差の二乗に比例
することを特徴とする実施態様3に記載の方法。 (実施態様5)誤差値が、音声ブロックの持続時間の平
方根と標的音声ブロック長との間の差の二乗に比例する
ことを特徴とする実施態様3に記載の方法。 (実施態様6)さらに、保持される各音声ブロック境界
ごとに、境界の両側の音声ブロックの平均誤差値を、2
つのブロックの和からなるブロックの誤差値と比較する
ステップと、誤差を最も減少させる音声ブロック境界を
削除するステップと、それ以上誤差値が減少しなくなる
までこれらのステップを繰り返すステップとを含むこと
を特徴とする実施態様3ないし5のいずれか一項に記載
の方法。
の持続時間に比例することを特徴とする実施態様2ない
し6のいずれか一項に記載の方法。 (実施態様8)ポーズの重要度が、ポーズのエネルギー
に反比例することを特徴とする実施態様2ないし6のい
ずれか一項に記載の方法。 (実施態様9)音声/沈黙検出器を使用して、音声デー
タを処理する前にポーズが識別されることを特徴とする
前記実施態様のいずれか一項に記載の方法。 (実施態様10)音声データのセグメントで所定のサイ
ズの最低エネルギー間隔を探索するステップと、この最
低エネルギー間隔をそれぞれの音声セグメント中の最重
要ポーズとして処理するステップとを含むことを特徴と
する実施態様1ないし8のいずれか一項に記載の方法。
一項に記載の方法を実施する手段を備えるシステム。 (実施態様12)音声データを音声ブロックの形で表す
表示手段を備えることを特徴とする実施態様11に記載
のシステム。
示す図である。
要素を示すブロック図である。
要素を示すブロック図である。
Claims (1)
- 【請求項1】 ポーズを検出するために音声データを処
理するステップを含み、選択されたポーズ・サブセット
で音声ブロック境界を形成し、前記選択が事前に選択さ
れた標的音声ブロック長に基づくことを特徴とする音声
をセグメント化するための方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96304284A EP0811906B1 (en) | 1996-06-07 | 1996-06-07 | Speech segmentation |
GB96304284.1 | 1996-06-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1074138A true JPH1074138A (ja) | 1998-03-17 |
Family
ID=8224969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9145559A Pending JPH1074138A (ja) | 1996-06-07 | 1997-06-03 | 音声をセグメント化するための方法と装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6055495A (ja) |
EP (1) | EP0811906B1 (ja) |
JP (1) | JPH1074138A (ja) |
DE (1) | DE69629667T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086055A (ja) * | 2007-09-27 | 2009-04-23 | Sony Corp | 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6349286B2 (en) * | 1998-09-03 | 2002-02-19 | Siemens Information And Communications Network, Inc. | System and method for automatic synchronization for multimedia presentations |
US20020116187A1 (en) * | 2000-10-04 | 2002-08-22 | Gamze Erten | Speech detection |
US6625261B2 (en) | 2000-12-20 | 2003-09-23 | Southwestern Bell Communications Services, Inc. | Method, system and article of manufacture for bookmarking voicemail messages |
DE10101121A1 (de) * | 2001-01-05 | 2002-07-11 | Deutsche Telekom Ag | Steuerung von Sprachnachrichten beim Empfänger |
US8654939B2 (en) * | 2001-02-13 | 2014-02-18 | International Business Machines Corporation | Recording and receiving voice mail with freeform bookmarks |
US7003083B2 (en) * | 2001-02-13 | 2006-02-21 | International Business Machines Corporation | Selectable audio and mixed background sound for voice messaging system |
US7233899B2 (en) * | 2001-03-12 | 2007-06-19 | Fain Vitaliy S | Speech recognition system using normalized voiced segment spectrogram analysis |
JP4759827B2 (ja) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | 音声セグメンテーション装置及びその方法並びにその制御プログラム |
ATE286294T1 (de) * | 2001-03-29 | 2005-01-15 | Koninkl Philips Electronics Nv | Synchronisierung eines audio- und eines textcursors während der editierung |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
US7260190B2 (en) * | 2002-09-26 | 2007-08-21 | International Business Machines Corporation | System and method for managing voicemails using metadata |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
JP3947871B2 (ja) * | 2002-12-02 | 2007-07-25 | Necインフロンティア株式会社 | 音声データ送受信方式 |
US7827297B2 (en) * | 2003-01-18 | 2010-11-02 | Trausti Thor Kristjansson | Multimedia linking and synchronization method, presentation and editing apparatus |
US7319761B2 (en) * | 2003-04-04 | 2008-01-15 | Apple Inc. | Method and apparatus for locating and correcting sound overload |
US8504369B1 (en) | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
TWI262474B (en) * | 2004-10-06 | 2006-09-21 | Inventec Corp | Voice waveform processing system and method |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
US9240179B2 (en) * | 2005-08-05 | 2016-01-19 | Invention Science Fund I, Llc | Voice controllable interactive communication display system and method |
US8644463B2 (en) | 2007-01-10 | 2014-02-04 | Tvg, Llc | System and method for delivery of voicemails to handheld devices |
US8165451B2 (en) | 2007-11-20 | 2012-04-24 | Echostar Technologies L.L.C. | Methods and apparatus for displaying information regarding interstitials of a video stream |
US8165450B2 (en) | 2007-11-19 | 2012-04-24 | Echostar Technologies L.L.C. | Methods and apparatus for filtering content in a video stream using text data |
US8606085B2 (en) | 2008-03-20 | 2013-12-10 | Dish Network L.L.C. | Method and apparatus for replacement of audio data in recorded audio/video stream |
US8156520B2 (en) | 2008-05-30 | 2012-04-10 | EchoStar Technologies, L.L.C. | Methods and apparatus for presenting substitute content in an audio/video stream using text data |
US8407735B2 (en) | 2008-12-24 | 2013-03-26 | Echostar Technologies L.L.C. | Methods and apparatus for identifying segments of content in a presentation stream using signature data |
US8588579B2 (en) | 2008-12-24 | 2013-11-19 | Echostar Technologies L.L.C. | Methods and apparatus for filtering and inserting content into a presentation stream using signature data |
US8510771B2 (en) | 2008-12-24 | 2013-08-13 | Echostar Technologies L.L.C. | Methods and apparatus for filtering content from a presentation stream using signature data |
US8437617B2 (en) | 2009-06-17 | 2013-05-07 | Echostar Technologies L.L.C. | Method and apparatus for modifying the presentation of content |
US8934758B2 (en) * | 2010-02-09 | 2015-01-13 | Echostar Global B.V. | Methods and apparatus for presenting supplemental content in association with recorded content |
USD734351S1 (en) * | 2012-08-28 | 2015-07-14 | Samsung Electronics Co., Ltd. | Display screen for a digital camera with a graphical user interface |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
US9202469B1 (en) * | 2014-09-16 | 2015-12-01 | Citrix Systems, Inc. | Capturing noteworthy portions of audio recordings |
USD916120S1 (en) * | 2016-09-03 | 2021-04-13 | Synthro Inc. | Display screen or portion thereof with graphical user interface |
CN110364145B (zh) * | 2018-08-02 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
GB2583117B (en) | 2019-04-17 | 2021-06-30 | Sonocent Ltd | Processing and visualising audio signals |
US11172269B2 (en) | 2020-03-04 | 2021-11-09 | Dish Network L.L.C. | Automated commercial content shifting in a video streaming system |
CN112717424B (zh) * | 2021-01-05 | 2022-02-15 | 浙江大学 | 一种信息发送控制方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
EP0092611B1 (en) * | 1982-04-27 | 1987-07-08 | Koninklijke Philips Electronics N.V. | Speech analysis system |
NL8500377A (nl) * | 1985-02-12 | 1986-09-01 | Philips Nv | Werkwijze en inrichting voor het segmenteren van spraak. |
AU2868092A (en) * | 1991-09-30 | 1993-05-03 | Riverrun Technology | Method and apparatus for managing information |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
GB9408042D0 (en) * | 1994-04-22 | 1994-06-15 | Hewlett Packard Co | Device for managing voice data |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
-
1996
- 1996-06-07 DE DE69629667T patent/DE69629667T2/de not_active Expired - Fee Related
- 1996-06-07 EP EP96304284A patent/EP0811906B1/en not_active Expired - Lifetime
-
1997
- 1997-04-30 US US08/846,612 patent/US6055495A/en not_active Expired - Lifetime
- 1997-06-03 JP JP9145559A patent/JPH1074138A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086055A (ja) * | 2007-09-27 | 2009-04-23 | Sony Corp | 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ |
US8098843B2 (en) | 2007-09-27 | 2012-01-17 | Sony Corporation | Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera |
Also Published As
Publication number | Publication date |
---|---|
DE69629667T2 (de) | 2004-06-24 |
EP0811906A1 (en) | 1997-12-10 |
EP0811906B1 (en) | 2003-08-27 |
DE69629667D1 (de) | 2003-10-02 |
US6055495A (en) | 2000-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH1074138A (ja) | 音声をセグメント化するための方法と装置 | |
JP4619623B2 (ja) | ボイスメッセージ処理システムおよび方法 | |
US6697564B1 (en) | Method and system for video browsing and editing by employing audio | |
US5526407A (en) | Method and apparatus for managing information | |
US7092496B1 (en) | Method and apparatus for processing information signals based on content | |
US8091028B2 (en) | Method and apparatus for annotating a line-based document | |
US6181351B1 (en) | Synchronizing the moveable mouths of animated characters with recorded speech | |
US8150687B2 (en) | Recognizing speech, and processing data | |
US8782536B2 (en) | Image-based instant messaging system for providing expressions of emotions | |
US6173259B1 (en) | Speech to text conversion | |
CN1148230A (zh) | 卡拉ok计分的方法和系统 | |
US20060271365A1 (en) | Methods and apparatus for processing information signals based on content | |
CN1934848A (zh) | 用于语音交互式消息传送的方法和设备 | |
CN111813301B (zh) | 内容播放方法、装置、电子设备及可读存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
EP0877378A2 (en) | Method of and apparatus for editing audio or audio-visual recordings | |
WO2024108981A1 (zh) | 视频剪辑方法及装置 | |
JP3279684B2 (ja) | 音声インタフェース・ビルダ・システム | |
Arons | Authoring and transcription tools for speech-based hypermedia systems | |
US20050016364A1 (en) | Information playback apparatus, information playback method, and computer readable medium therefor | |
JP2002344805A (ja) | オープンキャプションに対する字幕表示制御方法 | |
JPH07272447A (ja) | 音声データ編集システム | |
WO2023072172A1 (zh) | 多媒体数据生成方法、装置、电子设备、介质及程序产品 | |
JP3704968B2 (ja) | マルチメディア編集装置 | |
JPH07261779A (ja) | 音節認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051220 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060308 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070703 |