JPH1074138A - 音声をセグメント化するための方法と装置 - Google Patents

音声をセグメント化するための方法と装置

Info

Publication number
JPH1074138A
JPH1074138A JP9145559A JP14555997A JPH1074138A JP H1074138 A JPH1074138 A JP H1074138A JP 9145559 A JP9145559 A JP 9145559A JP 14555997 A JP14555997 A JP 14555997A JP H1074138 A JPH1074138 A JP H1074138A
Authority
JP
Japan
Prior art keywords
audio
speech
voice
block
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9145559A
Other languages
English (en)
Inventor
Roger Cecil Ferry Tucker
ロジャー・セシル・フェリー・タッカー
Michael John Collins
マイケル・ジョン・コリンズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JPH1074138A publication Critical patent/JPH1074138A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/6505Recording arrangements for recording a message from the calling party storing speech in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/30Aspects of automatic or semi-automatic exchanges related to audio recordings in general
    • H04M2203/301Management of recordings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53333Message receiving aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】音声声記録中の情報をより容易に見つけられる
ように音声をセグメント化する。 【解決手段】推定ポーズを検出するため、選択されたポ
ーズのサブセットに音声ブロック境界を形成し、この選
択を事前に選択された標的音声ブロック長に基づいてお
こなう。一実施例では、所望のポーズ数nを算出するた
めファイル内の音声データの総継続時間を標的音声ブロ
ック長で除し、そのファイル内の最重要n個のポーズを
検出し、音声データ中のこれらのn個のポーズで音声ブ
ロック境界を形成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声データの管理
を容易にするための方法と装置に関する。
【0002】
【技術背景】音声メッセージは、受信側のアンサーフォ
ン上に残されたりボイスメール・システムを介して転送
されるなど、個人間の通信方法として普及している。そ
のような音声メッセージは、送信側では迅速に生成でき
るのに対し、受信側で閲読するのはかなり困難である。
すなわち、音声は、聞くために時間を要し、電子メール
や手書きのメモなどの元来視覚形態のメッセージとは異
なり、関連情報を迅速に走査することができない。。
【0003】長い目で見れば、音声認識を使用して音声
を自動的にテキストに変換することによってこの問題に
対処することが望ましい。いかしながら、現行の音声認
識技法では、音声メッセージに存在する種類の自然発生
音声を正確には変換することはできないので、この手法
はまだ実際的なものではない。したがって、ユーザが実
際に音声信号を認識せずに音声データを閲読できるよう
にし、音声記録の表示、構造化、注釈付けを行ういくつ
かの手法が開発されている。
【0004】多くの手法は、音声の視覚表現を表示する
基本技法を使用しているが、必ずしもそれに依存してい
るわけではない。そのような1つの表示形態は、始めか
ら終わりまでタイム・マークで目盛付けされた(たとえ
ば、4秒メッセージは、「0秒」、「1秒」、「2
秒」、「3秒」、「4秒」という適切な間隔で配置され
たラベルを含むことができる)単一のグラフィカル行で
ある。主音声部分を主沈黙部分と区別するように音声記
録を処理するアルゴリズムを使用することもできる。そ
のような音声検出アルゴリズムは、通信、音声認識、音
声圧縮で広く使用されている。これによって、音声記録
が時間線に沿って表されるが、(たとえば)音声部分が
暗いセグメントとして表示され検出された沈黙部分が明
るいセグメントとして表示されるより豊かなグラフィカ
ル表示形が可能になる。下記の2つの従来技術がこの技
法を使用している。
【0005】1.Hindus、Schmandt、H
orner著「Capturing,Structur
ing,and Representing Ubiq
uitous Audio」(ACM Transac
tions on Information Syst
ems、第11巻、第4号、1993年10月、376
〜400ページ)には、音声を取り扱うプロトタイプ・
システムが記載されている。
【0006】2.AdesおよびSwinehart
(1986年)は、音声記録に注釈付けしこの記録を編
集するプロトタイプ・システムを作製した。このシステ
ムは、AdesおよびSwinehart著「Voic
e Annotation and Editing
in a Workstation Environm
ent」(Xerox Corporation)の主
題である。AdesおよびSwinehartの目的
は、音声記録を句サイズまたは文サイズの単位に分離す
ることである。この2つの引用文献はどちらも、使用し
た音声セグメント化アルゴリズムを指定していない。
【0007】音声/沈黙検出器を使用してポーズを画定
することに関する問題は、音声記録中の主要なポーズと
各句間の境界との相関が弱いことである。
【0008】
【発明が解決しようとする課題】本発明の目的は、ユー
ザが音声メッセージや、その他の会議の録音や録音のデ
ィクテーションなどの音声記録中の関連情報をより容易
に見つけられるように音声をセグメント化することであ
る。
【0009】
【課題を解決するための手段】本発明によれば、推定ポ
ーズを検出するように音声データを処理するステップを
含み、選択されたポーズのサブセットに音声ブロック境
界を形成し、この選択が、事前に選択された標的音声ブ
ロック長に基づくものであることを特徴とする音声セグ
メント化方法が提供される。
【0010】本発明は、より管理が困難でありそれほど
有益でもない極端に長かったり短かかったりするセグメ
ントではなく、ユーザにとって有用な事前に選択された
サイズに近いブロックに音声データを分離できる利点を
有する。このようにして、ほぼ句に対応する音声ブロッ
クを得ることができる。
【0011】一実施例では、この方法は、所望のポーズ
数nを算出するためファイル内の音声データの総継続時
間を標的音声ブロック長で除すステップと、そのファイ
ル内の最重要n個のポーズを検出することと、音声デー
タ中のこれらのn個のポーズで音声ブロック境界を形成
するステップとを含む。
【0012】この手法は、単純ポーズ長しきい値を使用
することと比べて音声ブロック間の変動性を減少させ
る。しかし、音声ファイル全体に単一のしきい値を適用
するためにある程度の変動性が残る。
【0013】好ましくは、この方法は、音声ブロック長
が標的音声ブロック長からどのくらい逸脱しているかを
示す誤差メトリックを作成するステップと、ファイル内
の音声データの誤差値を算出するステップと、音声デー
タ中の最重要ポーズを検出するステップと、該ポーズに
ある音声ブロック境界の両側の音声ブロックの平均誤差
値を算出し、この平均誤差値が現誤差値よりも小さい場
合にこの音声ブロック境界を音声データに保持するステ
ップと、反復的に次の最重要ポーズを検出し、次の最重
要ポーズにある音声ブロック境界の両側の音声ブロック
の平均誤差値を算出し、この音声ブロック境界を音声デ
ータに保持することによってさらに誤差値が減少する場
合にそうするステップとを含む。
【0014】この手法は、ファイル全体に対して単一の
しきい値を適用するのではなく分離決定が局所的に下さ
れるという利点を有する。
【0015】下記で説明する実施例では、誤差値は、音
声ブロックの持続時間と標的音声ブロック長の差の二乗
に比例する。
【0016】好ましくは、誤差値は音声ブロックの持続
時間の平方根と標的音声ブロック長との間の差の二乗に
比例する。
【0017】さらに、この方法は、保持される各音声ブ
ロック境界ごとに、境界の両側の音声ブロックの平均誤
差値を、2つのブロックの和からなるブロックの誤差値
と比較するステップと、誤差を最も減少させる音声ブロ
ック境界を削除するステップと、それ以上誤差値が減少
しなくなるまでこれらのステップを繰り返すステップと
を含む。
【0018】上記で定義した方法におけるポーズの「重
要度」は、ポーズの持続時間に比例するものでも、ある
いはポーズのエネルギーに反比例するものでもよい。
【0019】本発明は、上記で定義した方法を実施する
システムも提供する。
【0020】多くの実施例では、音声/沈黙検出器を使
用して、音声データを処理する前に音声セグメントが識
別される。しかし、これは不可欠なことではなく、単一
パス・セグメント化アルゴリズムを使用して音声/沈黙
検出器を不要にすることができる。そのような単一パス
・アルゴリズムでは、生音声データで所定のサイズの最
低エネルギー間隔を探索し、この最低エネルギー間隔を
それぞれの音声セグメント中の最重要ポーズとして処理
することができる。
【0021】本発明を実施するシステムは、音声データ
を音声ブロックの形で表す表示手段を備えることができ
る。次に、一例として、添付の図面を参照して本発明の
一実施例を説明する。
【0022】
【発明の実施の形態】本発明は、音声メッセージをブラ
ウズする「Personal Message Manager」アプリケーシ
ョンで実施することができる。
【0023】下記で説明する実施例は、IBM互換パー
ソナル・コンピュータ上でマイクロソフト・ビジュアル
・ベイシック(Microsoft Visual B
asic)およびボーランドC(Borland C)
で書かれており、マイクロソフト・ウインドウズ(Mi
crosoft Windows)オペレーティング・
システムの下で動作する。音声記録機能および再生機能
はサウンド・ブラスター(SoundBlaster)
16ASPカード(Creative Labs,I
nc.)によってサポートされる。これらの機能は、標
準MSウインドウズ・マルチメディア・アプリケーショ
ン・プログラマーズ・インタフェース(MS Wind
ows MultiMedia Applicatio
n Programmer’s Interface)
を通じてアクセスされる。音声記録は、オーディオ・カ
ードに接続されたマイクロフォンを使用して作成し、や
はりカードに接続された1組のスピーカを介して再生す
ることができる。ユーザ入力はマウスによって行われ
る。別法として、電話回線またはLAN接続を介して音
声入力を得ることができる。
【0024】図1は、マイクロソフト・ウインドウズ・
ユーザ・インタフェースの対話画面10を示す。アイコ
ン12で表された1組のフォルダは、前の音声メッセー
ジを記憶するためのものである。1つのフォルダ14が
選択されており、そのため、選択されたフォルダ内の各
メッセージごとの「ヘッダ」情報が、表示ボックス16
に表示される。表示ボックス16は、受信日および各メ
ッセージの送信者を表示する。図1は、1番上のメッセ
ージ18が選択されたことを示している。これによっ
て、選択されたメッセージ18は他の表示ボックス20
に一連のブロックとして表示される。表示ボックス20
内で、黒いブロックは音声を表し、白いブロックは沈黙
を表す。下記に、音声をセグメント化しこのように表示
できるようにするアルゴリズムについて説明する。
【0025】表示ボックス20の上方に、ユーザが音声
を再生し、再生を一時停止し、停止することができるよ
うにする1組の音声コントロール22がある。音声コン
トロール22は、再生ボタン24と、ポーズ・ボタン2
6と、停止ボタン28と、再生をスキップし前の音声ブ
ロックに戻る前ボタン30と、再生をスキップし次の音
声ブロックに進む次ボタン32と、最後に再生した音声
ブロックの再生を繰り返すリピート・ボタン34と、再
生速度を変更する速度制御ボタン36の各ボタンを備え
る。
【0026】ユーザは、たとえばマウスを使用して、表
示ボックス20内の音声ブロックを直接クリックし、そ
の特定のブロックを再生することもできる。図1では、
音声ファイルの始めから再生を開始する準備が完了した
ことを示す矢印状カーソル38が表示ボックス20内に
示されている。ある音声ブロックが再生されているとき
は、そのブロックの色が変化し、音声記録中の現在位置
をユーザに知らせる。
【0027】表示ボックス20の右側に、記録された音
声の各部にラベル付けするためのマーカ42、44、4
6、48のパネル40がある。これらのマーカは、メッ
セージの内容に対する視覚的手がかりを提供するために
使用できる。電話帳マーカ42、時間/約束日記マーカ
44、メモ/督促リスト・マーカ46、その他の注目領
域マーカ48である。たとえば、メッセージ18の1つ
のセグメントは、「当方にご用の節は228ー455に
お願いします(If you need toget
back to me,my number is 2
28 455)」などの音声ブロックを含むことができ
る。このブロックは、電話帳マーカ42でラベル付けす
ることができる。表示ボックス20内の音声ブロック上
にマーカが置かれると、その音声ブロックは自動的に、
ユーザのコンピュータ・システム内の対応するアプリケ
ーションにリンクされる。このように視覚マーカを使用
して音声ブロックを自動的に他のアプリケーションにリ
ンクすることは、ユーザに好都合であり、音声データの
取扱に関連する様々なアプリケーションを統合するため
の重要なステップである。
【0028】音声ファイルのセグメント化は、下記の点
でユーザの助けとなる。 ・情報抽出:これは通常、ユーザが最初にファイルを聞
き、重要な詳細を抽出したいと考えたときに行われる。
そして、長いファイルの場合は抽出はかなり困難であ
る。図1に示したインタフェースでは、ユーザは、自由
な時間に各音声ブロックを順次再生してファイルを調べ
ることができる。ユーザは、必要に応じて音声ブロック
の先送りまたは後戻りを実行してブロックを選択するこ
とができる。 ・探索:ユーザは、ブロックをクリックすることによっ
て、ファイルを迅速にブラウズして特定の情報、たとえ
ば電話番号を見つけることができる。 ・処理:ユーザは、特定の情報を将来使用できるように
記憶し、他のアプリケーション、たとえば「やること」
リストや電話帳などと共に使用できるように記憶するこ
とができる。他のアプリケーションで使用するブロック
を容易に選択することができる。
【0029】次に図2を参照すると分かるように、シス
テムは、マイクロフォン50と、電話回線51と、LA
N接続部52と、1組の拡声器(またはヘッドセット)
53と、A/D変換器56とD/A変換器57とを含む
オーディオ・カード54と、PC58の各ハードウェア
構成要素を備える。
【0030】録音時には、オーディオ・カード54内の
A/D変換器56が、マイクロフォン50(または電話
回線51)から導いたアナログ・オーディオ信号を、記
録された音声の標準ディジタル表現に変換し、あるいは
PC58が、LAN接続部52からディジタル信号を取
り出し、そのデータが標準「.wav」ファイル・フォ
ーマットで記憶される。D/A変換器57は、逆のディ
ジタル・アナログ変換を実行し、拡声器53を通じてデ
ィジタル「.wav」ファイルを再生する。
【0031】図3を参照すると分かるように、システム
は、音声ファイル60の内容を処理する、音声検出器6
2、音声セグメンタ64、表示コントローラ66の各ソ
フトウェア構成要素を備える。
【0032】一実施例では、オフライン音声検出器62
を使用して音声/沈黙検出が実行される。検出器62
は、オフライン・モードで動作し、すなわち音声ファイ
ル60全体を必要とし、下記のステップを実行する。 1.音声を10msフレームに分割し、各フレームごと
に、エネルギーの近似値を算出する。標本値の絶対値を
フレームに渡り加算し、その和の常用対数を40倍した
後整数部分をとって該近似値(整数エネルギー値)が求
まる。 int[40×log10(Σ|標本値|)] 2.各整数エネルギー値に対するフレーム数を表わすヒ
ストグラムを作成する。 3.3点平均フィルタを使用してヒストグラムを平滑化
する。 4.ヒストグラムの第1のピークを見つけ、音声/沈黙
しきい値を第1のピークよりも固定量(3ヒストグラム
・ビン=1.5dB)だけ高い値にする(この場合、ヒ
ストグラム内の第1のピークは平均雑音レベルの良好な
推定値であると仮定する)。次いで、このしきい値に応
じて各フレームを音声または沈黙として分類する。 5.音声中に分離された沈黙パッチを挿入する。ある音
声フレームと他の音声フレームとの間の時間間隙が所定
の範囲内である場合、それらのフレーム間の沈黙フレー
ムは音声に変更される。この所定の時間は100msに
設定されている。 6.沈黙中に分離された音声を挿入する。所定の持続時
間よりも短い音声セグメントを削除する。この持続時間
値は7フレームに設定されている。
【0033】別法として、標準オンライン音声検出器、
すなわち音声ファイル60の受信時に音声データをただ
ちに処理する検出器を使用することができる。
【0034】音声検出器62の出力は、ポーズによって
分離された一連の音声ブロックである。この場合、上述
の理由で視覚表示および再生のためには多すぎるセグメ
ントが与えられ、したがって最重要ポーズを除くすべて
のポーズをなくす方法が必要である。本発明を使用する
場合、これを行うにはいくつかの方法があり、それらは
すべて、ある標的長のセグメントを生成することを目的
とする。実際には、標的長は通常、5秒でよい。
【0035】第1の可能な手法は、ポーズ長に適応的な
しきい値を使用することである。この場合、必要な平均
音声ブロック長を得るために、ポーズ長しきい値は、ブ
レークの数を音声ファイルの長さに比例する値にするよ
うに設定される。言い換えれば、所望のポーズ数nは、
音声ファイルの継続時間を標的音声ブロック長で除すこ
とによって導かれ、ファイル内のn個の最重要ポーズが
音声ブロック境界として保持される。この方法では、結
果がメッセージごとにある程度変動し、非常に長いセグ
メントがメッセージ中のいくつか残り、それに対して短
い分断したパッチがその他の点に現れる。
【0036】前述のアルゴリズムは、音声ファイル全体
に単一のポーズ長しきい値を使用して大域的に決定を下
した。これは、ファイルの局所部分では不適切であるこ
とがある。代替方法の「階層法」では、より局所的に決
定が下される。階層法では、ファイルが再帰的により小
さなセグメントに分割される。下記の手順が使用され、
選択された誤差メトリックを使用して誤差値が算出され
る。 1.音声セグメント全体としての誤差値を算出する。 2.セグメント中の最重要ポーズを見つける。 3.最初のセグメントを長さLoldフレームのものとす
る。ステップ2で見つかったポーズが音声ブロック境界
として分類された場合、その結果得られる2つの音声ブ
ロックの長さをそれぞれ、LaおよびLbとする。次い
で、「古い」誤差εoldおよび「新しい」誤差εnewを下
記のように定義することができる。この場合、LTは標
的長である。 εold=(Lold−LT)2 εnew=[(La−LT)2+(Lb−LT)2]÷2
【0037】εnew<εoldである場合、ステップ2で見
つかったポーズは音声ブロック境界として分類される。
そうでない場合は、そのように分類されない。
【0038】次いで、上記の手順が、結果的に得られる
セグメントからなる各連続対に再帰的に適用される。ε
new>εoldである場合、再帰は終了し、次の音声セグメ
ントの分割は行われない。
【0039】したがって、階層法では、最初音声ファイ
ル全体が音声として分類され、長い初期セグメントが与
えられ、この長いセグメントに再帰的アルゴリズムを適
用することができる。その結果セグメント化が局所的に
最適なレベルで行われることを意味する。大きなセグメ
ントは、そのセグメント内のポーズが比較的短いものの
みでも分割される。逆に、結果的に短いフラグメント化
音声ブロックが得られる場合は、長いポーズを音声ブロ
ック境界として分類をおこなうことはできない。基本的
に、有用なサイズの音声ブロックがあり、極端に長いあ
るいは短いチャンクはユーザをいらいらさせる可能性が
高いと仮定される。
【0040】階層法に対する簡単な修正をおこなった
「階層(sqr)法」では、わずかに修正された誤差メ
トリックが使用される。 εold=(√Lold−√LT)2 εnew=[(√La−√LT)2+(√Lb−√LT)2]÷2 「階層(sqr)法」は、ある種のデータ・サンプルに
関してより良い結果を与えることが判明した。
【0041】階層法および階層(sqr)法は、第2の
「マージ」段を追加することによってさらに修正するこ
とができる。この方法、すなわち「階層(sqrme)
法」では、音声ブロックどうしを組み合わせて、標的音
声ブロック長にずっと近いセグメントを導くことができ
る。アルゴリズムは下記のとおりである。 1.前述のように階層法(または階層(sqr)法)を
使用して音声ブロックを画定する。 2.音声ブロック境界として分類された各ポーズごと
に、誤差(△ε)を算出する。 △ε={[(√La−√LT)2+(√Lb−√LT)2]÷2}−
(√Lab−√LT)2 上式で、LaおよびLbは、音声ブロック境界の左右のセ
グメントの長さであり、Labは、この境界を削除して1
つの組合せ音声ブロックを形成する場合の音声ブロック
の長さである。 3.正の誤差がない場合、マージ段を終了する。 4.そうでない場合、△εの最大値を有する音声ブロッ
ク境界を削除し、ステップ2から以下を繰り返す。
【0042】このように、隣接する短い音声セグメント
同誌が組み合わされ、標的音声ブロック長により近い単
一音声ブロックが形成される。
【0043】階層(sqr)法と階層(sqrme)法
との違いは、階層(sqrme)法の方が音声ブロック
・サイズの分散がずっと小さく、大部分のブロックが標
的音声ブロック・サイズに近いことである。階層(sq
r)法は、中央の標的音声ブロック長の周りの音声ブロ
ック・サイズの分散がより大きい。
【0044】前述の3つのセグメント化アルゴリズムで
は、音声/沈黙検出器によって合理的な数のポーズが見
つけられる必要がある。雑音レベルが高いために検出器
がこれに失敗し、あるいは誤って沈黙を音声としてラベ
ル付けした場合、音声セグメント化アルゴリズムではこ
れを補正することはできない。代替単一パス法は、性能
上の損失なしにこの問題を解消する。
【0045】本発明の他の実施例では、独立の音声検出
器は使用されない。その代わり、音声ファイル60を処
理し、音声を検出すると共に音声データをセグメント化
する、図3に点線で示した組合せ音声検出器・音声セグ
メンタ70が使用される。
【0046】単一パス法は、前述の階層(sqrme)
法に基づくものであるが、音声セグメントで最重要ポー
ズを探索するのではなく、最初および最後の500ms
部分を除く最低のエネルギーを有する400ms間隔を
探索する。これを行うために、400ms窓が、音声セ
グメント上を10ms刻みで移動する。
【0047】最低の400msエネルギー間隔が見つか
った後、この間隔の両側の短期(10ms)エネルギー
が3dBだけ増加するまで間隔が広げられる。この間隔
は、セグメント化アルゴリズムによって閲読されるポー
ズとなる。
【0048】このアルゴリズムでは、雑音レベルが非常
に高い場合でも非常に良好な性能が与えられる。このア
ルゴリズムが普遍的に有用であることを妨げるこのアル
ゴリズム自体の欠点は、見つけられた400ms間隔を
拡張する際に、ポーズを短くしすぎることである。これ
は、長い沈黙がめったにないボイスメールでは非常に好
都合であるが、長い沈黙を明確に識別する必要がある録
音には不適切である。検出する必要がある長い沈黙が存
在する可能性が高い音声ファイルでは、前述のアルゴリ
ズムのうちの1つをオンライン音声検出器と組合せて使
用することができる。
【0049】音声セグメンタ64(あるいは、単一パス
手法を使用する場合は組合せ音声検出器・音声セグメン
タ70)から導かれたセグメント化された音声は、図1
に示したように表示できるように表示コントローラ66
によって処理される。
【0050】使用時に、ユーザは、再生すべき1つまた
は複数の音声ブロックを選択することができ、この場
合、表示コントローラ66は音声ファイル60にアクセ
スし、関連部分の再生を開始する。選択された音声デー
タは、D/A変換器57を使用して変換され、図2に示
した拡声器53(またはヘッドセット)を介してユーザ
に再生される。
【0051】本発明は、セグメント化された音声をユー
ザに表示するシステムにおける適用に限らず、セグメン
ト化された音声の表示が行われないシステム、たとえば
音声が、ユーザに表示中のマテリアルと同期して再生で
きるようにセグメント化される医療情報システムや、メ
ッセージが電話によってアクセスされるボイスメール・
システムにも適用できることが理解されよう。後者の場
合、セグメント化は、音声の比較的短い部分の探索およ
び保存にも有用である。以下に本発明の実施態様の例を
示す。
【0052】(実施態様1)ポーズを検出するために音
声データを処理するステップを含み、選択されたポーズ
・サブセットで音声ブロック境界を形成し、前記選択が
事前に選択された標的音声ブロック長に基づくことを特
徴とする音声をセグメント化するための方法。 (実施態様2)所望のポーズ数nを算出するためにファ
イル内の音声データの総継続時間を標的音声ブロック長
で除すステップと、そのファイル内の最重要n個のポー
ズを検出するステップと、音声データ中のこれらのn個
のポーズで音声ブロック境界を形成するステップとを含
むことを特徴とする実施態様1に記載の方法。
【0053】(実施態様3)音声ブロック長が標的音声
ブロック長からどのくらい逸脱しているかを示す誤差メ
トリックを作成するステップと、ファイル内の音声デー
タの誤差値を算出するステップと、音声データ中の最重
要ポーズを検出するステップと、ポーズにある音声ブロ
ック境界の両側の音声ブロックの平均誤差値を算出し、
前記平均誤差値が現誤差値よりも小さい場合にこの音声
ブロック境界を音声データに保持するステップと、反復
的に次の最重要ポーズを検出し、次の最重要ポーズにあ
る音声ブロック境界の両側の音声ブロックの平均誤差値
を算出し、この音声ブロック境界を音声データに保持す
ることによってさらに誤差値が減少する場合にそうする
ステップとを含むことを特徴とする実施態様1に記載の
方法。
【0054】(実施態様4)誤差値が、音声ブロックの
持続時間と標的音声ブロック長との間の差の二乗に比例
することを特徴とする実施態様3に記載の方法。 (実施態様5)誤差値が、音声ブロックの持続時間の平
方根と標的音声ブロック長との間の差の二乗に比例する
ことを特徴とする実施態様3に記載の方法。 (実施態様6)さらに、保持される各音声ブロック境界
ごとに、境界の両側の音声ブロックの平均誤差値を、2
つのブロックの和からなるブロックの誤差値と比較する
ステップと、誤差を最も減少させる音声ブロック境界を
削除するステップと、それ以上誤差値が減少しなくなる
までこれらのステップを繰り返すステップとを含むこと
を特徴とする実施態様3ないし5のいずれか一項に記載
の方法。
【0055】(実施態様7)ポーズの重要度が、ポーズ
の持続時間に比例することを特徴とする実施態様2ない
し6のいずれか一項に記載の方法。 (実施態様8)ポーズの重要度が、ポーズのエネルギー
に反比例することを特徴とする実施態様2ないし6のい
ずれか一項に記載の方法。 (実施態様9)音声/沈黙検出器を使用して、音声デー
タを処理する前にポーズが識別されることを特徴とする
前記実施態様のいずれか一項に記載の方法。 (実施態様10)音声データのセグメントで所定のサイ
ズの最低エネルギー間隔を探索するステップと、この最
低エネルギー間隔をそれぞれの音声セグメント中の最重
要ポーズとして処理するステップとを含むことを特徴と
する実施態様1ないし8のいずれか一項に記載の方法。
【0056】(実施態様11)前記実施態様のいずれか
一項に記載の方法を実施する手段を備えるシステム。 (実施態様12)音声データを音声ブロックの形で表す
表示手段を備えることを特徴とする実施態様11に記載
のシステム。
【図面の簡単な説明】
【図1】本発明による装置のユーザ・インタフェースを
示す図である。
【図2】本発明を実施するシステムのハードウェア構成
要素を示すブロック図である。
【図3】本発明を実施するシステムのソフトウェア構成
要素を示すブロック図である。
【符号の説明】 10 対話画面 16 表示ボックス 20 表示ボックス 22 音声コントロール 38 カーソル 40 マーカ・パネル 50 マイクロフォン 51 電話回線 52 LAN接続部 53 拡声器 54 オーディオ・カード 58 PC 60 音声ファイル 62 音声検出器 64 音声セグメンタ 66 表示コントローラ 70 音声検出器・音声セグメンタ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 ポーズを検出するために音声データを処
    理するステップを含み、選択されたポーズ・サブセット
    で音声ブロック境界を形成し、前記選択が事前に選択さ
    れた標的音声ブロック長に基づくことを特徴とする音声
    をセグメント化するための方法。
JP9145559A 1996-06-07 1997-06-03 音声をセグメント化するための方法と装置 Pending JPH1074138A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96304284A EP0811906B1 (en) 1996-06-07 1996-06-07 Speech segmentation
GB96304284.1 1996-06-07

Publications (1)

Publication Number Publication Date
JPH1074138A true JPH1074138A (ja) 1998-03-17

Family

ID=8224969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9145559A Pending JPH1074138A (ja) 1996-06-07 1997-06-03 音声をセグメント化するための方法と装置

Country Status (4)

Country Link
US (1) US6055495A (ja)
EP (1) EP0811906B1 (ja)
JP (1) JPH1074138A (ja)
DE (1) DE69629667T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349286B2 (en) * 1998-09-03 2002-02-19 Siemens Information And Communications Network, Inc. System and method for automatic synchronization for multimedia presentations
US20020116187A1 (en) * 2000-10-04 2002-08-22 Gamze Erten Speech detection
US6625261B2 (en) 2000-12-20 2003-09-23 Southwestern Bell Communications Services, Inc. Method, system and article of manufacture for bookmarking voicemail messages
DE10101121A1 (de) * 2001-01-05 2002-07-11 Deutsche Telekom Ag Steuerung von Sprachnachrichten beim Empfänger
US8654939B2 (en) * 2001-02-13 2014-02-18 International Business Machines Corporation Recording and receiving voice mail with freeform bookmarks
US7003083B2 (en) * 2001-02-13 2006-02-21 International Business Machines Corporation Selectable audio and mixed background sound for voice messaging system
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
ATE286294T1 (de) * 2001-03-29 2005-01-15 Koninkl Philips Electronics Nv Synchronisierung eines audio- und eines textcursors während der editierung
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7260190B2 (en) * 2002-09-26 2007-08-21 International Business Machines Corporation System and method for managing voicemails using metadata
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
JP3947871B2 (ja) * 2002-12-02 2007-07-25 Necインフロンティア株式会社 音声データ送受信方式
US7827297B2 (en) * 2003-01-18 2010-11-02 Trausti Thor Kristjansson Multimedia linking and synchronization method, presentation and editing apparatus
US7319761B2 (en) * 2003-04-04 2008-01-15 Apple Inc. Method and apparatus for locating and correcting sound overload
US8504369B1 (en) 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
TWI262474B (en) * 2004-10-06 2006-09-21 Inventec Corp Voice waveform processing system and method
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
US9240179B2 (en) * 2005-08-05 2016-01-19 Invention Science Fund I, Llc Voice controllable interactive communication display system and method
US8644463B2 (en) 2007-01-10 2014-02-04 Tvg, Llc System and method for delivery of voicemails to handheld devices
US8165451B2 (en) 2007-11-20 2012-04-24 Echostar Technologies L.L.C. Methods and apparatus for displaying information regarding interstitials of a video stream
US8165450B2 (en) 2007-11-19 2012-04-24 Echostar Technologies L.L.C. Methods and apparatus for filtering content in a video stream using text data
US8606085B2 (en) 2008-03-20 2013-12-10 Dish Network L.L.C. Method and apparatus for replacement of audio data in recorded audio/video stream
US8156520B2 (en) 2008-05-30 2012-04-10 EchoStar Technologies, L.L.C. Methods and apparatus for presenting substitute content in an audio/video stream using text data
US8407735B2 (en) 2008-12-24 2013-03-26 Echostar Technologies L.L.C. Methods and apparatus for identifying segments of content in a presentation stream using signature data
US8588579B2 (en) 2008-12-24 2013-11-19 Echostar Technologies L.L.C. Methods and apparatus for filtering and inserting content into a presentation stream using signature data
US8510771B2 (en) 2008-12-24 2013-08-13 Echostar Technologies L.L.C. Methods and apparatus for filtering content from a presentation stream using signature data
US8437617B2 (en) 2009-06-17 2013-05-07 Echostar Technologies L.L.C. Method and apparatus for modifying the presentation of content
US8934758B2 (en) * 2010-02-09 2015-01-13 Echostar Global B.V. Methods and apparatus for presenting supplemental content in association with recorded content
USD734351S1 (en) * 2012-08-28 2015-07-14 Samsung Electronics Co., Ltd. Display screen for a digital camera with a graphical user interface
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9202469B1 (en) * 2014-09-16 2015-12-01 Citrix Systems, Inc. Capturing noteworthy portions of audio recordings
USD916120S1 (en) * 2016-09-03 2021-04-13 Synthro Inc. Display screen or portion thereof with graphical user interface
CN110364145B (zh) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
GB2583117B (en) 2019-04-17 2021-06-30 Sonocent Ltd Processing and visualising audio signals
US11172269B2 (en) 2020-03-04 2021-11-09 Dish Network L.L.C. Automated commercial content shifting in a video streaming system
CN112717424B (zh) * 2021-01-05 2022-02-15 浙江大学 一种信息发送控制方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system
EP0092611B1 (en) * 1982-04-27 1987-07-08 Koninklijke Philips Electronics N.V. Speech analysis system
NL8500377A (nl) * 1985-02-12 1986-09-01 Philips Nv Werkwijze en inrichting voor het segmenteren van spraak.
AU2868092A (en) * 1991-09-30 1993-05-03 Riverrun Technology Method and apparatus for managing information
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
GB9408042D0 (en) * 1994-04-22 1994-06-15 Hewlett Packard Co Device for managing voice data
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US8098843B2 (en) 2007-09-27 2012-01-17 Sony Corporation Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera

Also Published As

Publication number Publication date
DE69629667T2 (de) 2004-06-24
EP0811906A1 (en) 1997-12-10
EP0811906B1 (en) 2003-08-27
DE69629667D1 (de) 2003-10-02
US6055495A (en) 2000-04-25

Similar Documents

Publication Publication Date Title
JPH1074138A (ja) 音声をセグメント化するための方法と装置
JP4619623B2 (ja) ボイスメッセージ処理システムおよび方法
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US5526407A (en) Method and apparatus for managing information
US7092496B1 (en) Method and apparatus for processing information signals based on content
US8091028B2 (en) Method and apparatus for annotating a line-based document
US6181351B1 (en) Synchronizing the moveable mouths of animated characters with recorded speech
US8150687B2 (en) Recognizing speech, and processing data
US8782536B2 (en) Image-based instant messaging system for providing expressions of emotions
US6173259B1 (en) Speech to text conversion
CN1148230A (zh) 卡拉ok计分的方法和系统
US20060271365A1 (en) Methods and apparatus for processing information signals based on content
CN1934848A (zh) 用于语音交互式消息传送的方法和设备
CN111813301B (zh) 内容播放方法、装置、电子设备及可读存储介质
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
EP0877378A2 (en) Method of and apparatus for editing audio or audio-visual recordings
WO2024108981A1 (zh) 视频剪辑方法及装置
JP3279684B2 (ja) 音声インタフェース・ビルダ・システム
Arons Authoring and transcription tools for speech-based hypermedia systems
US20050016364A1 (en) Information playback apparatus, information playback method, and computer readable medium therefor
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
JPH07272447A (ja) 音声データ編集システム
WO2023072172A1 (zh) 多媒体数据生成方法、装置、电子设备、介质及程序产品
JP3704968B2 (ja) マルチメディア編集装置
JPH07261779A (ja) 音節認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060308

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703