JP4827721B2 - 発話分割方法、装置およびプログラム - Google Patents

発話分割方法、装置およびプログラム Download PDF

Info

Publication number
JP4827721B2
JP4827721B2 JP2006350508A JP2006350508A JP4827721B2 JP 4827721 B2 JP4827721 B2 JP 4827721B2 JP 2006350508 A JP2006350508 A JP 2006350508A JP 2006350508 A JP2006350508 A JP 2006350508A JP 4827721 B2 JP4827721 B2 JP 4827721B2
Authority
JP
Japan
Prior art keywords
utterance
grammar
database
word
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006350508A
Other languages
English (en)
Other versions
JP2008164647A (ja
Inventor
伸泰 伊東
岳人 倉田
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Priority to JP2006350508A priority Critical patent/JP4827721B2/ja
Priority to CN2007101927537A priority patent/CN101211559B/zh
Priority to US11/964,051 priority patent/US8793132B2/en
Publication of JP2008164647A publication Critical patent/JP2008164647A/ja
Application granted granted Critical
Publication of JP4827721B2 publication Critical patent/JP4827721B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、発話を分割する方法に関し、特に確認応答を用いて発話を分割する方法に関する。
オペレータ業務支援システムなどにおける通話内容の書き起こし作業では、オペレータの音声と顧客の音声とに分離して記録し、テキストデータに変換する作業を行う。従来は録音した音声の検索を効率的に行うために、商品名など予め指定されたキーワードが話された位置を記録し、そのタイムスタンプを索引として利用する。キーワードの位置は音声認識等を用いて特定し、対応する音声部分を再生して書き起こし作業を行っていた。しかしながらこのような方法では、顧客の音声、特に確認応答の情報をうまく利用していないために発話内容について精度よく情報抽出が行えなかった。すなわち従来の方法では、発話単位が適切な単位に分割されないために、音声ストリームから精度よく発話を認識および解析することが難しかった。
特開2006−276754
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、確認応答を用いて対話音声を発話単位に分割することである。また他の目的は、音声ストリームから精度よく発話を認識することである。
かかる目的のもと、本発明は、対話音声を発話単位に分割する装置であって、単語の表記および発音を記憶した単語データベースと、単語間の接続情報を含む文法を記憶した文法データベースと、少なくとも2チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、前記確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部を有するように構成する。
また前記文法データベースが、定型句文法、確認応答文法、認識文法を含むようにしてもよい。さらに、前記定型句文法が、確認開始および終了定型句を含み、前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を有するようにしてもよい。
別の態様として、複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割する方法であって、主発話を行っているチャネルのポーズの位置を検出する段階と、主発話を行っていないチャネルの確認応答の位置を検出する段階と、前記確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、前記主発話の境界候補を抽出する段階と、抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する段階を有するようにする。
本発明によれば、音声ストリームが確認応答とポーズ位置を組み合わせた情報を元に適切な発話単位に分割され、発話の認識、解析の精度が向上する
図1は本発明の発話音声を発話単位に分割する装置である。装置は大きく境界抽出部120と認識部130に分かれる。境界抽出部はさらにポーズ検出部122、確認応答検出部124、境界候補抽出部126に分かれる。境界抽出部120、認識部130ともに本発明の処理に際し、単語の表記およびそれに対応する発音が記述された単語データベース140、および単語間の接続情報を記述した文法データベース150を参照する。単語データベース140の発音は音素単位で記述される。各音素は望ましくはどのような統計的性質をもった信号であるかを音響モデルで記述されており、これにより対話音声がどの単語であるかを判断することができる。文法データベース150には定型句文法、確認応答文法、認識文法を含む。文法とは定型のパターンに合致するかどうかを判定するためのルールである。これらの文法例をBNFに準じた記法で以下に示す。
定型句文法: <確認開始、終了定型句>
= それ?では(確認|復唱)させていただきます。
|ありがとうございました
確認応答文法: <確認応答>
= はい|ええ|そうです
認識文法: <確認内容>
= 商品番号 が? <NUMBER> の <PRODUCT_NAME>
| 為替ヘッジ は? (あり|なし)
| 口数 は <NUMBER> 口
<NUMBER> = (0|1|2|3|4|5|6|7|8|9)+
<PRODUCT_NAME> = IBMグローバルファンド |ITドリームファンド |ドル国際|・・・
なお確認応答とは、話者の内容に呼応して確認を行う応答である。典型的には話者交代を行わずに相手に対して短い応答を返す相槌がそれに該当する。従来技術ではこのような確認応答は発話の分割および認識に際して積極的に用いられずむしろ捨てる対象となっていた。上記確認応答文法には例示として3つの確認応答が登録されている。他の確認応答も適宜追加可能である。
境界抽出部120には連続した対話音声110、すなわち音声ストリームが各話者に対応した複数チャネルに分かれて入力される。境界抽出部120では以下に説明する本発明の方法により、主たる発話を行っているチャネルの音声データと主発話を発話単位に分割するための境界候補が認識部に渡される。境界候補の渡し方は音声ストリームの始点を基点とした場合の時刻とする。認識部では渡された音声データおよび上記境界候補を元に認識文法と辞書を参照しながら認識を実施し、最適と考えられる分割点(列)と分割された各単位に対応する認識結果である所の単語列160を出力する。単語列は例えば、区間1はXXXX、区間2はYYYYなどのように区間と認識内容の構成を取る。単語列160は好ましくは使用目的にしたがってさらに文理解部等に渡される。文理解部については本発明とは独立した処理であるため説明は省略する。
図2および図3を用いて、本発明の処理の詳細を説明する。ある商品取引における2チャネルの対話音声が音声ストリームとして入力された場合について説明する。図2には本発明の処理のフローチャートを図示し、図3には図2の各ステップに対応したより具体的な処理を音声波形のデータを用いて図示している。音声波形は分かり易さのために波形の頂点を結んだ台形で描いている。図3は主発話が「では復唱させていただきます。商品番号275のIBMファンド20口、為替ヘッジなし。ありがとうございました。」の場合について説明している。図3のC1、C2はチャネルを表し、C2が話者の音声波形であり、C1が発話を聞いて確認応答を返す聞き手の音声波形である。ここでの目的は主発話(話者の発話)についてそれとは異なるチャネルの確認応答を用いて適切に認識、理解することであり、以下のステップに従って処理が実行される。
ステップ210で定型句文法と主発話に対応するチャネルの音声を突き合わせることにより、認識対象とすべき発話区間の時刻 (ts, te) が記録される。この処理は図3の310に相当する。定型句文法ではひとかたまりの発話群の始端および終端に現れるさまざまな定型句を登録しておく。商品取引の確認の定型句では、開始として「では復唱させていただきます」や終了として「ありがとうございました」がその典型例である。この確認開始、終了についての定型句については適用分野に依存して決まるものであり、上記に限らない。またこのような定型句の発話場所同定(スポッティングとも呼ばれる)においては対象となる定型句以外にマッチするガベージ文法(モデル)を併用することが多く行われるが、当分野ではよく知られているためここでは説明を省略する。また全発話が認識対象である場合にはこのステップは行われず、(ts, te) = (0,コール終了時) となる。
ステップ220〜250は発話の境界(分割位置)を抽出する境界抽出部120における処理である。境界抽出部120では入力された対話音声について、主発話を行っているチャネルのポーズの位置と、主発話を行っていないチャネルの確認応答の位置を検出し、確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、発話の境界(分割位置)の候補を抽出する。
より詳細には、ステップ220でポーズ検出部がC2の認識対象区間についてポーズの位置を検出する。この処理は図3の320に相当する。この検出は通常音声のパワーや、あらかじめ学習した無音の音素モデルと突き合わせることによって行わる。ここで抽出するポーズは境界候補であり、最終的な境界の決定は確認応答の位置および文法とつき合わせたときの尤度と組み合わせることにより行われるので、抽出した位置の内何個が本当に文やフレーズ境界に該当するポーズであったかという精度、つまり一致率(precision)よりも検出すべきポーズの内、何個を正しく検出できたかという再現率(recall)を重視することが望ましい。ここでは合計5個のポーズ候補(p1,…,p5)が検出されている。
ステップ230で確認応答検出部が応答側(聞き手)であるチャネルC1の認識対象区間について、確認応答文法と突き合わせることにより、確認応答の位置を検出する。確認応答文法には確認のため発する表現、例えば「はい」「ええ」といった単語またはフレーズを登録する。この処理は図3の330に相当する。ここでは3個の確認応答(r1,…,r3)が抽出されている。
ステップ240以下の処理でポーズの位置と確認応答の位置を元に認識対象区間を分割しつつ、認識を行う。この処理は図3の340に相当する。最初の分割位置始端を ts とする。そしてこの始端から音声を走査したとき一番最初に検出された確認応答の位置 (r1) を基点として一定区間(r1-ΔTa, r1+ΔTb) 内に存在するポーズを抽出する。これが分割位置終端となる境界候補である。ここでは p1, p2, p3 が抽出される。Ta、Tbは対象とする分割終端と確認応答のずれの許容度によって決められるもので、通常500msecから1,000mcに設定する。
ステップ250で認識部130が分割位置始端とステップ240で抽出された境界候補に挟まれた区間について認識を行い、最も高い尤度を持つ区間を発話単位として認識し、単語列を出力する。この処理は図3の350に相当する。抽出された境界候補を分割位置終端として、挟まれた区間、つまり区間A、区間B、区間Cについて認識文法と突き合わせることにより認識を実施し、認識結果と同時にその尤度が計算される。尤度は音声区間の長さに応じて適時正規化、比較され、もっとも高い尤度をもつ区間が分割位置終端として決定し、認識結果(単語列)とともに、部分区間の結果として認識部から出力される。この場合、尤度が7.8と最も高い区間Bが決定される。認識文法は分割した発話単位で出現するフレーズを記述したもので、例えば以下の定型のパターンが来た場合に認識が成功する。
商品番号 が? <NUMBER> の <PRODUCT_NAME>
為替ヘッジ は? (あり|なし)
口数 は <NUMBER> 口
認識結果の尤度にはさまざまなものが考えられるが、一つには出力単語列を条件としたとき、当該区間(ここでは(ts, p2))から、音響上の特徴量Xが出力される確率P(X|W)に基づき算出する。ここでWは単語列である。この値は認識部が音響特徴量の列と音響モデルを突き合わせる際、付随的に得ることができる。上記尤度や確信度については音声認識の分野では数多くの研究があり、確率値の算出方法には種々のバリエーションが考えられる。ステップ250の認識と尤度による分割区間判定は認識文法ではなく統計的言語モデルにより実施することも考えられる。その場合は書き起こした学習テキストから言語モデルを作成する際に、確認応答に対応した位置に文始端、終端記号を挟んで学習し、認識に使用する。この統計言語モデルを用いた場合の尤度の計算には音響上の特徴量Xが出力される確率P(X|W)に言語モデルの出力確率P(W)を掛けた、P(W)・P(X|W)を用いるようにしてもよい。
ステップ255で認識対象区間が終了したか判断し、終了の場合には処理は終了する。そうでない場合には処理はステップ260に進む。
ステップ260では分割位置始端をステップ250で決定した分割位置終端、すなわち区間Bの右端である p2 に変更し、ステップ240〜ステップ260を認識対象区間が終了するまで繰り返す。この処理は図3の360に相当する。
図4に、従来技術と本発明の分割および認識結果の相違を示す。従来技術として全認識対象区間を1つの連続した発話として認識し認識文法のみで自動分割を行う方法を取り上げる。410が従来技術の分割および認識結果である。音声ストリームである、「では注文復唱させていただきます、間違いがないかご一緒に確認をお願いいたします。」から「はい、では入力いたしました。」に至る音声ストリームの多くについて分割および認識が失敗している。一方、本発明による分割および認識結果である420においては主発話の発話区間が正しく分割および認識されている。なお上記入力の読点、句点は字面としての見易さのために挿入しているものである。
次に本発明のハードウェア構成例を説明する。もちろん図1における各ブロックを専用のハードウェアで構成してもよいが、一般的な情報処理装置でも同様に実施可能である。図5に本発明の装置としても用いることできる情報処理装置のハードウェア構成例を示す。コンピュータ501は、ホストコントローラ510により相互に接続されるCPU500、RAM540、ROM530及びI/Oコントローラ520を有するCPU周辺部と、I/Oコントローラ520により接続される通信インターフェイス550、ハードディスクドライブ580、及びCD/DVD等の円盤型メディア595を読み書きできるマルチコンボドライブ590、フレキシブルディスク585を読み書きできるFDドライブ545、サウンド入出力装置565を駆動するサウンドコントローラ560、表示装置575を駆動するグラフィックコントローラ570を備える。
CPU500は、ROM530、BIOS及びRAM540に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ570は、CPU500等がRAM540内に設けたバッファ上に生成する画像データを取得し、表示装置575上に表示させる。もしくはグラフィックコントローラ570はCPU500等が生成する画像データを格納するバッファをその内部に含んでもよい。より具体的にはサウンド入出力565から複数チャネルで音声ストリームが入力され、I/Oコントローラ520を経て記憶装置580に記憶される。記憶装置580には単語データベース140、文法データベース150が記憶されており、入力され記憶された複数チャネルの対話音声とこれら辞書を用いて主発話がCPU500の演算処理により適切に分割および認識される。この演算処理は記憶装置580から本発明の分割、認識を行うためのプログラムをメモリ540にロードし、これを実行して行われる。発話の分割および単語列の出力結果は表示装置575に表示される。
通信インターフェイス550は、ネットワークを介して外部の通信機器と通信する。情報処理装置501が通信インターフェイス550を通して外部の対話音声を受け取り情報処理装置501において分割および認識を行い、その結果を通信インターフェイス550を通して外部の情報処理装置に送信することも可能である。なおネットワークは有線、無線、赤外線、BLUETOOTH等の近距離無線で接続しても本願の構成を何ら変更することなく利用可能である。記憶装置580は、コンピュータ501が使用する本発明のプログラム、アプリケーション、OS等のコード及びデータを格納する。マルチコンボドライブ590は、CD/DVD等のメディア595からプログラム又はデータを読み取り、これら記憶装置580から読み取られたプログラム、データはRAM540にロードされCPU500により利用される。本発明のプログラムおよび辞書は外部記憶メディアから供給されてもよい。
外部記憶メディアとしては、フレキシブルディスク585、CD−ROMの他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを取り込んでもよい。上記の構成の一例から理解されるように、本発明に必要なハードウェアは通常のコンピュータ機能を有するものは如何なるものでも利用可能である。例えばモバイル端末、携帯端末、家電機器でも何らの支障なく利用可能である。なお図5は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。上記の構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
本発明に好適な情報処理装置501は、マイクロソフト・コーポレーションが提供するWindows(R)オペレーティング・システム、アップル・コンピュータ・インコーポレイテッドが提供するMacOS(R)、X Window Systemを備えるUNIX(R)系システム(たとえば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するAIX(R))のような、GUI(グラフィカル・ユーザー・インターフェース)マルチウインドウ環境をサポートするオペレーティング・システムが動作する。また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。
発話音声を発話単位に分割する装置である。 本発明の処理のフローチャートである。 各処理の具体的を示した図である。 従来技術と本発明の分割および認識結果の相違を示す図である。 本発明を実施可能なハードウェア構成例である。
符号の説明
120 境界抽出部
122 ポーズ検出部
124 確認応答検出部
126 境界候補抽出部
130 認識部
140 単語データベース
150 文法データベース
110 対話音声
160 単語列
500 CPU
501 情報処理装置
510 ホストコントローラ
520 コントローラ
530 ROM
540 RAM
545 ドライブ
550 通信インターフェイス
560 サウンドコントローラ
565 サウンド入出力装置
570 グラフィックコントローラ
575 表示装置
580 記憶装置
585 フレキシブルディスク
590 マルチコンボドライブ
595 メディア

Claims (8)

  1. 対話音声を発話単位に分割する装置であって、
    単語の表記および発音を記憶した単語データベースと、
    単語間の接続情報を含む文法を記憶した文法データベースと、
    少なくとも2チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、
    主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、
    前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、
    抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部
    を有する、装置。
  2. 前記文法データベースが、定型句文法、確認応答文法、認識文法を含む、請求項1記載の装置。
  3. 前記定型句文法が、確認開始および終了定型句を含み、
    前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、
    前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を
    さらに有する、請求項2記載の装置。
  4. 前記認識部が、
    前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する、
    請求項1記載の装置。
  5. 複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割する方法であって、
    主発話を行っているチャネルのポーズの位置を検出する段階と、
    主発話を行っていないチャネルの確認応答の位置を検出する段階と、
    前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する段階と、
    抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する段階
    を有する、方法。
  6. 前記単語列を出力する段階が、
    前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する段階である、
    請求項記載の方法。
  7. 複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割するためのプログラムであって、該プログラムがコンピュータに、
    主発話を行っているチャネルのポーズの位置を検出する機能と、
    主発話を行っていないチャネルの確認応答の位置を検出する機能と、
    前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する機能と、
    抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する機能
    を実現させる、プログラム。
  8. 前記単語列を出力する機能が、
    前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する機能である、
    請求項7記載のプログラム。
JP2006350508A 2006-12-26 2006-12-26 発話分割方法、装置およびプログラム Expired - Fee Related JP4827721B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006350508A JP4827721B2 (ja) 2006-12-26 2006-12-26 発話分割方法、装置およびプログラム
CN2007101927537A CN101211559B (zh) 2006-12-26 2007-11-16 用于拆分语音的方法和设备
US11/964,051 US8793132B2 (en) 2006-12-26 2007-12-26 Method for segmenting utterances by using partner's response

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006350508A JP4827721B2 (ja) 2006-12-26 2006-12-26 発話分割方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008164647A JP2008164647A (ja) 2008-07-17
JP4827721B2 true JP4827721B2 (ja) 2011-11-30

Family

ID=39544161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006350508A Expired - Fee Related JP4827721B2 (ja) 2006-12-26 2006-12-26 発話分割方法、装置およびプログラム

Country Status (3)

Country Link
US (1) US8793132B2 (ja)
JP (1) JP4827721B2 (ja)
CN (1) CN101211559B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047203A (zh) * 2015-05-25 2015-11-11 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
US10037360B2 (en) 2016-06-20 2018-07-31 Rovi Guides, Inc. Approximate template matching for natural language queries
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
US10546575B2 (en) 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10510346B2 (en) * 2017-11-09 2019-12-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable storage device for generating notes for a meeting based on participant actions and machine learning
US10636421B2 (en) 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
CN109002454B (zh) * 2018-04-28 2022-05-27 陈逸天 一种确定目标单词的拼读分区的方法和电子设备
US11410658B1 (en) * 2019-10-29 2022-08-09 Dialpad, Inc. Maintainable and scalable pipeline for automatic speech recognition language modeling
US11314790B2 (en) * 2019-11-18 2022-04-26 Salesforce.Com, Inc. Dynamic field value recommendation methods and systems
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
JP3350293B2 (ja) * 1994-08-09 2002-11-25 株式会社東芝 対話処理装置及び対話処理方法
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
JP3896760B2 (ja) * 2000-03-28 2007-03-22 富士ゼロックス株式会社 対話記録編集装置、方法及び記憶媒体
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6885987B2 (en) * 2001-02-09 2005-04-26 Fastmobile, Inc. Method and apparatus for encoding and decoding pause information
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
US7337115B2 (en) * 2002-07-03 2008-02-26 Verizon Corporate Services Group Inc. Systems and methods for providing acoustic classification
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US7373300B1 (en) * 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US7243071B1 (en) * 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
US20040193400A1 (en) * 2003-03-24 2004-09-30 Mcdonald David D. Method and system for producing cohesive phrases from fixed phrases in a natural language system
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
JP2005072896A (ja) * 2003-08-22 2005-03-17 Fujitsu Ltd 音声記録装置
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
JP4509590B2 (ja) * 2004-02-05 2010-07-21 トッパン・フォームズ株式会社 音声認識システムおよびそのプログラム
JP3827704B1 (ja) 2005-03-30 2006-09-27 三菱電機インフォメーションシステムズ株式会社 オペレータ業務支援システム
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
CN1731804A (zh) * 2005-08-23 2006-02-08 黄保国 一种电话语音搜索的方法
US20070067172A1 (en) * 2005-09-22 2007-03-22 Minkyu Lee Method and apparatus for performing conversational opinion tests using an automated agent
JP2007232829A (ja) * 2006-02-28 2007-09-13 Murata Mach Ltd 音声対話装置とその方法及びプログラム
TW200841189A (en) * 2006-12-27 2008-10-16 Ibm Technique for accurately detecting system failure

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047203A (zh) * 2015-05-25 2015-11-11 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端

Also Published As

Publication number Publication date
US8793132B2 (en) 2014-07-29
US20080154594A1 (en) 2008-06-26
CN101211559B (zh) 2011-07-06
JP2008164647A (ja) 2008-07-17
CN101211559A (zh) 2008-07-02

Similar Documents

Publication Publication Date Title
JP4827721B2 (ja) 発話分割方法、装置およびプログラム
US10950242B2 (en) System and method of diarization and labeling of audio data
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20080215325A1 (en) Technique for accurately detecting system failure
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US10432789B2 (en) Classification of transcripts by sentiment
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6801897B2 (en) Method of providing concise forms of natural commands
US7143033B2 (en) Automatic multi-language phonetic transcribing system
US11545139B2 (en) System and method for determining the compliance of agent scripts
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US8060365B2 (en) Dialog processing system, dialog processing method and computer program
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
CN110895938A (zh) 语音校正系统及语音校正方法
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JP2006113269A (ja) 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110413

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110418

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110518

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees