JP4827721B2 - 発話分割方法、装置およびプログラム - Google Patents
発話分割方法、装置およびプログラム Download PDFInfo
- Publication number
- JP4827721B2 JP4827721B2 JP2006350508A JP2006350508A JP4827721B2 JP 4827721 B2 JP4827721 B2 JP 4827721B2 JP 2006350508 A JP2006350508 A JP 2006350508A JP 2006350508 A JP2006350508 A JP 2006350508A JP 4827721 B2 JP4827721 B2 JP 4827721B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- grammar
- database
- word
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000012790 confirmation Methods 0.000 claims description 44
- 230000004044 response Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 7
- 239000000470 constituent Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また前記文法データベースが、定型句文法、確認応答文法、認識文法を含むようにしてもよい。さらに、前記定型句文法が、確認開始および終了定型句を含み、前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を有するようにしてもよい。
= それ?では(確認|復唱)させていただきます。
|ありがとうございました
確認応答文法: <確認応答>
= はい|ええ|そうです
認識文法: <確認内容>
= 商品番号 が? <NUMBER> の <PRODUCT_NAME>
| 為替ヘッジ は? (あり|なし)
| 口数 は <NUMBER> 口
<NUMBER> = (0|1|2|3|4|5|6|7|8|9)+
<PRODUCT_NAME> = IBMグローバルファンド |ITドリームファンド |ドル国際|・・・
商品番号 が? <NUMBER> の <PRODUCT_NAME>
為替ヘッジ は? (あり|なし)
口数 は <NUMBER> 口
認識結果の尤度にはさまざまなものが考えられるが、一つには出力単語列を条件としたとき、当該区間(ここでは(ts, p2))から、音響上の特徴量Xが出力される確率P(X|W)に基づき算出する。ここでWは単語列である。この値は認識部が音響特徴量の列と音響モデルを突き合わせる際、付随的に得ることができる。上記尤度や確信度については音声認識の分野では数多くの研究があり、確率値の算出方法には種々のバリエーションが考えられる。ステップ250の認識と尤度による分割区間判定は認識文法ではなく統計的言語モデルにより実施することも考えられる。その場合は書き起こした学習テキストから言語モデルを作成する際に、確認応答に対応した位置に文始端、終端記号を挟んで学習し、認識に使用する。この統計言語モデルを用いた場合の尤度の計算には音響上の特徴量Xが出力される確率P(X|W)に言語モデルの出力確率P(W)を掛けた、P(W)・P(X|W)を用いるようにしてもよい。
122 ポーズ検出部
124 確認応答検出部
126 境界候補抽出部
130 認識部
140 単語データベース
150 文法データベース
110 対話音声
160 単語列
500 CPU
501 情報処理装置
510 ホストコントローラ
520 コントローラ
530 ROM
540 RAM
545 ドライブ
550 通信インターフェイス
560 サウンドコントローラ
565 サウンド入出力装置
570 グラフィックコントローラ
575 表示装置
580 記憶装置
585 フレキシブルディスク
590 マルチコンボドライブ
595 メディア
Claims (8)
- 対話音声を発話単位に分割する装置であって、
単語の表記および発音を記憶した単語データベースと、
単語間の接続情報を含む文法を記憶した文法データベースと、
少なくとも2チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、
主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部
を有する、装置。 - 前記文法データベースが、定型句文法、確認応答文法、認識文法を含む、請求項1記載の装置。
- 前記定型句文法が、確認開始および終了定型句を含み、
前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、
前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を
さらに有する、請求項2記載の装置。 - 前記認識部が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する、
請求項1記載の装置。 - 複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割する方法であって、
主発話を行っているチャネルのポーズの位置を検出する段階と、
主発話を行っていないチャネルの確認応答の位置を検出する段階と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する段階と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する段階
を有する、方法。 - 前記単語列を出力する段階が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する段階である、
請求項5記載の方法。 - 複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割するためのプログラムであって、該プログラムがコンピュータに、
主発話を行っているチャネルのポーズの位置を検出する機能と、
主発話を行っていないチャネルの確認応答の位置を検出する機能と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する機能と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する機能
を実現させる、プログラム。 - 前記単語列を出力する機能が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する機能である、
請求項7記載のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006350508A JP4827721B2 (ja) | 2006-12-26 | 2006-12-26 | 発話分割方法、装置およびプログラム |
CN2007101927537A CN101211559B (zh) | 2006-12-26 | 2007-11-16 | 用于拆分语音的方法和设备 |
US11/964,051 US8793132B2 (en) | 2006-12-26 | 2007-12-26 | Method for segmenting utterances by using partner's response |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006350508A JP4827721B2 (ja) | 2006-12-26 | 2006-12-26 | 発話分割方法、装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008164647A JP2008164647A (ja) | 2008-07-17 |
JP4827721B2 true JP4827721B2 (ja) | 2011-11-30 |
Family
ID=39544161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006350508A Expired - Fee Related JP4827721B2 (ja) | 2006-12-26 | 2006-12-26 | 発話分割方法、装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8793132B2 (ja) |
JP (1) | JP4827721B2 (ja) |
CN (1) | CN101211559B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047203A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US10832005B1 (en) | 2013-11-21 | 2020-11-10 | Soundhound, Inc. | Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN106940998B (zh) * | 2015-12-31 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
US10037360B2 (en) | 2016-06-20 | 2018-07-31 | Rovi Guides, Inc. | Approximate template matching for natural language queries |
US10249292B2 (en) * | 2016-12-14 | 2019-04-02 | International Business Machines Corporation | Using long short-term memory recurrent neural network for speaker diarization segmentation |
US10546575B2 (en) | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
US10510346B2 (en) * | 2017-11-09 | 2019-12-17 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable storage device for generating notes for a meeting based on participant actions and machine learning |
US10636421B2 (en) | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
CN109002454B (zh) * | 2018-04-28 | 2022-05-27 | 陈逸天 | 一种确定目标单词的拼读分区的方法和电子设备 |
US11410658B1 (en) * | 2019-10-29 | 2022-08-09 | Dialpad, Inc. | Maintainable and scalable pipeline for automatic speech recognition language modeling |
US11314790B2 (en) * | 2019-11-18 | 2022-04-26 | Salesforce.Com, Inc. | Dynamic field value recommendation methods and systems |
KR102208387B1 (ko) * | 2020-03-10 | 2021-01-28 | 주식회사 엘솔루 | 음성 대화 재구성 방법 및 장치 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
JP3350293B2 (ja) * | 1994-08-09 | 2002-11-25 | 株式会社東芝 | 対話処理装置及び対話処理方法 |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US6694055B2 (en) * | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
GB9930731D0 (en) * | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
JP3896760B2 (ja) * | 2000-03-28 | 2007-03-22 | 富士ゼロックス株式会社 | 対話記録編集装置、方法及び記憶媒体 |
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
JP3581881B2 (ja) * | 2000-07-13 | 2004-10-27 | 独立行政法人産業技術総合研究所 | 音声補完方法、装置および記録媒体 |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6885987B2 (en) * | 2001-02-09 | 2005-04-26 | Fastmobile, Inc. | Method and apparatus for encoding and decoding pause information |
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
US7313526B2 (en) * | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
JP2003241797A (ja) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | 音声対話システム |
US7076430B1 (en) * | 2002-05-16 | 2006-07-11 | At&T Corp. | System and method of providing conversational visual prosody for talking heads |
EP1376999A1 (en) * | 2002-06-21 | 2004-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Spoken alpha-numeric sequence entry system with repair mode |
US7337115B2 (en) * | 2002-07-03 | 2008-02-26 | Verizon Corporate Services Group Inc. | Systems and methods for providing acoustic classification |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US7373300B1 (en) * | 2002-12-18 | 2008-05-13 | At&T Corp. | System and method of providing a spoken dialog interface to a website |
US7243071B1 (en) * | 2003-01-16 | 2007-07-10 | Comverse, Inc. | Speech-recognition grammar analysis |
US20040193400A1 (en) * | 2003-03-24 | 2004-09-30 | Mcdonald David D. | Method and system for producing cohesive phrases from fixed phrases in a natural language system |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
US7493251B2 (en) * | 2003-05-30 | 2009-02-17 | Microsoft Corporation | Using source-channel models for word segmentation |
US20050027523A1 (en) * | 2003-07-31 | 2005-02-03 | Prakairut Tarlton | Spoken language system |
KR100577387B1 (ko) * | 2003-08-06 | 2006-05-10 | 삼성전자주식회사 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
JP2005072896A (ja) * | 2003-08-22 | 2005-03-17 | Fujitsu Ltd | 音声記録装置 |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
JP4509590B2 (ja) * | 2004-02-05 | 2010-07-21 | トッパン・フォームズ株式会社 | 音声認識システムおよびそのプログラム |
JP3827704B1 (ja) | 2005-03-30 | 2006-09-27 | 三菱電機インフォメーションシステムズ株式会社 | オペレータ業務支援システム |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US7680647B2 (en) * | 2005-06-21 | 2010-03-16 | Microsoft Corporation | Association-based bilingual word alignment |
US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
CN1731804A (zh) * | 2005-08-23 | 2006-02-08 | 黄保国 | 一种电话语音搜索的方法 |
US20070067172A1 (en) * | 2005-09-22 | 2007-03-22 | Minkyu Lee | Method and apparatus for performing conversational opinion tests using an automated agent |
JP2007232829A (ja) * | 2006-02-28 | 2007-09-13 | Murata Mach Ltd | 音声対話装置とその方法及びプログラム |
TW200841189A (en) * | 2006-12-27 | 2008-10-16 | Ibm | Technique for accurately detecting system failure |
-
2006
- 2006-12-26 JP JP2006350508A patent/JP4827721B2/ja not_active Expired - Fee Related
-
2007
- 2007-11-16 CN CN2007101927537A patent/CN101211559B/zh not_active Expired - Fee Related
- 2007-12-26 US US11/964,051 patent/US8793132B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047203A (zh) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及终端 |
CN105047203B (zh) * | 2015-05-25 | 2019-09-10 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
US8793132B2 (en) | 2014-07-29 |
US20080154594A1 (en) | 2008-06-26 |
CN101211559B (zh) | 2011-07-06 |
JP2008164647A (ja) | 2008-07-17 |
CN101211559A (zh) | 2008-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4827721B2 (ja) | 発話分割方法、装置およびプログラム | |
US10950242B2 (en) | System and method of diarization and labeling of audio data | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US20080215325A1 (en) | Technique for accurately detecting system failure | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US10432789B2 (en) | Classification of transcripts by sentiment | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
US7143033B2 (en) | Automatic multi-language phonetic transcribing system | |
US11545139B2 (en) | System and method for determining the compliance of agent scripts | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US8060365B2 (en) | Dialog processing system, dialog processing method and computer program | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
CN110895938A (zh) | 语音校正系统及语音校正方法 | |
JP2001067096A (ja) | 音声認識結果評価装置および記録媒体 | |
JP2006113269A (ja) | 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110413 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110418 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110518 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110830 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110913 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |