JP5387416B2 - 発話分割システム、発話分割方法および発話分割プログラム - Google Patents
発話分割システム、発話分割方法および発話分割プログラム Download PDFInfo
- Publication number
- JP5387416B2 JP5387416B2 JP2009554201A JP2009554201A JP5387416B2 JP 5387416 B2 JP5387416 B2 JP 5387416B2 JP 2009554201 A JP2009554201 A JP 2009554201A JP 2009554201 A JP2009554201 A JP 2009554201A JP 5387416 B2 JP5387416 B2 JP 5387416B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- division
- dividing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000012545 processing Methods 0.000 claims description 64
- 238000001514 detection method Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000003139 buffering effect Effects 0.000 description 42
- 238000000605 extraction Methods 0.000 description 20
- 230000000903 blocking effect Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 235000002597 Solanum melongena Nutrition 0.000 description 1
- 244000061458 Solanum melongena Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
本発明の目的は、各発話の関連性がより把握しやすい形態に容易に出力を整形できるよう、発話を適切な位置で分割することにある。
120、120A…発話分割手段
121…発話ブロック化手段
122…分割点尤度保持・更新手段
123…分割点尤度特徴量抽出手段
124…分割点決定手段
210…発話検出手段
220…発話ブロック化手段
230…発話バッファリング手段
240…分割点尤度特徴量抽出手段
250…分割点尤度更新手段
260…分割点決定手段
310…発話検出手段
320…発話ブロック化手段
330…音声認識手段
340…発話バッファリング手段
350…分割点尤度特徴量抽出手段
360…分割点尤度更新手段
370…分割点決定手段
410…音声入力デバイス
420…発話検出モジュール
430…音声認識モジュール
440…発話情報バッファ
450…単語アレイバッファ
460…分割点尤度更新モジュール
470…認識結果分割モジュール
480…認識結果整列モジュール
490…表示装置
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
Claims (10)
- 音声対話を形成する二人以上の話者各々の音声を、無音区間の長さに基づき音声区間を単位として分割して得られた発話と、各発話に関する時刻情報を含む発話情報とを保持する発話情報保持手段と、
前記発話情報保持手段で保持される発話を、発話情報を用いてさらに分割する発話分割手段と、を備え、
前記発話分割手段は、
各発話を、各発話と時間的にオーバーラップする他の発話に対応する発話情報に含まれる時刻情報を用いて分割することを特徴とする発話分割システム。 - 前記発話分割手段は、各発話の分割点を求める際に、
オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項1に記載の発話分割システム。 - 前記発話分割手段は、各発話の分割点を求める際に、
オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項1または2に記載の発話分割システム。 - 前記発話分割手段は、各発話の分割点を求める際に、
オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項1、2または3に記載の発話分割システム。 - 前記発話分割手段は、各発話の分割点を求める際に、
分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項1、2、3または4に記載の発話分割システム。 - 発話を入力とし、単語列または単語ラティスに変換する音声認識手段をさらに備え、
前記発話分割手段は、各発話の分割点を求める際に、
分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項1、2、3、4または5に記載の発話分割システム。 - 二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
音声を入力とし、発話ごとに切り出す発話検出手段と、
発話を入力とし、テキストに変換する音声認識処理手段と、
前記音声認識処理手段に入力される発話を分割する請求項1乃至6の何れか1項に記載の発話分割システムとを備えたことを特徴とする複数音声認識結果表示システム。 - 二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
音声を入力とし、発話ごとに切り出す発話検出手段と、
発話を入力とし、テキストに変換する音声認識処理手段と、
前記音声認識処理手段により認識された音声認識結果を分割する請求項1乃至6の何れか1項に記載の発話分割システムと、
該発話分割システムの分割結果を出力する出力手段と、
を備えたことを特徴とする複数音声認識結果表示システム。 - 発話分割手段が、音声対話を形成する二人以上の話者各々の音声を無音区間の長さに基づき音声区間を単位として分割して得られた発話を、各発話に関する時刻情報を含む発話情報を用いてさらに分割するステップを含み、
前記発話分割手段は、各発話を、各発話と時間的にオーバーラップする他の発話に対応する発話情報に含まれる時刻情報を用いて分割することを特徴とする発話分割方法。 - コンピュータを、
音声対話を形成する二人以上の話者各々の音声を無音区間の長さに基づき音声区間を単位として分割して得られた発話各々を、各発話と時間的にオーバーラップする他の発話に関する時刻情報を用いてさらに分割する発話分割手段として機能させるための発話分割プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009554201A JP5387416B2 (ja) | 2008-02-19 | 2008-12-16 | 発話分割システム、発話分割方法および発話分割プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008037200 | 2008-02-19 | ||
JP2008037200 | 2008-02-19 | ||
JP2009554201A JP5387416B2 (ja) | 2008-02-19 | 2008-12-16 | 発話分割システム、発話分割方法および発話分割プログラム |
PCT/JP2008/072851 WO2009104332A1 (ja) | 2008-02-19 | 2008-12-16 | 発話分割システム、発話分割方法および発話分割プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009104332A1 JPWO2009104332A1 (ja) | 2011-06-16 |
JP5387416B2 true JP5387416B2 (ja) | 2014-01-15 |
Family
ID=40985224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009554201A Active JP5387416B2 (ja) | 2008-02-19 | 2008-12-16 | 発話分割システム、発話分割方法および発話分割プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5387416B2 (ja) |
WO (1) | WO2009104332A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
JP7440353B2 (ja) | 2020-06-22 | 2024-02-28 | 賢次 亀山 | トラックの荷台構造 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011105003A1 (ja) * | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | 信号処理装置及び信号処理方法 |
EP2624252B1 (en) * | 2010-09-28 | 2015-03-18 | Panasonic Corporation | Speech processing device and speech processing method |
JP2014235263A (ja) * | 2013-05-31 | 2014-12-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
JP6296193B2 (ja) * | 2017-05-08 | 2018-03-20 | 富士通株式会社 | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム |
CN111145782B (zh) * | 2019-12-20 | 2021-07-13 | 深圳追一科技有限公司 | 重叠语音识别方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069292A (ja) * | 1996-08-29 | 1998-03-10 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 発話関係認識装置 |
JPH11136369A (ja) * | 1997-10-29 | 1999-05-21 | Ntt Software Corp | 多地点間接続音声制御装置 |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004309965A (ja) * | 2003-04-10 | 2004-11-04 | Advanced Media Inc | 会議録音・書き起こしシステム |
JP2005202035A (ja) * | 2004-01-14 | 2005-07-28 | Toshiba Corp | 対話情報分析装置 |
JP2005308950A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 音声処理装置および音声処理システム |
-
2008
- 2008-12-16 WO PCT/JP2008/072851 patent/WO2009104332A1/ja active Application Filing
- 2008-12-16 JP JP2009554201A patent/JP5387416B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069292A (ja) * | 1996-08-29 | 1998-03-10 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 発話関係認識装置 |
JPH11136369A (ja) * | 1997-10-29 | 1999-05-21 | Ntt Software Corp | 多地点間接続音声制御装置 |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004309965A (ja) * | 2003-04-10 | 2004-11-04 | Advanced Media Inc | 会議録音・書き起こしシステム |
JP2005202035A (ja) * | 2004-01-14 | 2005-07-28 | Toshiba Corp | 対話情報分析装置 |
JP2005308950A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 音声処理装置および音声処理システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
JP7440353B2 (ja) | 2020-06-22 | 2024-02-28 | 賢次 亀山 | トラックの荷台構造 |
Also Published As
Publication number | Publication date |
---|---|
WO2009104332A1 (ja) | 2009-08-27 |
JPWO2009104332A1 (ja) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5387416B2 (ja) | 発話分割システム、発話分割方法および発話分割プログラム | |
JP6171617B2 (ja) | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
TWI585745B (zh) | 用於在一數位助理中處理語音之方法,用於處理語音之電子器件,及用於處理語音之電腦可讀儲存媒體 | |
US9986394B1 (en) | Voice-based messaging | |
TWI697793B (zh) | 用於關鍵詞組識別的系統和方法 | |
KR20200023456A (ko) | 발언 분류기 | |
US11687526B1 (en) | Identifying user content | |
WO2022105861A1 (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
WO2010013371A1 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 | |
JP2008083376A (ja) | 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置 | |
US9940926B2 (en) | Rapid speech recognition adaptation using acoustic input | |
WO2014120291A1 (en) | System and method for improving voice communication over a network | |
EP4139816B1 (en) | Voice shortcut detection with speaker verification | |
US20170278511A1 (en) | Server-Side ASR Adaptation to Speaker, Device and Noise Condition Via Non-ASR Audio Transmission | |
JPWO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
WO2020198799A1 (en) | Instant messaging/chat system with translation capability | |
WO2014133525A1 (en) | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
EP2763136B1 (en) | Method and system for obtaining relevant information from a voice communication | |
CN114385800A (zh) | 语音对话方法和装置 | |
KR20220130739A (ko) | 스피치 인식 | |
JP2023524088A (ja) | エンドツーエンドの複数話者重複音声認識 | |
KR20180134482A (ko) | 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법 | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5387416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |