JP2018045208A - 会議支援システム、会議支援方法及びプログラム - Google Patents
会議支援システム、会議支援方法及びプログラム Download PDFInfo
- Publication number
- JP2018045208A JP2018045208A JP2016182175A JP2016182175A JP2018045208A JP 2018045208 A JP2018045208 A JP 2018045208A JP 2016182175 A JP2016182175 A JP 2016182175A JP 2016182175 A JP2016182175 A JP 2016182175A JP 2018045208 A JP2018045208 A JP 2018045208A
- Authority
- JP
- Japan
- Prior art keywords
- data
- utterance
- subtitle
- control unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Abstract
Description
はじめに、第1実施形態の会議支援システムの装置構成の例について説明する。
図1は第1実施形態の会議支援システム100の装置構成の例を示す図である。第1実施形態の会議支援システム100は、マイク10a〜10c、クライアント装置20a〜20c、音声認識サーバ装置30及び会議支援サーバ装置40を備える。
図2は第1実施形態の会議支援システム100の機能構成の例を示す図である。第1実施形態の会議支援システム100は、記憶部101、取得部102、認識部103、分類部104、第1の字幕制御部105、第2の字幕制御部106及び表示制御部107を備える。
図3は第1実施形態の音声認識データ及び分類データの例を示す図である。第1実施形態の音声認識データは、取得順、話者ID、発話開始時刻、テキストデータ及び認識状態を含む。また第1実施形態の分類データは、分類(第1の発話または第2の発話)を含む。
図4Aは第1実施形態の表示データの例1を示す図である。図4Bは、図4Aの表示データを表すHTMLタグの例を示す図である。
次に第1実施形態の会議支援方法の詳細について、フローチャートを参照して説明する。
図16は第1実施形態の分類方法の例1を示すフローチャートである。図16のフローチャートは、上述の音声データを使用して、上述のテキストデータを分類する場合を示す。
図17は第1実施形態の分類方法の例2を示すフローチャートである。図17のフローチャートは、上述の音声認識データを使用して、上述のテキストデータを分類する場合を示す。
図18は第1実施形態の第1の発話データの処理方法の例を示すフローチャートである。はじめに、第1の字幕制御部105が、分類部104から、処理対象の第1の発話データを受け付ける(ステップS61)。次に、第1の字幕制御部105は、該話者の未確定状態の第1の字幕データが存在するか否かを判定する(ステップS62)。
図19は第1実施形態の第2の発話データの処理方法の例を示すフローチャートである。はじめに、第2の字幕制御部106が、分類部104から、処理対象の第2の発話データを受け付ける(ステップS81)。次に、第2の字幕制御部106は、ステップS81の処理で受け付けた第2の発話データの認識状態が確定であるか否かを判定する(ステップS82)。
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
図20は第2実施形態の会議支援システム100の装置構成の例を示す図である。第2実施形態の会議支援システム100は、マイク10a〜10c、クライアント装置20、音声認識サーバ装置30、会議支援サーバ装置40及びミキサー50を備える。すなわち第2の実施形態では、ミキサー50が追加され、クライアント装置20が1つになっている点が、第1実施形態とは異なる。
図21は第2実施形態の会議支援システム100の機能構成の例を示す図である。第2実施形態の会議支援システム100は、記憶部101、取得部102、認識部103、分類部104、第1の字幕制御部105、第2の字幕制御部106、表示制御部107及び識別部108を備える。すなわち第2実施形態では、第1実施形態の機能構成に識別部108が更に追加されている点が、第1実施形態とは異なる。
図22は第1及び第2実施形態のクライアント装置20、音声認識サーバ装置30及び会議支援サーバ装置40のハードウェア構成の例を示す図である。第1及び第2実施形態のクライアント装置20、音声認識サーバ装置30及び会議支援サーバ装置40は、制御装置401、主記憶装置402、補助記憶装置403、表示装置404、入力装置405及び通信装置406を備える。制御装置401、主記憶装置402、補助記憶装置403、表示装置404、入力装置405及び通信装置406は、バス410を介して接続されている。
20 クライアント装置
30 音声認識サーバ装置
40 会議支援サーバ装置
50 ミキサー
100 会議支援システム
101 記憶部
102 取得部
103 認識部
104 分類部
105 第1の字幕制御部
106 第2の字幕制御部
107 表示制御部
108 識別部
200 ネットワーク
401 制御装置
402 主記憶装置
403 補助記憶装置
404 表示装置
405 入力装置
406 通信装置
410 バス
Claims (11)
- 音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識する認識部と、
前記テキストデータを、主要な発話を示す第1の発話データと、主要な発話以外を示す第2の発話データと、に分類する分類部と、
前記第1の発話データに対応する第1の音声区間の識別の終了を待たずに、前記第1の発話データを表示する第1の字幕データを生成する第1の字幕制御部と、
前記第2の発話データに対応する第2の音声区間の識別が終了してから、前記第2の発話データを表示する第2の字幕データを生成する第2の字幕制御部と、
前記第1の字幕データ及び前記第2の字幕データの表示を制御する表示制御部と、
を備える会議支援システム。 - 前記表示制御部は、前記第1の字幕データを第1の表示形式により表示し、前記第2の字幕データを第2の表示形式により表示する、
請求項1に記載の会議支援システム。 - 前記分類部は、前記音声データの平均パワーが第1の閾値以上であり、かつ、前記第1の音声区間の長さが第2の閾値以上である場合、前記テキストデータを第1の発話データに分類する、
請求項1に記載の会議支援システム。 - 前記分類部は、前記音声データの平均パワーが第1の閾値以上であり、かつ、前記第1の音声区間の長さが第2の閾値以上であり、かつ、前記第1の音声区間に含まれる音声の特徴を示す特徴量と、過去に発話された第1の発話データの発話者の特徴を示す特徴量の平均と、の差が、第3の閾値以下である場合、前記テキストデータを第1の発話データに分類する、
請求項1に記載の会議支援システム。 - 前記分類部は、前記テキストデータに含まれる文字の数が第4の閾値以下の場合、前記テキストデータを前記第2の発話データに分類する、
請求項1に記載の会議支援システム。 - 前記分類部は、前記テキストデータが、所定の相槌を示す相槌パターンデータに一致する場合、前記テキストデータを前記第2の発話データに分類する、
請求項1に記載の会議支援システム。 - 前記分類部は、前記テキストデータの形態素解析結果、または構文解析結果が所定の解析パターンに一致する場合、前記テキストデータを前記第2の発話データに分類する、
請求項1に記載の会議支援システム。 - 前記第1の字幕制御部は、前記第1の字幕データを発話者毎に生成し、
前記第2の字幕制御部は、前記第2の字幕データを発話者毎に生成しない、
請求項1に記載の会議支援システム。 - 前記第1の字幕制御部は、前記第1の字幕データを、HTML(HyperText Markup Language)タグを使用して生成し、
前記第2の字幕制御部は、前記第2の字幕データを、HTMLタグを使用して生成し、
前記表示制御部は、ウェブブラウザである、
請求項1に記載の会議支援システム。 - 音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識するステップと、
前記テキストデータを、主要な発話を示す第1の発話データと、主要な発話以外を示す第2の発話データと、に分類するステップと、
前記第1の発話データに対応する第1の音声区間の識別の終了を待たずに、前記第1の発話データを表示する第1の字幕データを生成するステップと、
前記第2の発話データに対応する第2の音声区間の識別が終了してから、前記第2の発話データを表示する第2の字幕データを生成するステップと、
前記第1の字幕データ及び前記第2の字幕データの表示を制御するステップと、
を含む会議支援方法。 - コンピュータを、
音声データに含まれる音声区間と非音声区間とを識別しながら、前記音声区間から音声を示すテキストデータを認識する認識部と、
前記テキストデータを、主要な発話を示す第1の発話データと、主要な発話以外を示す第2の発話データと、に分類する分類部と、
前記第1の発話データに対応する第1の音声区間の識別の終了を待たずに、前記第1の発話データを表示する第1の字幕データを生成する第1の字幕制御部と、
前記第2の発話データに対応する第2の音声区間の識別が終了してから、前記第2の発話データを表示する第2の字幕データを生成する第2の字幕制御部と、
前記第1の字幕データ及び前記第2の字幕データの表示を制御する表示制御部、
として実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016182175A JP6677614B2 (ja) | 2016-09-16 | 2016-09-16 | 会議支援システム、会議支援方法及びプログラム |
US15/440,550 US10304460B2 (en) | 2016-09-16 | 2017-02-23 | Conference support system, conference support method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016182175A JP6677614B2 (ja) | 2016-09-16 | 2016-09-16 | 会議支援システム、会議支援方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045208A true JP2018045208A (ja) | 2018-03-22 |
JP6677614B2 JP6677614B2 (ja) | 2020-04-08 |
Family
ID=61621280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016182175A Active JP6677614B2 (ja) | 2016-09-16 | 2016-09-16 | 会議支援システム、会議支援方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10304460B2 (ja) |
JP (1) | JP6677614B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019101385A (ja) * | 2017-12-08 | 2019-06-24 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US11342002B1 (en) * | 2018-12-05 | 2022-05-24 | Amazon Technologies, Inc. | Caption timestamp predictor |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006276754A (ja) * | 2005-03-30 | 2006-10-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
JP2008512789A (ja) * | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
JP2009031810A (ja) * | 2008-09-29 | 2009-02-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
WO2009104332A1 (ja) * | 2008-02-19 | 2009-08-27 | 日本電気株式会社 | 発話分割システム、発話分割方法および発話分割プログラム |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2015169827A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP2016119107A (ja) * | 2016-01-18 | 2016-06-30 | 富士通株式会社 | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142487A (ja) | 1999-11-11 | 2001-05-25 | Sony Corp | 音声データ入力システム |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP3894767B2 (ja) | 2001-10-24 | 2007-03-22 | シャープ株式会社 | 対話装置 |
KR100754384B1 (ko) * | 2003-10-13 | 2007-08-31 | 삼성전자주식회사 | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 |
US8949266B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8180029B2 (en) | 2007-06-28 | 2012-05-15 | Voxer Ip Llc | Telecommunication and multimedia management method and apparatus |
JP4968147B2 (ja) * | 2008-03-31 | 2012-07-04 | 富士通株式会社 | 通信端末、通信端末の音声出力調整方法 |
WO2010013371A1 (ja) | 2008-07-28 | 2010-02-04 | 日本電気株式会社 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 |
US20100057452A1 (en) * | 2008-08-28 | 2010-03-04 | Microsoft Corporation | Speech interfaces |
US9009053B2 (en) * | 2008-11-10 | 2015-04-14 | Google Inc. | Multisensory speech detection |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
JP2010282083A (ja) | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 誤認識訂正装置、方法及びプログラム |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US8719006B2 (en) * | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP5810946B2 (ja) * | 2012-01-31 | 2015-11-11 | 富士通株式会社 | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム |
US10096316B2 (en) * | 2013-11-27 | 2018-10-09 | Sri International | Sharing intents to provide virtual assistance in a multi-person dialog |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
WO2014197336A1 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9613624B1 (en) * | 2014-06-25 | 2017-04-04 | Amazon Technologies, Inc. | Dynamic pruning in speech recognition |
JP6487650B2 (ja) | 2014-08-18 | 2019-03-20 | 日本放送協会 | 音声認識装置及びプログラム |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10229687B2 (en) * | 2016-03-10 | 2019-03-12 | Microsoft Technology Licensing, Llc | Scalable endpoint-dependent natural language understanding |
JP6517718B2 (ja) | 2016-03-11 | 2019-05-22 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
-
2016
- 2016-09-16 JP JP2016182175A patent/JP6677614B2/ja active Active
-
2017
- 2017-02-23 US US15/440,550 patent/US10304460B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008512789A (ja) * | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
JP2006276754A (ja) * | 2005-03-30 | 2006-10-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
WO2009104332A1 (ja) * | 2008-02-19 | 2009-08-27 | 日本電気株式会社 | 発話分割システム、発話分割方法および発話分割プログラム |
JP2009031810A (ja) * | 2008-09-29 | 2009-02-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2015169827A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP2016119107A (ja) * | 2016-01-18 | 2016-06-30 | 富士通株式会社 | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
US10304460B2 (en) | 2019-05-28 |
US20180082688A1 (en) | 2018-03-22 |
JP6677614B2 (ja) | 2020-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10102859B2 (en) | Conference support apparatus, conference support method, and computer program product | |
US11527233B2 (en) | Method, apparatus, device and computer storage medium for generating speech packet | |
TW200900967A (en) | Multi-mode input method editor | |
US11881209B2 (en) | Electronic device and control method | |
US20150195378A1 (en) | Information processing apparatus, server, information processing method, and information processing system | |
US11922929B2 (en) | Presentation support system | |
JP7200533B2 (ja) | 情報処理装置およびプログラム | |
JP6677614B2 (ja) | 会議支援システム、会議支援方法及びプログラム | |
CN110908631A (zh) | 情感交互方法、装置、设备及计算机可读存储介质 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
EP3772733A1 (en) | Method for recognizing voice and electronic device supporting the same | |
US11443738B2 (en) | Electronic device processing user utterance and control method thereof | |
EP3010016B1 (en) | Input information support apparatus, method for supporting input information, and input information support program | |
JP6296193B2 (ja) | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム | |
JP6112239B2 (ja) | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム | |
JP6172303B2 (ja) | 入力情報支援装置、入力情報支援方法および入力情報支援プログラム | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
CN112334923A (zh) | 说明辅助装置以及说明辅助方法 | |
WO2023026544A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
EP3477634B1 (en) | Information processing device and information processing method | |
KR102238973B1 (ko) | 대화 데이터베이스를 이용한 대화문장 추천 방법 및 그것이 적용된 음성대화장치 | |
KR20230083124A (ko) | 난청환자 재활용 온라인 교육 콘텐츠 제공 방법 및 그 시스템 | |
Athuljith et al. | VOX: Voice of the Xtreme, an Augmentative and Alternative Communication Device | |
Clapp et al. | The episodic encoding of spoken words in Hindi | |
KR20240048298A (ko) | 속독 훈련 서비스 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200313 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6677614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |