JP6721298B2 - 音声情報制御方法及び端末装置 - Google Patents
音声情報制御方法及び端末装置 Download PDFInfo
- Publication number
- JP6721298B2 JP6721298B2 JP2015136115A JP2015136115A JP6721298B2 JP 6721298 B2 JP6721298 B2 JP 6721298B2 JP 2015136115 A JP2015136115 A JP 2015136115A JP 2015136115 A JP2015136115 A JP 2015136115A JP 6721298 B2 JP6721298 B2 JP 6721298B2
- Authority
- JP
- Japan
- Prior art keywords
- voice information
- terminal device
- voice
- terminal
- control method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 81
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 31
- 238000012986 modification Methods 0.000 description 20
- 230000004048 modification Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
Description
第1の音声情報を取得し、
前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、
前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する。
従来のテキスト作成システムでは、音声の集音に特殊なマイクロフォン装置を必要としており、容易に発話者の認識と音声のテキスト化による議事録作成を行う方法について検討が不十分である。
[システムの全体像]
図1A、図1Bには、本テキスト作成システムの全体像を示す。本テキスト作成システムを採用し得る全体像の例として、図1A、図1Bの2つの例を示しているが、これに限られるものではない。以下、各システムについて説明する。
図2Aを用いて、実施の形態1におけるテキスト作成システムにおける各構成を説明する。ここでは、図1Aにて説明したシステムにおける各装置の構成について説明するが、これに限られるものではなく、端末装置2100が備える各構成・手段の一部または全部をサーバ装置2200が備えていてもよいし、サーバ装置2200が備える各構成・手段の一部または全部を端末装置2100が備えていてもよい。
図3Aは、制御・処理部2102または、制御・処理部2202の機能構成の一例を示す図である。以下各構成について説明する。
本実施の形態における変形例1の音声情報制御方法を以下説明する。本変形例では図4にて説明した本実施の形態のシステムにおいて、ステップS4002もしくはステップS4003において行った話者認識の処理を省略し、端末装置2100側の処理量を軽くしたものである。当該変形例に関するフローチャートを図12に、シーケンス図を図13に記載する。以下図4のフローチャートと異なる処理を中心に説明する。
本実施の形態における変形例2の音声情報制御方法を以下説明する。本変形例では図12にて説明した本実施の形態の変形例1におけるシステムに、サーバ装置2200におけるノイズ除去に関する処理を追加したものである。当該変形例に関するフローチャートを図14に、シーケンス図を図15に記載する。以下図4のフローチャートと異なる処理を中心に説明する。
2101 通信部
2102 制御・処理部
2103 記録部
2104 音声取得部
2105 表示部
2106 操作部
2107 音声再生部
2200 サーバ装置
2201 通信部
2202 制御・処理部
2203 記録部
3001 音声情報取得手段
3002 話者認識手段
3003 通信制御手段
3004 表示制御手段
3005 音声認識手段
3006 テキスト統合手段
Claims (10)
- 複数の端末装置の各々から受信した音声情報を基にテキストデータを作成するシステムにおけるサーバ装置の音声情報制御方法であって、
前記複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、
前記複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、
前記時刻情報に基づき前記複数のテキストデータを時刻順に統合することで統合テキストデータを生成し、
前記統合テキストデータの前記複数のテキストデータ各々に対し、前記複数の端末装置のうちの各々に対して異なる表示形式で表示する表示制御データを付加し、
前記複数の端末装置各々に、前記表示制御データが付加された前記統合テキストデータを送信し、
前記表示制御データによる表示制御は、各々の前記複数の端末装置の保有者が発話した発話区間のテキストデータの表示形式を他の発話区間のテキストデータと異ならせる表示制御である、
音声情報制御方法。 - さらに、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記統合テキストデータを送信する、
請求項1に記載の音声情報制御方法。 - 前記複数の端末装置のうち第1の端末装置から受信した音声情報に対応する第1の音声情報は、前記第1の端末装置を保有している第1の話者の発話音声である第2の音声情報を含む、
請求項2に記載の音声情報制御方法。 - 前記複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである、
請求項2に記載の音声情報制御方法。 - 前記複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が保有している端末装置を特定する、
請求項4に記載の音声情報制御方法。 - 前記複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第1の発話区間において最も高い音圧レベルを有している端末装置を、前記第1の発話区間における発話者が利用している端末装置であると特定する、
請求項5に記載の音声情報制御方法。 - さらに、前記統合テキストデータの前記複数のテキストデータ各々に対し修正可否情報を付加し、
前記修正可否情報は、各々の前記複数の端末装置の保有者が発話した発話区間のテキストデータのみ、前記保有者の端末装置から修正が可能となるように、前記複数の端末装置を制御する情報である、
請求項1に記載の音声情報制御方法。 - 前記複数の端末装置のうち第1の端末装置から受信した音声情報と、第2の端末装置から受信した音声情報とを比較することで、前記第1の端末装置を保有している第1の話者の発話音声を特定し、
前記第2の端末装置から受信した音声情報に基づいて、前記第2の端末装置を保有している第2の話者の発話音声ではない音声情報をノイズ音声として特定し、
前記第1の端末装置から受信した音声情報を用いて前記音声認識・テキスト化を行う前に前記第1の端末装置から受信した音声情報から前記特定した前記ノイズ音声を除去する、
請求項4に記載の音声情報制御方法。 - さらに、前記音声情報を取得した端末装置と前記時刻情報と前記テキスト化したテキストデータを対応付けて議事録を作成し、
前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記作成した議事録を送信する、
請求項2に記載の音声情報制御方法。 - 前記複数の音声情報および当該複数の音声情報を取得した時刻情報の受信、前記複数のテキストデータの作成、および前記複数のテキストデータの統合のうちの少なくともいずれか1つはプロセッサを用いて行われる請求項1に記載の音声情報制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015136115A JP6721298B2 (ja) | 2014-07-16 | 2015-07-07 | 音声情報制御方法及び端末装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014146096 | 2014-07-16 | ||
JP2014146096 | 2014-07-16 | ||
JP2015136115A JP6721298B2 (ja) | 2014-07-16 | 2015-07-07 | 音声情報制御方法及び端末装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016029468A JP2016029468A (ja) | 2016-03-03 |
JP6721298B2 true JP6721298B2 (ja) | 2020-07-15 |
Family
ID=55075084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015136115A Active JP6721298B2 (ja) | 2014-07-16 | 2015-07-07 | 音声情報制御方法及び端末装置 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10297257B2 (ja) |
JP (1) | JP6721298B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6721298B2 (ja) * | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
JP6716300B2 (ja) * | 2016-03-16 | 2020-07-01 | 株式会社アドバンスト・メディア | 議事録生成装置、及び議事録生成プログラム |
US10379348B2 (en) * | 2016-09-13 | 2019-08-13 | Facebook Technologies, Llc | Hybrid fresnel lens with increased field of view |
JP7088645B2 (ja) * | 2017-09-20 | 2022-06-21 | 株式会社野村総合研究所 | データ変換装置 |
JP7095356B2 (ja) * | 2018-03-29 | 2022-07-05 | 株式会社リコー | 通信端末及び会議システム |
US10923128B2 (en) * | 2018-08-29 | 2021-02-16 | Cirrus Logic, Inc. | Speech recognition |
JP7095569B2 (ja) * | 2018-11-21 | 2022-07-05 | 株式会社リコー | 音声認識システム、及び音声認識方法 |
EP3660848A1 (en) | 2018-11-29 | 2020-06-03 | Ricoh Company, Ltd. | Apparatus, system, and method of display control, and carrier means |
KR102230667B1 (ko) * | 2019-05-10 | 2021-03-22 | 네이버 주식회사 | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 |
WO2021059497A1 (ja) * | 2019-09-27 | 2021-04-01 | 日本電気株式会社 | 音信号処理装置、音信号処理方法および記憶媒体 |
CN110808037B (zh) * | 2019-11-14 | 2021-12-21 | 广东美的制冷设备有限公司 | 语音控制方法、装置、家电设备以及存储介质 |
JP2021081483A (ja) * | 2019-11-15 | 2021-05-27 | 前田建設工業株式会社 | 議事録データ作成システム |
JP2022020499A (ja) * | 2020-07-20 | 2022-02-01 | ラトナ株式会社 | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 |
JP7356960B2 (ja) * | 2020-10-29 | 2023-10-05 | 株式会社Nsd先端技術研究所 | 発言切り分けシステムとその方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
US7590538B2 (en) * | 1999-08-31 | 2009-09-15 | Accenture Llp | Voice recognition system for navigating on the internet |
US6697457B2 (en) * | 1999-08-31 | 2004-02-24 | Accenture Llp | Voice messaging system that organizes voice messages based on detected emotion |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6427137B2 (en) * | 1999-08-31 | 2002-07-30 | Accenture Llp | System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud |
JP2001160027A (ja) * | 1999-09-21 | 2001-06-12 | Just Syst Corp | ネットワークシステム、情報提供システム、情報提供方法、サーバ装置及び記録媒体 |
JP4352312B2 (ja) * | 2003-08-08 | 2009-10-28 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP4551668B2 (ja) * | 2004-02-25 | 2010-09-29 | パイオニア株式会社 | 議事録ファイル生成方法、議事録ファイル管理方法、会議サーバおよびネットワーク会議システム |
US20070133437A1 (en) * | 2005-12-13 | 2007-06-14 | Wengrovitz Michael S | System and methods for enabling applications of who-is-speaking (WIS) signals |
JP4867804B2 (ja) | 2007-06-12 | 2012-02-01 | ヤマハ株式会社 | 音声認識装置及び会議システム |
WO2009075211A1 (ja) * | 2007-12-10 | 2009-06-18 | Sharp Kabushiki Kaisha | 自動発話者判別記録装置及び自動発話者判別記録システム |
JP5349860B2 (ja) * | 2008-08-07 | 2013-11-20 | 株式会社バンダイナムコゲームス | プログラム、情報記憶媒体及びゲーム装置 |
US8768705B2 (en) * | 2009-10-27 | 2014-07-01 | Cisco Technology, Inc. | Automated and enhanced note taking for online collaborative computing sessions |
JP5677901B2 (ja) * | 2011-06-29 | 2015-02-25 | みずほ情報総研株式会社 | 議事録作成システム及び議事録作成方法 |
US9014358B2 (en) * | 2011-09-01 | 2015-04-21 | Blackberry Limited | Conferenced voice to text transcription |
US9911421B2 (en) * | 2013-06-10 | 2018-03-06 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, speaker identification apparatus, and information management method |
US9666204B2 (en) * | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
JP6721298B2 (ja) * | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
-
2015
- 2015-07-07 JP JP2015136115A patent/JP6721298B2/ja active Active
- 2015-07-09 US US14/794,847 patent/US10297257B2/en active Active
-
2019
- 2019-04-03 US US16/374,291 patent/US10573318B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10573318B2 (en) | 2020-02-25 |
JP2016029468A (ja) | 2016-03-03 |
US20160019894A1 (en) | 2016-01-21 |
US20190228775A1 (en) | 2019-07-25 |
US10297257B2 (en) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6721298B2 (ja) | 音声情報制御方法及び端末装置 | |
JP6620230B2 (ja) | 迅速な識別方法及び家庭用の知能ロボット | |
CN110324723B (zh) | 字幕生成方法及终端 | |
JP2019109503A5 (ja) | ||
TWI619115B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
WO2016187910A1 (zh) | 一种语音文字的转换方法及设备、存储介质 | |
JP7427408B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN107945806B (zh) | 基于声音特征的用户识别方法及装置 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
EP2503545A1 (en) | Arrangement and method relating to audio recognition | |
JP6091690B1 (ja) | 議会運営支援システム及び議会運営支援方法 | |
JP2010109898A (ja) | 撮影制御装置、撮影制御方法及びプログラム | |
CN110808062B (zh) | 混合语音分离方法和装置 | |
WO2019187521A1 (ja) | 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ | |
US11184184B2 (en) | Computer system, method for assisting in web conference speech, and program | |
WO2023087287A1 (zh) | 一种会议内容显示的方法、会议系统及会议设备 | |
JP5983028B2 (ja) | 会議支援装置、会議支援システム、会議支援方法およびプログラム | |
CN110459239A (zh) | 基于声音数据的角色分析方法、装置和计算机可读存储介质 | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
US10505879B2 (en) | Communication support device, communication support method, and computer program product | |
JP2021107873A5 (ja) | ||
JP2020135667A (ja) | 報告書作成するための方法、システム、及び装置 | |
JP2018054926A (ja) | 音声対話装置および音声対話方法 | |
JP7243145B2 (ja) | 情報処理装置、情報処理システム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190920 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6721298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |