JP7489232B2 - 情報処理システム、情報処理方法、及び情報処理プログラム - Google Patents
情報処理システム、情報処理方法、及び情報処理プログラム Download PDFInfo
- Publication number
- JP7489232B2 JP7489232B2 JP2020087888A JP2020087888A JP7489232B2 JP 7489232 B2 JP7489232 B2 JP 7489232B2 JP 2020087888 A JP2020087888 A JP 2020087888A JP 2020087888 A JP2020087888 A JP 2020087888A JP 7489232 B2 JP7489232 B2 JP 7489232B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- processing device
- text
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 300
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012937 correction Methods 0.000 claims description 70
- 230000004044 response Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 238000013519 translation Methods 0.000 description 52
- 238000000034 method Methods 0.000 description 40
- 238000012545 processing Methods 0.000 description 39
- 238000006243 chemical reaction Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/06—Message adaptation to terminal or network requirements
- H04L51/066—Format adaptation, e.g. format conversion or compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム100は、各拠点(会議室)に配置される情報処理装置1と、サーバ2とを備えている。図1に示すように、情報処理装置1A,1Bのそれぞれは、マイク、スピーカ及び表示部を備えた一体型の機器で構成される。なお、情報処理装置1A,1Bのそれぞれは、マイク及びスピーカとパーソナルコンピュータ(PC)とが別体で構成された機器であってもよい。図1では、会議室Xに設置された情報処理装置1Aと、会議室Yに設置された情報処理装置1Bとを示している。情報処理装置1Aと情報処理装置1Bとサーバ2とは、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。情報処理装置1Aは本発明の第1情報処理装置の一例であり、情報処理装置1Bは本発明の第2情報処理装置の一例である。
各拠点(ここでは会議室X,Y)に配置される情報処理装置1は同一の構成を備える。ここでは、会議室Xに配置される情報処理装置1Aを例に挙げて説明する。図2に示すように、情報処理装置1Aは、制御部11、記憶部12、スピーカ13、マイク14、表示部15、及び通信インターフェース16などを備える。情報処理装置1Aは、例えばパーソナルコンピュータである。マイク14は、パーソナルコンピュータの外部に配置され、通信ケーブルでパーソナルコンピュータに接続されてもよい。情報処理装置1Aは、例えば会議室Xの机上に配置され、会議に参加するユーザAの音声をマイク14を介して取得したり、ユーザAに対してスピーカ13から音声を出力(報知)したりする。
図2に示すように、サーバ2は、制御部21、記憶部22、及び通信インターフェース23などを備える。なお、サーバ2は、1台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、サーバ2は、物理サーバであってもよいし、クラウドサーバであってもよい。また、サーバ2で実行される各種の処理は、一又は複数のプロセッサによって分散して実行されてもよい。
以下、図13を参照しつつ、会議システム100によって実行される情報処理の手順の一例について説明する。前記情報処理は、例えば、情報処理装置1Aの制御部11、情報処理装置1Bの制御部11、及びサーバ2の制御部21によって実行される。例えば、情報処理装置1A,1Bの制御部11が会議システムを開始することにより前記情報処理プログラムの実行を開始することによって、前記情報処理の実行を開始する。
1A :情報処理装置
1B :情報処理装置
2 :サーバ
100 :会議システム
111 :音声受信部
112 :処理要求部
113 :表示制御部
114 :修正受付部
115 :音声要求部
211 :音声認識部
212 :音声翻訳部
213 :音声変換部
R1 :第1表示領域
R2 :第2表示領域
R3 :第3表示領域
Claims (9)
- ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理システムであって、
前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信部と、
前記音声受信部より受信される前記第1音声を認識する音声認識部と、
前記音声認識部により認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示制御部と、
前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付部と、
を備え、
前記表示制御部は、
(1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
(2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理システム。 - 前記修正操作情報は、前記第1ユーザの識別情報を含む、
請求項1に記載の情報処理システム。 - 前記表示制御部は、前記第2情報処理装置の前記第1表示領域において、前記第1テキストのうち前記第1ユーザの修正部分を識別可能に表示させる、
請求項1又は請求項2に記載の情報処理システム。 - 前記表示制御部は、前記第1ユーザが前記第2表示領域に表示された前記テキストを修正中に、前記第2情報処理装置の前記第1表示領域において、リアルタイムに当該第1テキストの修正部分を識別可能に表示させる、
請求項3に記載の情報処理システム。 - 前記表示制御部は、前記第2情報処理装置の前記第1表示領域において、前記第1ユーザが修正する前の前記第1テキストと、前記第1ユーザが修正した後の前記第1テキストとの両方を表示させる、
請求項1又は請求項2に記載の情報処理システム。 - 前記表示制御部は、前記第1ユーザの第1言語の発話に応じてリアルタイムに前記第1言語の前記テキストを前記第2表示領域に表示させ、所定のタイミングで区切られた期間の発話内容に対応する前記第1テキストを第2言語に変換した前記第2言語の前記第1テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、
請求項1から請求項5のいずれか1項に記載の情報処理システム。 - 前記表示制御部は、前記第2情報処理装置の第2ユーザが発話した第2音声に対応する第2テキストを前記第1情報処理装置の第3表示領域に表示させる、
請求項1から請求項6のいずれか1項に記載の情報処理システム。 - ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理方法であって、
前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、
前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、
前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、
を一又は複数のプロセッサが実行し、
前記表示ステップにおいて、
(1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
(2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理方法。 - ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信させることが可能な情報処理プログラムであって、
前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、
前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、
前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、
を一又は複数のプロセッサに実行させるための情報処理プログラムであって、
前記表示ステップにおいて、
(1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
(2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020087888A JP7489232B2 (ja) | 2020-05-20 | 2020-05-20 | 情報処理システム、情報処理方法、及び情報処理プログラム |
US17/240,867 US11804223B2 (en) | 2020-05-20 | 2021-04-26 | Information processing system, information processing method, and recording medium having stored thereon information processing program |
CN202110534035.3A CN113722423A (zh) | 2020-05-20 | 2021-05-17 | 信息处理系统、信息处理方法及信息处理程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020087888A JP7489232B2 (ja) | 2020-05-20 | 2020-05-20 | 情報処理システム、情報処理方法、及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021182091A JP2021182091A (ja) | 2021-11-25 |
JP7489232B2 true JP7489232B2 (ja) | 2024-05-23 |
Family
ID=78607049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020087888A Active JP7489232B2 (ja) | 2020-05-20 | 2020-05-20 | 情報処理システム、情報処理方法、及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11804223B2 (ja) |
JP (1) | JP7489232B2 (ja) |
CN (1) | CN113722423A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015149042A (ja) | 2014-02-10 | 2015-08-20 | 日本電信電話株式会社 | 表示制御方法、表示制御装置及び表示制御プログラム |
JP2017161850A (ja) | 2016-03-11 | 2017-09-14 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
JP2018092365A (ja) | 2016-12-02 | 2018-06-14 | 株式会社アドバンスト・メディア | 情報処理システム、情報処理装置、情報処理方法及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7844454B2 (en) * | 2003-03-18 | 2010-11-30 | Avaya Inc. | Apparatus and method for providing voice recognition for multiple speakers |
US8351581B2 (en) * | 2008-12-19 | 2013-01-08 | At&T Mobility Ii Llc | Systems and methods for intelligent call transcription |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
JP5374629B2 (ja) | 2011-05-24 | 2013-12-25 | 株式会社エヌ・ティ・ティ・ドコモ | サービスサーバ装置、サービス提供方法、サービス提供プログラム |
US9508058B2 (en) * | 2012-10-15 | 2016-11-29 | Bank Of America Corporation | System providing an interactive conference |
JP6526608B2 (ja) * | 2016-09-06 | 2019-06-05 | 株式会社東芝 | 辞書更新装置およびプログラム |
CN107945802A (zh) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | 语音识别结果处理方法及装置 |
-
2020
- 2020-05-20 JP JP2020087888A patent/JP7489232B2/ja active Active
-
2021
- 2021-04-26 US US17/240,867 patent/US11804223B2/en active Active
- 2021-05-17 CN CN202110534035.3A patent/CN113722423A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015149042A (ja) | 2014-02-10 | 2015-08-20 | 日本電信電話株式会社 | 表示制御方法、表示制御装置及び表示制御プログラム |
JP2017161850A (ja) | 2016-03-11 | 2017-09-14 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
JP2018092365A (ja) | 2016-12-02 | 2018-06-14 | 株式会社アドバンスト・メディア | 情報処理システム、情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021182091A (ja) | 2021-11-25 |
CN113722423A (zh) | 2021-11-30 |
US11804223B2 (en) | 2023-10-31 |
US20210366478A1 (en) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
JP3662780B2 (ja) | 自然言語を用いた対話システム | |
JP4768969B2 (ja) | 高度対話型インターフェースに対する理解同期意味オブジェクト | |
JP4768970B2 (ja) | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト | |
US8954335B2 (en) | Speech translation system, control device, and control method | |
KR101213835B1 (ko) | 음성 인식에 있어서 동사 에러 복원 | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
JP6725006B2 (ja) | 制御装置および機器制御システム | |
JP6125138B2 (ja) | 情報提供システム | |
JP6897677B2 (ja) | 情報処理装置及び情報処理方法 | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
JP2018174442A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
KR20160080711A (ko) | 통신 기반 통역 장치, 방법 및 시스템 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP7489232B2 (ja) | 情報処理システム、情報処理方法、及び情報処理プログラム | |
WO2018135302A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP5892598B2 (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム | |
JP2003316384A (ja) | リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体 | |
WO2019142419A1 (ja) | 情報処理装置および情報処理方法 | |
JP3614116B2 (ja) | トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体 | |
TWI752437B (zh) | 基於至少雙音素的語音輸入操作方法及電腦程式產品 | |
JP7471979B2 (ja) | 会議支援システム | |
JPH10133849A (ja) | パーソナルコンピュータおよびエラー通知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20240410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7489232 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |