JP7489232B2 - 情報処理システム、情報処理方法、及び情報処理プログラム - Google Patents

情報処理システム、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP7489232B2
JP7489232B2 JP2020087888A JP2020087888A JP7489232B2 JP 7489232 B2 JP7489232 B2 JP 7489232B2 JP 2020087888 A JP2020087888 A JP 2020087888A JP 2020087888 A JP2020087888 A JP 2020087888A JP 7489232 B2 JP7489232 B2 JP 7489232B2
Authority
JP
Japan
Prior art keywords
information processing
processing device
text
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020087888A
Other languages
English (en)
Other versions
JP2021182091A (ja
Inventor
達也 西尾
文亮 杉森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020087888A priority Critical patent/JP7489232B2/ja
Priority to US17/240,867 priority patent/US11804223B2/en
Priority to CN202110534035.3A priority patent/CN113722423A/zh
Publication of JP2021182091A publication Critical patent/JP2021182091A/ja
Application granted granted Critical
Publication of JP7489232B2 publication Critical patent/JP7489232B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/066Format adaptation, e.g. format conversion or compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、情報処理システム、情報処理方法、及び情報処理プログラムに関する。
従来、ユーザが発話した音声、当該音声を認識してテキスト変換したテキスト情報、当該ユーザの映像などを送受信して行う会議システムが知られている。また、前記音声を所望の言語のテキスト情報に翻訳して送受信する技術も提案されている(例えば特許文献1参照)。
特許第5374629号公報
ここで、従来の技術では、例えばユーザが発話した音声を変換したテキストに誤りが生じた場合に、当該テキストの送信先のユーザに誤った情報が提示されてしまう。また、この場合に、相手側のユーザが、誤った情報に応答してしまうことも考えられる。このように、従来の技術では、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが困難である。
本発明の目的は、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することにある。
本発明の一の態様に係る情報処理システムは、ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理システムであって、前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信部と、前記音声受信部より受信される前記第1音声を認識する音声認識部と、前記音声認識部により認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示制御部と、前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付部と、を備える。
本発明の他の態様に係る情報処理方法は、ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理方法であって、前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、を一又は複数のプロセッサにより実行する方法である。
本発明の他の態様に係る情報処理プログラムは、ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信させることが可能な情報処理プログラムであって、前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、を一又は複数のプロセッサにより実行させるためのプログラムである。
本発明によれば、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能である。
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。 図2は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。 図3は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図4は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図5は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図6は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図7は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図8は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図9は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図10は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図11は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図12は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。 図13は、本発明の実施形態に係る会議システムにおける情報処理の手順の一例を説明するためのフローチャートである。 図14は、本発明の実施形態に係る会議システムにおける情報処理の手順の一例を説明するためのフローチャートである。 図15は、本発明の実施形態に係る会議システムにおいて情報処理装置に表示される表示画面の一例を示す図である。
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
本発明に係る情報処理システムは、例えば複数の拠点(エリア)をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。例えば、前記情報処理システムは、ネットワークを介して接続された第1拠点及び第2拠点において、ユーザが発話した音声を送受信する。また、本発明に係る情報処理システムは、第1拠点のユーザが発話した音声に対応するテキスト情報を第2拠点に配置された情報処理装置に表示させ、第2拠点のユーザが発話した音声に対応するテキスト情報を第1拠点に配置された情報処理装置に表示させる。
以下の実施形態では、情報処理システムがリモート会議(会議システム)に適用される場合を例に挙げて説明する。すなわち、本実施形態に係る会議システムは、本発明に係る情報処理システムの一例である。例えば本実施形態に係る会議システムでは、それぞれの拠点(会議室)に情報処理装置が配置され、一方の会議室の情報処理装置が、ユーザの発話した音声を受信し、サーバにより認識された当該音声に対応するテキスト情報を他方の会議室の情報処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。
[会議システム100]
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム100は、各拠点(会議室)に配置される情報処理装置1と、サーバ2とを備えている。図1に示すように、情報処理装置1A,1Bのそれぞれは、マイク、スピーカ及び表示部を備えた一体型の機器で構成される。なお、情報処理装置1A,1Bのそれぞれは、マイク及びスピーカとパーソナルコンピュータ(PC)とが別体で構成された機器であってもよい。図1では、会議室Xに設置された情報処理装置1Aと、会議室Yに設置された情報処理装置1Bとを示している。情報処理装置1Aと情報処理装置1Bとサーバ2とは、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。情報処理装置1Aは本発明の第1情報処理装置の一例であり、情報処理装置1Bは本発明の第2情報処理装置の一例である。
会議システム100では、例えば情報処理装置1Aが会議室XのユーザAが発話した音声を受信し、サーバ2が当該音声の認識処理、他言語への翻訳処理などを実行してテキストに変換する。情報処理装置1Aはサーバ2による音声認識の結果(前記音声に対応するテキスト情報)を会議室Yの情報処理装置1Bに送信する。情報処理装置1Bは、情報処理装置1Aから受信する前記テキスト情報を表示部に表示させ、前記音声をスピーカから出力させる。同様に、情報処理装置1Bが会議室YのユーザBが発話した音声を受信し、サーバ2が当該音声の認識処理、他言語への翻訳処理などを実行してテキストに変換する。情報処理装置1Bはサーバ2による音声認識の結果(前記音声に対応するテキスト情報)を会議室Xの情報処理装置1Aに送信する。情報処理装置1Aは、情報処理装置1Bから受信する前記テキスト情報を表示部に表示させ、前記音声をスピーカから出力させる。このようにして、会議室X,YのそれぞれのユーザA,Bは会話を行うことが可能となる。
ここで、会議システム100では、ユーザが発話した音声を変換したテキストに誤りが生じることがある。会議システム100は、ユーザが発話した音声に対応するテキスト情報に誤りが生じた場合に、適切なテキスト情報の送受信を円滑に行うことが可能である。以下、会議システム100の具体的な構成について説明する。尚、以下の説明では、情報処理装置1A,1Bを区別しない場合は「情報処理装置1」と称す。
[情報処理装置1]
各拠点(ここでは会議室X,Y)に配置される情報処理装置1は同一の構成を備える。ここでは、会議室Xに配置される情報処理装置1Aを例に挙げて説明する。図2に示すように、情報処理装置1Aは、制御部11、記憶部12、スピーカ13、マイク14、表示部15、及び通信インターフェース16などを備える。情報処理装置1Aは、例えばパーソナルコンピュータである。マイク14は、パーソナルコンピュータの外部に配置され、通信ケーブルでパーソナルコンピュータに接続されてもよい。情報処理装置1Aは、例えば会議室Xの机上に配置され、会議に参加するユーザAの音声をマイク14を介して取得したり、ユーザAに対してスピーカ13から音声を出力(報知)したりする。
通信インターフェース16は、情報処理装置1Aを有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば、情報処理装置1B、サーバ2など)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
表示部15は、各種の情報を表示する液晶ディスプレイ、有機ELディスプレイなどの表示パネルである。
記憶部12は、各種の情報を記憶するHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶部である。記憶部12には、制御部11に後述の情報処理(図13、図14参照)を実行させるための情報処理プログラムなどの制御プログラムが記憶されている。例えば、前記情報処理プログラムは、外部サーバから配信されて記憶される。また前記情報処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、情報処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶されてもよい。
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより情報処理装置1Aを制御する。
具体的に、制御部11は、音声受信部111、処理要求部112、表示制御部113、修正受付部114、音声要求部115などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記情報処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。
音声受信部111は、情報処理装置1Aを利用するユーザAが発話した音声(音声データ)をマイク14から受信する。音声受信部111は、本発明の音声受信部の一例である。例えば、情報処理装置1Aの音声受信部111は、会議室XのユーザAが発話した音声を受信し、情報処理装置1Bの音声受信部111は、会議室YのユーザBが発話した音声を受信する。
また、音声受信部111は、ユーザAの前記音声を受信中であること(すなわちユーザAが発話中であること)を示すステータス情報を情報処理装置1Bに送信する。
処理要求部112は、サーバ2に各種処理の要求を行う。具体的には、処理要求部112は、音声受信部111より受信された前記音声(音声データ)の認識処理を要求する。サーバ2は、情報処理装置1Aから音声認識要求を取得すると、前記音声に対する認識処理を実行して、認識結果を情報処理装置1Aに送信する。例えば、サーバ2は、前記音声をテキスト(文字)に変換する処理を行った場合、当該テキスト情報を前記認識結果として情報処理装置1Aに送信する。
また、処理要求部112は、音声受信部111より受信された前記音声の翻訳処理を要求する。サーバ2は、情報処理装置1Aから音声翻訳要求を取得すると、前記音声に対応する前記テキストに対する翻訳処理を実行して、翻訳結果を情報処理装置1Aに送信する。例えば、サーバ2は、第1言語(例えば日本語)の前記音声に対応する前記テキストを第2言語(英語)のテキストに翻訳した場合、第2言語のテキスト情報を前記翻訳結果として情報処理装置1Aに送信する。
表示制御部113は、表示部15に各種情報を表示させる。具体的には、表示制御部113は、前記表示処理プログラムに応じた表示画面D1を表示部15に表示させる。図3は、表示画面D1の一例を示す図である。表示画面D1には、ユーザAが発話した音声の録音を開始及び終了させるためのボタンK1と、発話音声の言語(例えば日本語)を選択するボタンK2と、当該発話音声の言語の翻訳先の言語(例えば英語)を選択するボタンK3と、ユーザAが発話した音声に対応するテキストをリアルタイムで表示する第2表示領域R2と、所定のタイミングで区切られた期間のユーザAの発話内容に対応するテキストを表示する第1表示領域R1と、ユーザAが第2表示領域R2に表示されたテキストを修正(手書き修正)してサーバ2に認識処理、翻訳処理などを再度要求(再送)するボタンK4とが含まれる。
例えば、ユーザAがボタンK1を押下して発話を開始し、音声受信部111が音声の受信を開始した場合に、情報処理装置1Aの表示制御部113は、図4に示すように、ユーザAが発話中であることを示す識別情報(発話中マークM1)を情報処理装置1Aの表示画面D1に表示させる。また、情報処理装置1Bの表示制御部113は、情報処理装置1Aから前記ステータス情報(発話中)を取得すると、図4に示すように、ユーザAが発話中であることを示す識別情報(発話中マークM1)を情報処理装置1Bの表示画面D1に表示させる。なお、発話中マークM1は、情報処理装置1ごとに異なってもよいし、発話中のユーザを識別可能な情報(氏名、ユーザIDなど)が含まれてもよい。
また、情報処理装置1Aの表示制御部113は、サーバ2の音声認識部211(後述)により認識されるユーザAの音声(本発明の第1音声の一例)に対応するテキスト(本発明の第1テキストの一例)を、情報処理装置1Aの第1表示領域R1及び第2表示領域R2のそれぞれに表示させる。また、情報処理装置1Bの表示制御部113は、サーバ2の音声認識部211により認識されるユーザAの音声に対応するテキストを、情報処理装置1Bの第1表示領域R1に表示させる。
例えば、ユーザAが「こんにちは」を発話した場合に、情報処理装置1Aの表示制御部113は、図5に示すように、ユーザAの音声に対応するテキスト「こんにちは。」を、情報処理装置1Aの第1表示領域R1及び第2表示領域R2のそれぞれに表示させる。また、情報処理装置1Aの表示制御部113は、ユーザAが発話した「こ」が認識された時点で第2表示領域R2に「こ」を表示させ、続けてユーザAが発話した「ん」が認識された時点で第2表示領域R2に「ん」を表示させる。このように、表示制御部113は、ユーザAの発話に応じてリアルタイムにテキストを第2表示領域R2に表示させる。そして、ユーザAが「は」を発話した後、所定時間発話しなかった場合、情報処理装置1Aの表示制御部113は、図5に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果をサーバ2から取得して第1表示領域R1に表示させる。このように、表示制御部113は、ユーザAの発話に応じてリアルタイムにテキストを第2表示領域R2に表示させ、所定のタイミングで区切られた期間の発話内容に対応するテキストを第1表示領域R1に表示させる。また、表示制御部113は、ユーザAの第1言語の発話に応じてリアルタイムに第1言語のテキストを第2表示領域R2に表示させ、所定のタイミングで区切られた期間の発話内容に対応するテキストを第2言語に変換(翻訳)した第2言語のテキストを第1表示領域R1に表示させる。
なお、情報処理装置1Aの表示制御部113は、第1表示領域R1に、ユーザAが発話した時間(ここでは「17:39:36」)(本発明の第1テキストの一例)を表示させてもよい。
また、情報処理装置1Aの表示制御部113は、前記認識処理及び翻訳処理の結果と、ステータス情報(処理完了)とを情報処理装置1Bに送信する。情報処理装置1Bの表示制御部113は、情報処理装置1Aから前記認識処理及び翻訳処理の結果とステータス情報(処理完了)とを取得すると、図5に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果を第1表示領域R1に表示させる。なお、情報処理装置1Bの表示制御部113は、第1表示領域R1に、ユーザAが発話した時間(ここでは「17:39:36」)(本発明の第1テキストの一例)を表示させてもよい。なお、情報処理装置1Bの第2表示領域R2には、ユーザAの音声に対応するテキストは表示されない。
修正受付部114は、第2表示領域R2に表示されるテキストに対するユーザAの修正操作を受け付ける。例えば、ユーザAが「こんばんは」と発話したにもかかわらず「こんにちは」と認識されて情報処理装置1A,1Bに表示された場合に、ユーザAは第2表示領域R2においてテキストを修正することが可能である。例えばユーザAが「こんにちは」の一部を削除し(図6参照)、「こんばんは」に修正(図7参照)する操作を行うと、修正受付部114は、ユーザAの修正操作を受け付ける。
このように、第1表示領域R1は、主に、音声認識したテキストのやり取り(ログ)が表示されるエリアである。例えば、第1表示領域R1には、テキスト以外に、発言者やタイムスタンプ、翻訳された結果が表示される。また、第1表示領域R1の表示内容は、自分及び相手の両方が見ることができる。第2表示領域R2は、音声認識したテキストがリアルタイムに文字単位で表示されるエリアである。音声認識された文字は、最初に第2表示領域R2に表示される。ユーザの発話が途切れると、第1表示領域R1に音声認識及び翻訳されたテキストが表示される。第1表示領域R1に音声認識された結果が表示されても、次の音声認識がされない限り、第2表示領域R2に前回音声認識されたテキストが表示され続ける。ユーザは、第2表示領域R2に表示されるテキストを、キーボードとマウス操作により修正して再送することができる。また、第2表示領域R2の表示内容は、自分しか見ることができない。
なお、ユーザAの修正操作の受け付けが開始されると、情報処理装置1Aの表示制御部113は、図6に示すように、修正中であることを示す識別情報(修正中マークM2)を表示画面D1に表示させる。また、表示制御部113は、ユーザAがテキストを修正中であることを示すステータス情報を情報処理装置1Bに送信する。情報処理装置1Bの表示制御部113は、情報処理装置1Aから前記ステータス情報(修正中)を取得すると、図6に示すように、ユーザAが修正中であることを示す識別情報(修正中マークM2)を情報処理装置1Bの表示画面D1に表示させる。なお、修正中マークM2は、情報処理装置1ごとに異なってもよいし、修正中のユーザを識別可能な情報(氏名、ユーザIDなど)が含まれてもよい。修正中マークM2は、本発明の修正操作情報の一例である。
ユーザAが修正操作を完了してボタンK4を押下すると、処理要求部112は、サーバ2に翻訳処理を再度要求する。サーバ2は、情報処理装置1Aから音声翻訳要求を取得すると、修正後の前記テキストに対する翻訳処理を実行して、翻訳結果を情報処理装置1Aに送信する。情報処理装置1Aの表示制御部113は、図7に示すように、修正されたテキスト(「こんばんは」)を第1表示領域R1に表示させ、「こんばんは」に対する翻訳処理の結果をサーバ2から取得して第1表示領域R1に表示させる。また、情報処理装置1Aの表示制御部113は、第1表示領域R1に、ユーザAが修正した時間(ここでは「17:43:42」)を表示させてもよい。これにより、誤って音声認識及び翻訳されたテキストをユーザAが修正中であることをユーザBが把握することができるため、ユーザBは誤って音声認識及び翻訳されたテキストに対して応答(返信)してしまうことを回避することができ、効率的に会議を進めることができる。
また、情報処理装置1Aの表示制御部113は、修正されたテキスト(「こんばんは」)と、修正された翻訳処理の結果と、ステータス情報(処理完了)とを情報処理装置1Bに送信する。情報処理装置1Bの表示制御部113は、情報処理装置1Aから前記テキスト(「こんばんは」)と前記翻訳処理の結果とステータス情報(処理完了)とを取得すると、図7に示すように、修正されたテキスト(「こんばんは」)と、「こんばんは」に対する翻訳処理の結果とを第1表示領域R1に表示させる。このように、情報処理装置1A,1Bの表示制御部113は、修正後のテキスト(「こんばんは。」)を第1表示領域R1に表示させる。なお、情報処理装置1Bの表示制御部113は、第1表示領域R1に、ユーザAが修正した時間(ここでは「17:43:42」)を表示させてもよい。なお、情報処理装置1Bの第2表示領域R2には、ユーザAの修正操作に対応するテキストは表示されない。すなわち、第2表示領域R2は、発話者からテキストの修正操作を受け付ける領域である。
ここで、情報処理装置1Bの表示制御部113は、図8に示すように、情報処理装置1Bの第1表示領域R1において、誤認識された前記テキスト(「こんにちは。」)のうちユーザAの修正部分(「ばんは」)を識別可能に表示させてもよい。例えば、図8に示すように、表示制御部113は、前記修正部分に識別マークM3を付加してもよい。例えば、表示制御部113は、情報処理装置1Bの第1表示領域R1に表示されたテキストのうち、情報処理装置1Aの第2表示領域R2において削除された部分(「にちは」)に対応する部分に網掛け表示を行う。このように、表示制御部113は、ユーザAがテキストを修正中に、情報処理装置1Bの第1表示領域R1において、リアルタイムに当該テキストの修正部分を識別可能に表示させる。これにより、ユーザBはユーザAによるテキストの修正部分をリアルタイムに把握することが可能になる。識別マークM3は、例えば、網掛け(図8参照)、下線、文字色、文字フォントなどが挙げられる。これにより、ユーザAが修正している箇所(部分)をユーザBが把握することができる。
情報処理装置1A,1Bの表示制御部113は、修正前のテキスト(「こんにちは。」)を削除し、修正後のテキスト(「こんばんは。」)を第1表示領域R1に表示させてもよい。これにより、適切な情報だけを第1表示領域R1に表示させることができるため、ユーザBが修正前の情報から混乱することを防止することができる。また、この場合に、情報処理装置1A,1Bの表示制御部113は、図9に示すように、ユーザAが修正したことを示す識別情報(修正済マークM4)を第1表示領域R1に表示させてもよい。これにより、ユーザA,Bは、第1表示領域R1に表示されたテキストが修正されたものであるか否かを判断することができる。また、情報処理装置1A,1Bの表示制御部113は、図10に示すように、修正前のテキストの発話時間(「17:39:36」)と、修正された時間(「17:43:42」)とを第1表示領域R1に表示させてもよい。これにより、ユーザA,Bは、第1表示領域R1に表示されたテキストが修正された時間を把握することができる。また、情報処理装置1A,1Bの表示制御部113は、図11に示すように、修正前のテキストの情報と修正後のテキストの情報とを並べて第1表示領域R1に表示させてもよい。これにより、ユーザA,Bは、修正前後のテキストを把握することができ、修正内容を容易に把握することができる。このように、表示制御部113は、修正前のテキストを修正後のテキストに上書きしてもよいし、修正後のテキストを修正前のテキストとは別の場所に表示させてもよい。また、修正前のテキストを修正後のテキストに上書きした場合には、修正されたか否かをユーザが把握することができるように、表示制御部113は、図9~図11に示すように、修正されたことを示す情報(識別マークM4、発話時間及び修正時間、修正前後のテキストなど)を表示させることが好ましい。
なお、情報処理装置1A,1Bの表示制御部113は、図12に示すように、誤って認識されたテキストをユーザAが削除操作した場合に、削除した時間と、削除したことを示す識別情報(削除マークM5)とを第1表示領域R1に表示させてもよい。これにより、誤認識だけでなく、独り言など、そもそも相手に送る意図のない発言を削除し、混乱を防ぐことができる。
音声要求部115は、サーバ2に認識処理及び翻訳処理の結果(テキスト)を音声に変換する要求を行う。具体的には、情報処理装置1Bの音声要求部115は、情報処理装置1Aから取得する認識処理及び翻訳処理の結果(テキスト)を音声に変換する要求をサーバ2に送信する。サーバ2は、情報処理装置1Bから音声変換要求を取得すると、前記テキストに対する音声変換処理を実行して、変換結果を情報処理装置1Bに送信する。例えば、サーバ2は、テキスト「こんにちは」の翻訳結果「Hello」を音声データに変換して情報処理装置1Bに送信する。情報処理装置1Bの音声要求部115は、サーバ2から前記音声データを取得すると、図5に示すように、情報処理装置1Bのスピーカ13から「Hello」の音声を出力(再生)させる。なお、ユーザAが前記テキスト「こんにちは」を「こんばんは」に修正した場合には、情報処理装置1Bの音声要求部115は、図7に示すように、サーバ2から「こんばんは」の翻訳結果「Good evening」の音声データを取得して、情報処理装置1Bのスピーカ13から「Good evening」の音声を出力させる。これにより、例えば、日本語を使用するユーザAと、英語を使用するユーザBとが、スムーズに会話を行うことが可能となる。なお、制御部11は、ユーザによりテキストが修正された場合に、修正後のテキストを音声出力させるか否かをユーザが任意に選択可能な構成としてもよい。例えば、制御部11は、修正後のテキストを音声出力させるか否かを選択する選択画面(不図示)を情報処理装置1に表示させて、ユーザから選択操作を受け付けてもよい。
[サーバ2]
図2に示すように、サーバ2は、制御部21、記憶部22、及び通信インターフェース23などを備える。なお、サーバ2は、1台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、サーバ2は、物理サーバであってもよいし、クラウドサーバであってもよい。また、サーバ2で実行される各種の処理は、一又は複数のプロセッサによって分散して実行されてもよい。
通信インターフェース23は、サーバ2を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば、情報処理装置1A,1Bなど)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
記憶部22は、各種の情報を記憶するHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶部である。記憶部22には、制御部21に後述の情報処理(図13、図14参照)を実行させるための情報処理プログラムなどの制御プログラムが記憶されている。例えば、前記情報処理プログラムは、外部サーバから配信されて記憶される。また前記情報処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、サーバ2が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部22に記憶されてもよい。
制御部21は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部21は、前記ROM又は記憶部22に予め記憶された各種の制御プログラムを前記CPUで実行することによりサーバ2を制御する。
具体的に、制御部21は、音声認識部211、音声翻訳部212、音声変換部213などの各種の処理部を含む。なお、制御部21は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部21に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記情報処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。
音声認識部211は、前記音声認識要求に基づいて、情報処理装置1の音声受信部111より受信されるユーザの音声を認識する認識処理を実行する。具体的には、音声認識部211は、情報処理装置1Aから前記音声認識要求を取得すると、ユーザAが発話した「こ」を認識してテキスト情報の「こ」に変換する。また、音声認識部211は、ユーザAが発話した「こんにちは」を認識してテキスト情報の「こんにちは」に変換する。前記テキスト情報に漢字変換可能なワードが含まれる場合には、音声認識部211は、漢字のテキストに変換する。音声認識部211は、音声の認識結果(テキスト)を前記音声認識要求の要求元の情報処理装置1Aに送信する。
音声翻訳部212は、前記音声翻訳要求に基づいて、情報処理装置1から取得するテキストを翻訳する翻訳処理を実行する。具体的には、ユーザAが表示画面D1(図3参照)においてボタンK2で「日本語」を選択し、ボタンK3で「英語」を選択した場合に、音声翻訳部212は、情報処理装置1Aからテキスト「こんにちは」の前記音声翻訳要求を取得すると、「こんにちは」を「Hello」に変換する。音声翻訳部212は、前記テキストの翻訳結果(テキスト)を前記音声翻訳要求の要求元の情報処理装置1Aに送信する。
音声変換部213は、前記音声変換要求に基づいて、情報処理装置1から取得するテキストを音声に変換する音声変換処理を実行する。具体的には、音声変換部213は、情報処理装置1Bからテキスト「Hello」の前記音声変換要求を取得すると、「Hello」の音声データに変換する。音声変換部213は、前記テキストの変換結果(音声データ)を前記音声変換要求の要求元の情報処理装置1Bに送信する。
[情報処理]
以下、図13を参照しつつ、会議システム100によって実行される情報処理の手順の一例について説明する。前記情報処理は、例えば、情報処理装置1Aの制御部11、情報処理装置1Bの制御部11、及びサーバ2の制御部21によって実行される。例えば、情報処理装置1A,1Bの制御部11が会議システムを開始することにより前記情報処理プログラムの実行を開始することによって、前記情報処理の実行を開始する。
なお、本発明は、前記情報処理に含まれる一又は複数のステップを実行する情報処理方法の発明として捉えることができる。また、ここで説明する前記情報処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記情報処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは情報処理装置1Aの制御部11、情報処理装置1Bの制御部11、及びサーバ2の制御部21によって前記情報処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、1又は複数のプロセッサによって前記情報処理における各ステップが分散して実行されてもよい。
ステップS1において、情報処理装置1Aの制御部11は、ユーザAの発話した音声の録音を開始する。例えば、ユーザAが表示画面D1のボタンK1を押下すると、情報処理装置1Aの制御部11は録音を開始して、ユーザAの前記音声をマイク14から受信する。また情報処理装置1Aの制御部11は、ユーザAの前記音声を受信中であること(すなわちユーザAが発話中であること)を示すステータス情報を情報処理装置1Bに送信する。
ステップS2において、情報処理装置1Bの制御部11は、情報処理装置1Aから前記ステータス情報(発話中)を受信すると、図4に示すように、ユーザAが発話中であることを示す識別情報(発話中マークM1)を情報処理装置1Bの表示画面D1に表示させる。
ユーザAが表示画面D1のボタンK1を押下すると、情報処理装置1Aの制御部11は録音を終了し(S3)、音声認識要求をサーバ2に送信する(S4)。例えば、ユーザAの発話「こんにちは」に対応する音声認識要求をサーバ2に送信する。
ステップS5において、サーバ2の制御部21は、情報処理装置1Aから前記音声認識要求を受信すると、ユーザAの音声を認識する認識処理を実行する。例えば、制御部21は、ユーザAが発話した「こんにちは」を認識してテキスト情報の「こんにちは」に変換する。制御部21は、音声の認識結果(テキスト)を前記音声認識要求の要求元の情報処理装置1Aに送信する。
情報処理装置1Aの制御部11は、サーバ2から前記認識結果を取得すると(S6)、当該認識結果に対応する音声翻訳要求をサーバ2に送信する(S7)。例えば、テキスト「こんにちは」に対応する音声翻訳要求をサーバ2に送信する。
ステップS8において、サーバ2の制御部21は、情報処理装置1Aから前記音声翻訳要求を受信すると、前記テキストを翻訳する翻訳処理を実行する。例えば、制御部21は、日本語の「こんにちは」を英語の「Hello」に翻訳する。制御部21は、テキストの翻訳結果(テキスト)を前記音声翻訳要求の要求元の情報処理装置1Aに送信する。
情報処理装置1Aの制御部11は、サーバ2から前記翻訳結果を取得すると(S9)、第1表示領域R1(図5参照)に当該翻訳結果である「Hello」のテキストを表示させる(S10)。また、情報処理装置1Aの制御部11は、前記認識処理及び翻訳処理の結果と、ステータス情報(処理完了)とを情報処理装置1Bに送信する。
情報処理装置1Bの制御部11は、情報処理装置1Aから前記認識処理及び翻訳処理の結果とステータス情報(処理完了)とを受信すると(S11)、図5に示すように、「こんにちは」に対する認識処理及び翻訳処理の結果を第1表示領域R1に表示させる(S12)。
ステップS13において、情報処理装置1Bの制御部11は、音声変換要求をサーバ2に送信する。例えば、情報処理装置1Bの制御部11は、翻訳結果「Hello」に対応する音声変換要求をサーバ2に送信する。
ステップS14において、サーバ2の制御部21は、情報処理装置1Bから前記音声変換要求を受信すると、情報処理装置1Bから取得するテキストを音声に変換する音声変換処理を実行する。例えば、制御部21は、情報処理装置1Bからテキスト「Hello」の前記音声変換要求を取得すると、「Hello」の音声データに変換する。制御部21は、前記テキストの変換結果(音声データ)を前記音声変換要求の要求元の情報処理装置1Bに送信する。
情報処理装置1Bの制御部21は、サーバ2から前記変換結果(音声データ)を取得すると(S15)、当該変換結果に対応する音声をスピーカ13から出力(再生)させる。例えば、制御部21は、情報処理装置1Bのスピーカ13から「Hello」の音声を出力(再生)させる。
ここで、ユーザAの発話に対応する前記認識結果(テキスト)が情報処理装置1Aの第1表示領域R1及び第2表示領域R2に表示された後に、ユーザAから前記認識結果(テキスト)に対する修正操作(図6参照)を受け付けた場合(図14のステップS21)、情報処理装置1Aの制御部11は、前記テキストを修正中であることを示す識別情報(修正中マークM2)を情報処理装置1Aの表示画面D1に表示させる(S22)。また、情報処理装置1Bの制御部11は、情報処理装置1AからユーザAが前記テキストを修正中であることを示すステータス情報を受信すると(S23)、修正中マークM2を情報処理装置1Bの表示画面D1に表示させる(S24)。
ユーザAが修正操作を終えて再送のボタンK4を押下すると(S25)、情報処理装置1Aの制御部11は、修正後の前記テキストに対する音声翻訳要求をサーバ2に送信する(S26)。例えば、テキスト「こんばんは」に対応する音声翻訳要求をサーバ2に送信する。
ステップS27において、サーバ2の制御部21は、情報処理装置1Aから前記音声翻訳要求を受信すると、前記テキストを翻訳する翻訳処理を実行する。例えば、制御部21は、日本語の「こんばんは」を英語の「Good evening」に翻訳する。制御部21は、修正後のテキストの翻訳結果(テキスト)を前記音声翻訳要求の要求元の情報処理装置1Aに送信する。その後の処理(S28~S35)は、図13に示す処理(S9~S16)と同一である。
以上のようにして、会議システム100は、前記情報処理を実行する。上述のように、本実施形態に係る会議システム100は、ネットワークN1を介して接続された情報処理装置1A,1Bにおいて、ユーザが発話した音声に対応するテキスト情報を送受信可能である。また、会議システム100は、情報処理装置1AのユーザAが発話した音声を受信して前記音声を認識する。また会議システム100は、認識した前記音声に対応するテキストを、情報処理装置1A,1Bのそれぞれの第1表示領域R1と、情報処理装置1Aの第2表示領域R2とに表示させる。さらに、会議システム100は、第2表示領域R2に表示された前記テキストに対するユーザAの修正操作を受け付ける。これにより、例えばユーザAが発話した音声に対応するテキスト情報に誤りが生じた場合に、ユーザAは当該テキストを修正することができるため、適切なテキスト情報の送受信を円滑に行うことが可能となる。また、ユーザAが修正操作をしている場合に、情報処理装置1Bに、前記テキストが修正されていることを示す情報が表示されるため、ユーザBは前記テキストが修正されることを把握することができる。よって、ユーザBが、誤ったテキストに応答してしまうことを防止することもできる。
本発明の情報処理システムは上述の構成に限定されない。
会議システム100は、翻訳機能を備えていなくてもよい。この場合、会議システム100は、情報処理装置1A,1Bにおいて同一言語のテキスト情報を送受信する。
また、会議システム100は、情報処理装置1Aの表示制御部113は、図15に示すように、情報処理装置1BのユーザBが発話した音声(本発明の第2音声の一例)に対応するテキスト(本発明の第2テキストの一例)を情報処理装置1Aの第3表示領域R3に表示させてもよい。すなわち、表示画面D1には、ユーザA(本発明の第1ユーザの一例)の発話内容を音声認識した結果がリアルタイムに第2表示領域R2に表示され、所定のタイミングで区切られた発話内容を音声認識した結果が第1表示領域R1に表示され、ユーザB(本発明の第2ユーザの一例)の発話内容を音声認識した結果がリアルタイムに第3表示領域R3に表示される。なお、第3表示領域R3には、ユーザBの発話内容に対応するテキストに対するユーザBの修正操作の内容が表示される。このため、ユーザAはユーザBがテキストを修正していること、修正している箇所などを把握することができる。
なお、第1表示領域R1には、時系列で古い順に発話内容が上から下に表示される。すなわち、第1表示領域R1において、最新の発話内容が一番下に表示される。このため、第2表示領域R2は第1表示領域R1の下に配置されることが好ましい。これにより、第1表示領域R1に表示される修正対象の発話内容が第2表示領域R2の近くに表示されるため、ユーザは第2表示領域R2において修正操作を行い易くなる。また、第3表示領域R3は第1表示領域R1の上に配置されることが好ましい。これにより、第2表示領域R2と第3表示領域R3とが離れて配置されるため、ユーザは自身の修正操作と相手の修正操作とを見分け易くなる。なお、第1表示領域R1において時系列で古い順に発話内容が下から上に表示される場合、すなわち、第1表示領域R1において最新の発話内容が一番上に表示される場合には、第2表示領域R2が第1表示領域R1の上に配置され、第3表示領域R3が第1表示領域R1の下に配置されることが好ましい。
また、会議システム100において、情報処理装置1の表示制御部113及び修正受付部114は、サーバ2に含まれてもよい。また、会議システム100において、サーバ2の音声認識部211、音声翻訳部212、及び音声変換部213は、情報処理装置1に含まれてもよい。
尚、本発明の情報処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。
1 :情報処理装置
1A :情報処理装置
1B :情報処理装置
2 :サーバ
100 :会議システム
111 :音声受信部
112 :処理要求部
113 :表示制御部
114 :修正受付部
115 :音声要求部
211 :音声認識部
212 :音声翻訳部
213 :音声変換部
R1 :第1表示領域
R2 :第2表示領域
R3 :第3表示領域

Claims (9)

  1. ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理システムであって、
    前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信部と、
    前記音声受信部より受信される前記第1音声を認識する音声認識部と、
    前記音声認識部により認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示制御部と、
    前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付部と、
    を備え
    前記表示制御部は、
    (1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
    (2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理システム。
  2. 前記修正操作情報は、前記第1ユーザの識別情報を含む、
    請求項に記載の情報処理システム。
  3. 前記表示制御部は、前記第2情報処理装置の前記第1表示領域において、前記第1テキストのうち前記第1ユーザの修正部分を識別可能に表示させる、
    請求項1又は請求項に記載の情報処理システム。
  4. 前記表示制御部は、前記第1ユーザが前記第2表示領域に表示された前記テキストを修正中に、前記第2情報処理装置の前記第1表示領域において、リアルタイムに当該第1テキストの修正部分を識別可能に表示させる、
    請求項に記載の情報処理システム。
  5. 前記表示制御部は、前記第2情報処理装置の前記第1表示領域において、前記第1ユーザが修正する前の前記第1テキストと、前記第1ユーザが修正した後の前記第1テキストとの両方を表示させる、
    請求項1又は請求項に記載の情報処理システム。
  6. 前記表示制御部は、前記第1ユーザの第1言語の発話に応じてリアルタイムに前記第1言語の前記テキストを前記第2表示領域に表示させ、所定のタイミングで区切られた期間の発話内容に対応する前記第1テキストを第2言語に変換した前記第2言語の前記第1テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、
    請求項1から請求項のいずれか1項に記載の情報処理システム。
  7. 前記表示制御部は、前記第2情報処理装置の第2ユーザが発話した第2音声に対応する第2テキストを前記第1情報処理装置の第3表示領域に表示させる、
    請求項1から請求項のいずれか1項に記載の情報処理システム。
  8. ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信可能な情報処理方法であって、
    前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、
    前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、
    前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、
    前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、
    を一又は複数のプロセッサ実行し、
    前記表示ステップにおいて、
    (1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
    (2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理方法。
  9. ネットワークを介して接続された第1情報処理装置及び第2情報処理装置において、ユーザが発話した音声に対応するテキスト情報を送受信させることが可能な情報処理プログラムであって、
    前記第1情報処理装置の第1ユーザが発話した第1音声を受信する音声受信ステップと、
    前記音声受信ステップより受信される前記第1音声を認識する音声認識ステップと、
    前記音声認識ステップにより認識される前記第1音声に対応する第1テキストを、前記第1情報処理装置の表示部及び前記第2情報処理装置の表示部のそれぞれに含まれる第1表示領域と、前記第1情報処理装置の前記表示部に含まれる第2表示領域とに表示させる表示ステップと、
    前記第2表示領域に表示される前記第1テキストに対する前記第1ユーザの修正操作を受け付ける修正受付ステップと、
    を一又は複数のプロセッサに実行させるための情報処理プログラムであって、
    前記表示ステップにおいて、
    (1)前記第1ユーザの発話が開始されると前記第1ユーザの発話内容に対応するテキストをリアルタイムで前記第2表示領域に表示させ、所定のタイミングで区切られた期間の前記第1ユーザの発話内容に対応する前記第1テキストを、前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させ、
    (2)前記第2表示領域に表示された前記テキストに対して前記第1ユーザの修正操作が開始された場合に、当該修正操作が行われていることを示す修正操作情報を前記第2情報処理装置の前記表示部に表示させ、その後に前記第1ユーザの修正操作が完了した場合に、修正後の前記テキストを前記第1情報処理装置及び前記第2情報処理装置のそれぞれの前記第1表示領域に表示させる、情報処理プログラム
JP2020087888A 2020-05-20 2020-05-20 情報処理システム、情報処理方法、及び情報処理プログラム Active JP7489232B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020087888A JP7489232B2 (ja) 2020-05-20 2020-05-20 情報処理システム、情報処理方法、及び情報処理プログラム
US17/240,867 US11804223B2 (en) 2020-05-20 2021-04-26 Information processing system, information processing method, and recording medium having stored thereon information processing program
CN202110534035.3A CN113722423A (zh) 2020-05-20 2021-05-17 信息处理系统、信息处理方法及信息处理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020087888A JP7489232B2 (ja) 2020-05-20 2020-05-20 情報処理システム、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2021182091A JP2021182091A (ja) 2021-11-25
JP7489232B2 true JP7489232B2 (ja) 2024-05-23

Family

ID=78607049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020087888A Active JP7489232B2 (ja) 2020-05-20 2020-05-20 情報処理システム、情報処理方法、及び情報処理プログラム

Country Status (3)

Country Link
US (1) US11804223B2 (ja)
JP (1) JP7489232B2 (ja)
CN (1) CN113722423A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015149042A (ja) 2014-02-10 2015-08-20 日本電信電話株式会社 表示制御方法、表示制御装置及び表示制御プログラム
JP2017161850A (ja) 2016-03-11 2017-09-14 株式会社東芝 会議支援装置、会議支援方法、及び会議支援プログラム
JP2018092365A (ja) 2016-12-02 2018-06-14 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844454B2 (en) * 2003-03-18 2010-11-30 Avaya Inc. Apparatus and method for providing voice recognition for multiple speakers
US8351581B2 (en) * 2008-12-19 2013-01-08 At&T Mobility Ii Llc Systems and methods for intelligent call transcription
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5374629B2 (ja) 2011-05-24 2013-12-25 株式会社エヌ・ティ・ティ・ドコモ サービスサーバ装置、サービス提供方法、サービス提供プログラム
US9508058B2 (en) * 2012-10-15 2016-11-29 Bank Of America Corporation System providing an interactive conference
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
CN107945802A (zh) * 2017-10-23 2018-04-20 北京云知声信息技术有限公司 语音识别结果处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015149042A (ja) 2014-02-10 2015-08-20 日本電信電話株式会社 表示制御方法、表示制御装置及び表示制御プログラム
JP2017161850A (ja) 2016-03-11 2017-09-14 株式会社東芝 会議支援装置、会議支援方法、及び会議支援プログラム
JP2018092365A (ja) 2016-12-02 2018-06-14 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2021182091A (ja) 2021-11-25
CN113722423A (zh) 2021-11-30
US11804223B2 (en) 2023-10-31
US20210366478A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP3662780B2 (ja) 自然言語を用いた対話システム
JP4768969B2 (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
JP4768970B2 (ja) 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト
US8954335B2 (en) Speech translation system, control device, and control method
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP6725006B2 (ja) 制御装置および機器制御システム
JP6125138B2 (ja) 情報提供システム
JP6897677B2 (ja) 情報処理装置及び情報処理方法
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
JP2018174442A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
KR20160080711A (ko) 통신 기반 통역 장치, 방법 및 시스템
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP7489232B2 (ja) 情報処理システム、情報処理方法、及び情報処理プログラム
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP2003316384A (ja) リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
WO2019142419A1 (ja) 情報処理装置および情報処理方法
JP3614116B2 (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
TWI752437B (zh) 基於至少雙音素的語音輸入操作方法及電腦程式產品
JP7471979B2 (ja) 会議支援システム
JPH10133849A (ja) パーソナルコンピュータおよびエラー通知方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240513

R150 Certificate of patent or registration of utility model

Ref document number: 7489232

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150