JP2024036013A - システム、支援方法、サーバ装置及び通信プログラム - Google Patents

システム、支援方法、サーバ装置及び通信プログラム Download PDF

Info

Publication number
JP2024036013A
JP2024036013A JP2022140702A JP2022140702A JP2024036013A JP 2024036013 A JP2024036013 A JP 2024036013A JP 2022140702 A JP2022140702 A JP 2022140702A JP 2022140702 A JP2022140702 A JP 2022140702A JP 2024036013 A JP2024036013 A JP 2024036013A
Authority
JP
Japan
Prior art keywords
data
text data
terminal
worker
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022140702A
Other languages
English (en)
Other versions
JP7482459B2 (ja
Inventor
美結 西澤
Miyu Nishizawa
真人 藤野
Masato Fujino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daikin Industries Ltd
Fairy Devices Inc
Original Assignee
Daikin Industries Ltd
Fairy Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daikin Industries Ltd, Fairy Devices Inc filed Critical Daikin Industries Ltd
Priority to JP2022140702A priority Critical patent/JP7482459B2/ja
Priority to PCT/JP2023/031135 priority patent/WO2024053476A1/ja
Publication of JP2024036013A publication Critical patent/JP2024036013A/ja
Application granted granted Critical
Publication of JP7482459B2 publication Critical patent/JP7482459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】発話内容を音声認識するシステムにおいて、音声認識に適さない状況が発生していることを、ユーザが把握できるようにする。【解決手段】音声データをテキストデータに変換するシステムであって、1または複数の制御部は、音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、判定結果を出力する。【選択図】図1

Description

本開示は、システム、支援方法、サーバ装置及び通信プログラムに関する。
動画像データ及び音声データを双方向に送受信することで、遠隔でのコミュニケーションを可能にする双方向通信システムが知られている。当該双方向通信システムでは、例えば、音声文字起こし機能等を用いることで、ユーザの発話内容をリアルタイムに音声認識し、テキストデータに変換することができる。この結果、当該双方向通信システムによれば、ユーザの発話内容を文字情報として管理することができる。
特開2021-2747号公報
しかしながら、上記のような双方向通信システムの場合、マイクの故障や、通信状態の悪化、周辺の環境音の影響等の種々の原因により、発話内容の一部が適切に音声認識できないケースがある。
一方で、仮に遠隔でのコミュニケーションが終了した後に、発話内容の一部が適切なテキストデータに変換されていないことが判明したとしても、当該テキストデータを復元させることは困難である。
本開示は、発話内容を音声認識するシステムにおいて、音声認識に適さない状況が発生していることを、ユーザが把握できるようにする。
本開示の第1の態様は、
音声データをテキストデータに変換するシステムであって、
1または複数の制御部は、
音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
判定結果を出力する。
本開示の第1の態様によれば、発話内容を音声認識するシステムにおいて、音声認識に適さない状況が発生していることを、ユーザが把握できるようになる。
また、本開示の第2の態様は、第1の態様に記載のシステムであって、
前記1または複数の制御部は、
前記判定結果を、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因を明示して出力する。
また、本開示の第3の態様は、第2の態様に記載のシステムであって、
前記原因には、前記音声データを取得する音声取得装置の周囲の環境音の影響、または、前記音声取得装置の故障のいずれかが含まれる。
また、本開示の第4の態様は、第3の態様に記載のシステムであって、
前記1または複数の制御部は、
前記音声データの取得中に取得される環境音データの大きさが所定の閾値以上となった場合に、前記環境音の影響が原因で、変換後のテキストデータの品質が低下すると判定する。
また、本開示の第5の態様は、第3の態様に記載のシステムであって、
前記1または複数の制御部は、
前記取得中の音声データ及び前記音声データの取得中に取得される環境音データの大きさのいずれもが所定の閾値未満となった場合に、前記音声取得装置の故障が原因で、テキストデータに変換できないと判定する。
また、本開示の第6の態様は、第2の態様に記載のシステムであって、
前記原因には、双方向通信の通信状態の悪化が含まれる。
また、本開示の第7の態様は、第6の態様に記載のシステムであって、
前記1または複数の制御部は、
前記音声データの取得中に双方向通信が切断した場合に、前記通信状態の悪化が原因で、テキストデータに変換できないと判定する。
また、本開示の第8の態様は、第2の態様に記載のシステムであって、
作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末と、前記作業者端末と前記支援者端末との間の双方向通信を実現するサーバ装置とを有し、
前記サーバ装置が有する制御部は、
音声データをテキストデータに変換する。
また、本開示の第9の態様は、第8の態様に記載のシステムであって、
前記サーバ装置が有する制御部は、
前記音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
前記支援者端末が有する制御部は、
前記判定結果を出力する。
また、本開示の第10の態様は、第9の態様に記載のシステムであって、
前記作業者端末は、前記音声データを取得する音声取得装置を有し、
前記サーバ装置の制御部は、
前記音声データの取得中に取得される環境音データの大きさが所定の閾値以上となった場合に、前記音声取得装置の周囲の環境音の影響が原因で、変換後のテキストデータの品質が低下すると判定する。
また、本開示の第11の態様は、第9の態様に記載のシステムであって、
前記作業者端末は、前記音声データを取得する音声取得装置を有し、
前記サーバ装置の制御部は、
前記取得中の音声データの大きさ及び前記音声データの取得中に取得される環境音データの大きさのいずれもが所定の閾値未満となった場合に、前記音声取得装置の故障が原因で、テキストデータに変換できないと判定する。
また、本開示の第12の態様は、第9の態様に記載のシステムであって、
前記サーバ装置が有する制御部は、
前記作業者端末から一定期間、音声データが送信されず、双方向通信が切断したと判定した場合に、前記双方向通信の通信状態の悪化が原因で、前記作業者端末が有する制御部により取得中の音声データをテキストデータに変換できないと判定する。
また、本開示の第13の態様は、第10乃至12のいずれかの態様に記載のシステムであって、
前記支援者端末が有する制御部は、
前記判定結果を、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因を明示するアイコンを用いて表示する。
また、本開示の第14の態様は、第10または11の態様に記載のシステムであって、
前記作業者端末が有する制御部は、
前記音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
前記判定結果を、音声、光、振動の少なくともいずれか1つにより報知する。
また、本開示の第15の態様は、第9の態様に記載のシステムであって、
前記サーバ装置の制御部は、
前記テキストデータと、前記判定結果とを対応付けて格納する。
また、本開示の第16の態様は、第15の態様に記載のシステムであって、
前記支援者端末が有する制御部は、
格納された前記テキストデータを読み出し、対応する前記判定結果に応じた表示態様で表示する。
また、本開示の第17の態様は、第8の態様に記載のシステムであって、
前記サーバ装置が有する制御部は、
テキストデータに変換できなかった箇所、または、品質が低下した箇所について、前後のテキストデータを用いて修正する。
また、本開示の第18の態様は、第9の態様に記載のシステムであって、
前記サーバ装置が有する制御部は、
前記作業者端末により撮影された画像から、前記作業者の作業内容を特定し、特定した作業内容を前記判定結果と対応付けて格納する。
また、本開示の第19の態様は、第9の態様に記載のシステムであって、
前記作業者端末が有する制御部は、
取得した音声データを格納し、前記サーバ装置から要求があった場合に、前記要求に応じた範囲の音声データを前記サーバ装置に送信する。
また、本開示の第20の態様は、
音声データをテキストデータに変換するシステムによる支援方法であって、
音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定する判定工程と、
判定結果を出力する出力工程とを有する。
また、本開示の第21の態様は、
作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末との間の双方向通信を実現する制御部を有するサーバ装置であって、
前記制御部は、
音声データをテキストデータに変換し、
前記作業者端末または前記支援者端末による音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定した場合に、判定結果に応じた指示を前記作業者端末または前記支援者端末に送信する。
また、本開示の第22の態様は、通信プログラムであって、
作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末との間の双方向通信を実現するサーバ装置の制御部に、
音声データをテキストデータに変換する変換工程と、
前記作業者端末または前記支援者端末による音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定した場合に、判定結果に応じた指示を前記作業者端末または前記支援者端末に送信する送信工程とを実行させる。
双方向通信システムのシステム構成の一例を示す第1の図である。 サーバ装置のハードウェア構成の一例、及び、作業者端末及び支援者端末のハードウェア構成の一例を示す図である。 作業者端末の機能構成の一例を示す第1の図である。 サーバ装置の機能構成の詳細の一例を示す第1の図である。 支援者端末の機能構成の一例を示す第1の図である。 双方向通信システムにおいて、作業者端末から支援者端末へ音データを送信する場合の通信処理の流れを示す第1のシーケンス図である。 双方向通信システムにおいて、支援者端末から作業者端末へ音データを送信する場合の通信処理の流れを示す第1のシーケンス図である。 支援者端末の表示画面例を示す図である。 作業者端末の機能構成の一例を示す第2の図である。 サーバ装置の機能構成の詳細の一例を示す第2の図である。 支援者端末の機能構成の一例を示す第2の図である。 双方向通信システムにおいて、作業者端末から支援者端末へ音データを送信する場合の通信処理の流れを示す第2のシーケンス図である。 双方向通信システムにおいて、支援者端末から作業者端末へ音データを送信する場合の通信処理の流れを示す第2のシーケンス図である。 双方向通信システムのシステム構成の一例を示す第2の図である。 テキストデータの利用例を示す図である。 サーバ装置の機能構成の詳細の一例を示す第3の図である。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。
[第1の実施形態]
<双方向通信システムのシステム構成>
はじめに、第1の実施形態に係るシステムの一例である双方向通信システムのシステム構成について説明する。図1は、双方向通信システムのシステム構成の一例を示す第1の図である。図1に示すように、双方向通信システム100は、サーバ装置110とクライアント端末(作業者端末120、支援者端末130)とを有する。
なお、本実施形態では、
・作業現場で作業する作業者150と、
・作業者150に対して遠隔から各種作業指示を行うことで、作業者150を遠隔支援する支援者160と、
が、双方向通信システム100を用いてコミュニケーションを行うケースについて説明する。このため、上述したように、本実施形態において双方向通信システム100を構成するクライアント端末には、作業者150が用いる作業者端末120と、支援者160が用いる支援者端末130とが含まれる。ただし、双方向通信システム100を構成するクライアント端末は、作業者端末120と支援者端末130との組み合わせに限定されない。
サーバ装置110は、ネットワーク140を介してクラウドサービス(双方向通信サービス)を提供する装置である。具体的には、サーバ装置110には、双方向通信プログラムがインストールされており、当該プログラムが実行されることで、サーバ装置110は、双方向通信部111、テキストデータ管理部112として機能する。これにより、サーバ装置110は、作業者150及び支援者160に対して双方向通信サービスを提供する。
具体的には、サーバ装置110において、双方向通信部111は、作業者端末120及び支援者端末130と通信接続し、
・作業者端末120から受信した動画像データ及び音データを、支援者端末130に送信し、
・作業者端末120において検知された検知結果(詳細は後述)等に基づく表示指示を、支援者端末130に送信し、
・支援者端末130から受信した音データを、作業者端末120に送信し、
・支援者端末130において検知された検知結果(詳細は後述)に基づく表示指示を、支援者端末130に送信する。
なお、双方向通信部111は、
・作業者端末120において取得中の作業者150の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・作業者端末120において取得中の作業者150の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を、作業者端末120において検知された検知結果等に基づいて判定し、判定結果に応じた表示指示を支援者端末130に送信する。
同様に、双方向通信部111は、
・支援者端末130において取得中の支援者160の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・支援者端末130において取得中の支援者160の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を、支援者端末130において検知された検知結果に基づいて判定し、判定結果に応じた表示指示を支援者端末130に送信する。
サーバ装置110において、テキストデータ管理部112は、作業者端末120と支援者端末130との間で双方向に送受信される音データに含まれる音声データを、リアルタイムにテキストデータに変換し、格納する。
作業者端末120は、例えば、作業現場において作業者150によって装着されるウェアラブル端末である。なお、本実施形態において、作業現場は、双方向通信の通信品質が劣化しやすい環境にあるとする。
作業者端末120は、作業現場の動画像を撮影する機能、及び、音声(例えば、作業者150の発話に基づく音声)を含む音を検出する機能を有する。また、作業者端末120は、作業現場の様子を撮影した動画像データや、作業者150の発話に基づく音声データを含む音データを、ネットワーク140及びサーバ装置110を介して支援者端末130に送信する機能を有する。
また、作業者端末120は、
・作業者150の発話に基づく音声データをテキストデータに変換すること、または、
・変換後のテキストデータの品質、
に影響を与える「環境音の状態」、「マイクの状態」、「通信の状態」を検知し、検知結果を作業者150に報知するとともに、「環境音の状態」、「マイクの状態」についての検知結果をサーバ装置110に送信する。
また、作業者端末120は、支援者160の発話に基づく音声データを含む音データを受信し、出力する機能を有する。
支援者端末130は、例えば、支援者160が常駐する事務所に設置され、支援者160により操作される端末である。
支援者端末130は、音声(例えば、支援者160の発話に基づく音声)を含む音を検出する機能を有する。また、支援者端末130は、支援者160の発話に基づく音声データを含む音データを、ネットワーク140及びサーバ装置110を介して作業者端末120に送信する機能を有する。
また、支援者端末130は、
・支援者160の発話に基づく音声データをテキストデータに変換すること、または、
・変換後のテキストデータの品質、
に影響を与える「環境音の状態」、「マイクの状態」、「通信の状態」を検知し、このうち、「環境音の状態」、「マイクの状態」についての検知結果をサーバ装置110に送信する。
また、支援者端末130は、作業現場の様子を撮影した動画像データや、作業者150の発話に基づく音声データを含む音データを受信し、出力する機能を有する。
更に、支援者端末130は、サーバ装置110より送信された表示指示(作業者端末120において検知された検知結果に基づく表示指示、支援者端末130において検知された検知結果に基づく表示指示)等に従って、表示画面を表示する機能を有する。
<各装置のハードウェア構成>
次に、双方向通信システム100を構成する各装置(サーバ装置110、作業者端末120、支援者端末130)のハードウェア構成について説明する。図2は、サーバ装置のハードウェア構成の一例、及び、作業者端末及び支援者端末のハードウェア構成の一例を示す図である。
図2(a)に示すように、サーバ装置110は、プロセッサ201、メモリ202、補助記憶装置203、操作装置204、表示装置205、通信装置206、ドライブ装置207を有する。なお、サーバ装置110の各ハードウェアは、バス208を介して相互に接続されている。
プロセッサ201は、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、双方向通信プログラム等)をメモリ202上に読み出して実行する。
メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータ(「制御部」ともいう)を形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
補助記憶装置203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種データを格納する。なお、後述するテキストデータ格納部450は、補助記憶装置203により実現される。
操作装置204は、サーバ装置110の管理者が各種操作を行うための操作デバイスである。表示装置205は、サーバ装置110によりそれぞれ実行される各種処理の処理結果を表示する表示デバイスである。
通信装置206は、ネットワーク140を介して外部装置(例えば、作業者端末120、支援者端末130)と通信を行うための通信デバイスである。
ドライブ装置207は、記憶媒体210をセットするためのデバイスである。ここでいう記憶媒体210には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記憶する媒体が含まれる。また、記憶媒体210には、ROM、フラッシュメモリ等のように情報を電気的に記憶する半導体メモリ等が含まれていてもよい。
なお、補助記憶装置203にインストールされる各種プログラムは、例えば、配布された記憶媒体210がドライブ装置207にセットされ、該記憶媒体210に記憶された各種プログラムがドライブ装置207により読み出されることでインストールされる。あるいは、補助記憶装置203にインストールされる各種プログラムは、通信装置206を介してネットワーク140からダウンロードされることで、インストールされてもよい。
一方、図2(b)に示すように、作業者端末120及び支援者端末130は、プロセッサ221、メモリ222、補助記憶装置223、通信装置224を有する。また、作業者端末120は、GPS(Global Positioning System)装置225、加速度センサ226、撮像装置229を有する。また、作業者端末120及び支援者端末130は、音声取得装置227、音声出力装置228、操作装置230を有する。更に、支援者端末130は、表示装置231、ドライブ装置232を有する。なお、作業者端末120及び支援者端末130それぞれを構成する各ハードウェアは、バス233を介して相互に接続される。
プロセッサ221は、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ221は、各種プログラム(例えば、後述するクライアントプログラム等)をメモリ222上に読み出して実行する。
メモリ222は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ221とメモリ222とは、いわゆるコンピュータ(「制御部」ともいう)を形成し、プロセッサ221が、メモリ222上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
補助記憶装置223は、各種プログラムや、各種プログラムがプロセッサ221によって実行される際に用いられる各種情報を格納する。
通信装置224は、サーバ装置110との間で各種データ(例えば、動画像データ、音データ等)を送受信するための通信デバイスである。GPS装置225は、作業者端末120の位置を検出し、位置データを出力する。加速度センサ226は、作業者端末120を装着する作業者150の動作を検出し、加速度データを出力する。
音声取得装置227は、作業者150及び支援者160の発話に基づく音声や、作業現場における周囲の環境音、事務所における周囲の環境音等を検出し、音データを出力する。
音声出力装置228は、例えば、サーバ装置110から受信した各種データを、作業者端末120を装着した作業者150または支援者端末130を操作する支援者160に音声出力するデバイスである。
撮像装置229は、作業者端末120を装着した作業者150の周囲(作業現場)の様子を撮影し、動画像データを生成する。
操作装置230は、作業者端末120の電源ON/OFFスイッチ等、作業者150の作業者端末120に対する簡易操作を受け付ける。あるいは、操作装置230は、支援者端末130に対する支援者160の各種操作を受け付ける。
表示装置231は、サーバ装置110から受信した動画像データや、表示指示に応じた表示内容を、支援者160に表示するデバイスである。
ドライブ装置232は、記憶媒体240をセットするためのデバイスである。ここでいう記憶媒体240は、上述した記憶媒体210と同様である。
なお、支援者端末130の場合、補助記憶装置223にインストールされる各種プログラムは、例えば、配布された記憶媒体240がドライブ装置232にセットされ、ドライブ装置232により読み出されることでインストールされる。あるいは、補助記憶装置223にインストールされる各種プログラムは、通信装置224を介してネットワーク140からダウンロードされることで、インストールされてもよい。
<作業者端末の機能構成>
次に、作業者端末120の機能構成について説明する。図3は、作業者端末の機能構成の一例を示す第1の図である。上述したように、作業者端末120には、クライアントプログラムがインストールされている。そして、作業者端末120は、当該プログラムが実行されることで、図3に示すように、音データ取得部310、音声分離部320、音圧レベル算出部330、第1検知部340、第2検知部350、通信部360、判定部370、音声出力部380として機能する。なお、図3の例では、説明の簡略化のため、動画像データの処理に関する機能は省略し、音データの処理に関する機能のみを抜粋して示している(以降、音データの処理に関して説明する)。
音データ取得部310は、音声取得装置227において検出された音データを取得し、音声分離部320及び通信部360に通知する。
音声分離部320は、音データ取得部310より通知された音データを、作業者150の発話に基づく音声データと、音声取得装置227の周囲の環境音に基づく環境音データ(音声データ以外の音データ)とに分離する。また、音声分離部320は、分離した音声データと環境音データとを、音圧レベル算出部330に通知する。
音圧レベル算出部330は、音声分離部320より通知された音声データの大きさ(音圧レベル)を算出し、第2検知部350に通知する。また、音圧レベル算出部330は、音声分離部320より通知された環境音データの大きさ(音圧レベル)を算出し、第1検知部340及び第2検知部350に通知する。
第1検知部340は、音圧レベル算出部330より通知された環境音データの音圧レベルが所定の閾値以上であるか否かを判定することで、環境音の状態を検知する。具体的には、第1検知部340は、環境音データの音圧レベルが所定の閾値以上であると判定した場合、環境音の影響が有ることを検知する。
一方、第1検知部340は、環境音データの音圧レベルが所定の閾値未満であると判定した場合、環境音の影響が無いことを検知する。更に、第1検知部340は、検知結果として、環境音の状態(環境音の影響有り、環境音の影響無し)を通信部360に通知する。
第2検知部350は、音圧レベル算出部330より通知された環境音データの音圧レベル及び音声データの音圧レベルが、いずれも所定の閾値未満であるか否かを判定することで、音声取得装置227の状態(マイクの状態)を検知する。具体的には、第2検知部350は、いずれも所定の閾値未満であると判定した場合、音声取得装置227が故障していること(マイク異常)を検知する。一方、第2検知部350は、いずれかの音圧レベルが所定の閾値以上であると判定した場合、音声取得装置227が故障していないこと(マイク正常)を検知する。更に、第2検知部350は、検知結果として、マイクの状態(マイク異常、マイク正常)を通信部360に通知する。
通信部360は、音データ取得部310より通知された音データを、サーバ装置110に送信するとともに、検知結果として、環境音の状態(環境音の影響有り、環境音の影響無し)、マイクの状態(マイク異常、マイク正常)を、サーバ装置110に送信する。
また、通信部360は、作業者端末120とサーバ装置110との間の通信の状態を検知する。具体的には、通信部360は、作業者端末120とサーバ装置110との間の通信接続が切断された場合(一定期間、サーバ装置110から音データが送信されなかった場合)、通信が悪化したことを検知する。また、通信部360は、作業者端末120とサーバ装置110との間の通信接続が継続されている場合(サーバ装置110から音データが送信されている場合)、通信が正常であることを検知する。
また、通信部360は、検知結果として、環境音の状態(環境音の影響有り、環境音の影響無し)、マイクの状態(マイク異常、マイク正常)、通信の状態(通信悪化、通信正常)を、判定部370に通知する。
更に、通信部360は、サーバ装置110より音データを受信し、音声出力部380に通知する。
判定部370は、通信部360より通知された検知結果に基づいて、
・作業者端末120において取得中の作業者150の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・作業者端末120において取得中の作業者150の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を判定する。
具体的には、判定部370は、環境音の影響有りが通知された場合、環境音の影響が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。
また、判定部370は、マイク異常が通知された場合、音声取得装置227の故障が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。
また、判定部370は、通信悪化が通知された場合、通信の悪化が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。
また、判定部370は、環境音の影響無し、マイク正常、通信正常が通知された場合、作業者150の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。
音声出力部380は、通信部360より通知された音データを、音声出力装置228を介して作業者150に出力する。また、音声出力部380は、判定部370より通知された判定結果を、音声出力装置228を介して作業者150に報知する。これにより、作業者150は、作業者150の発話内容を音声認識するのに適さない状況が発生したこと、及び、その原因を把握することができる。この結果、作業者150は、直ちに、原因に応じた対応を採ることができるため、発話内容の一部がテキストデータに適切に変換されていないことが後から判明するといった事態を回避することができる。
<サーバ装置の機能構成の詳細>
次に、サーバ装置110の機能構成の詳細について説明する。上述したように、サーバ装置110には双方向通信プログラムがインストールされており、当該プログラムが実行されることで、双方向通信部111及びテキストデータ管理部112として機能する。
図4は、サーバ装置の機能構成の詳細の一例を示す第1の図である。図4に示すように、双方向通信部111は、更に、通信部410、音声データ取得部420、判定部430を有する。また、テキストデータ管理部112は、更に、テキストデータ生成部440を有する。
通信部410は、作業者端末120より送信された音データを受信し、支援者端末130に送信するとともに音声データ取得部420に通知する。また、通信部410は、支援者端末130より送信された音データを受信し、作業者端末120に送信するとともに音声データ取得部420に通知する。
また、通信部410は、作業者端末120より送信された検知結果(環境音の状態、マイクの状態)及び支援者端末130より送信された検知結果(環境音の状態、マイクの状態)を受信し、判定部430に通知する。
また、通信部410は、作業者端末120とサーバ装置110との間の通信の状態を検知する。具体的には、通信部360は、作業者端末120とサーバ装置110との間の通信接続が切断された場合(一定期間、作業者端末120から音データが送信されなかった場合)、通信が悪化したことを検知する。また、通信部360は、作業者端末120とサーバ装置110との間の通信接続が継続されている場合(作業者端末120から音データが送信されている場合)、通信が正常であることを検知する。また、通信部410は、検知結果として、通信の状態(通信悪化、通信正常)を、判定部430に通知する。
同様に、通信部410は、支援者端末130とサーバ装置110との間の通信の状態を検知する。具体的には、通信部410は、支援者端末130とサーバ装置110との間の通信接続が切断された場合(一定期間、支援者端末130から音データが送信されなかった場合)、通信が悪化したことを検知する。また、通信部410は、支援者端末130とサーバ装置110との間の通信接続が継続されている場合、通信が正常であることを検知する。また、通信部410は、検知結果として、通信の状態(通信悪化、通信正常)を、判定部430に通知する。
また、通信部410は、作業者端末120についての検知結果(環境音の状態、マイクの状態、通信の状態)を通知したことに応じて判定部430より通知された表示内容(環境音の状態、マイクの状態、通信の状態)を含む表示指示を、支援者端末130に送信する。また、通信部410は、支援者端末130についての検知結果(環境音の状態、マイクの状態、通信の状態)を通知したことに応じて判定部430より通知された表示内容(環境音の状態、マイクの状態)を含む表示指示を、支援者端末130に送信する。
音声データ取得部420は、通信部410より通知された音データから、音声データを取得し、テキストデータ管理部112のテキストデータ生成部440に通知する。
判定部430は、通信部410より通知された、作業者端末120についての検知結果(環境音の状態、マイクの状態、通信の状態)に基づいて、
・作業者端末120において取得中の作業者150の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・作業者端末120において取得中の作業者150の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を判定し、判定結果に応じた表示内容(環境音の状態、マイクの状態、通信の状態)を決定する。
具体的には、判定部430は、環境音の影響有りが通知された場合、環境音の影響が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。そして、判定部430は、判定結果に応じた表示内容(環境音の状態)を決定する。
また、判定部430は、マイク異常が通知された場合、音声取得装置227の故障が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。そして、判定部430は、判定結果に応じた表示内容(マイクの状態)を決定する。
また、判定部430は、通信悪化が通知された場合、通信の悪化が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。そして、判定部430は、判定結果に応じた表示内容(通信の状態)を決定する。
また、判定部430は、環境音の影響無し、マイク正常、通信状態正常が通知された場合、作業者150の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。そして、判定部430は、判定結果に応じた表示内容(環境音の状態、マイクの状態、通信の状態)を決定する。
同様に、判定部430は、通信部410より通知された、支援者端末130についての検知結果(環境音の状態、マイクの状態、通信の状態)に基づいて、
・支援者端末130において取得中の支援者160の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・支援者端末130において取得中の支援者160の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を判定し、判定結果に応じた表示内容(環境音の状態、マイクの状態)を決定する。
具体的には、判定部430は、環境音の影響有りが通知された場合、環境音の影響が原因で、支援者160の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。そして、判定部430は、判定結果に応じた表示内容(環境音の状態)を決定する。
また、判定部430は、マイク異常が通知された場合、音声取得装置227の故障が原因で、支援者160の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。そして、判定部430は、判定結果に応じた表示内容(マイクの状態)を決定する。
また、判定部430は、通信悪化が通知された場合、通信の悪化が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。
また、判定部430は、環境音の影響無し、マイク正常、通信正常が通知された場合、支援者160の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。そして、判定部430は、判定結果に応じた表示内容(環境音の状態、マイクの状態)を決定する。
更に、判定部430は、判定結果を、後述するテキストデータと対応付けて、テキストデータ格納部450に格納する。
テキストデータ生成部440は、音声データ取得部420より通知された音声データについて音声認識を行い、テキストデータに変換する。また、テキストデータ生成部440は、変換したテキストデータを、判定結果と対応付けて、テキストデータ格納部450に格納する。
<支援者端末の機能構成>
次に、支援者端末130の機能構成について説明する。図5は、支援者端末の機能構成の一例を示す第1の図である。上述したように、支援者端末130には、クライアントプログラムがインストールされている。そして、支援者端末130は、当該プログラムが実行されることで、図5に示すように、音データ取得部510、音声分離部520、音圧レベル算出部530、第1検知部540、第2検知部550、通信部560として機能する。更に、支援者端末130は、音声出力部570、表示制御部580、判定部590として機能する。
音データ取得部510は、音声取得装置227において検出された音データを取得し、音声分離部520及び通信部560に通知する。
音声分離部520は、音データ取得部510より通知された音データを、支援者160の発話に基づく音声データと、音声取得装置227の周囲の環境音に基づく環境音データ(音声データ以外の音データ)とに分離する。また、音声分離部520は、分離した音声データと環境音データとを、音圧レベル算出部530に通知する。
音圧レベル算出部530は、音声分離部520より通知された音声データの音圧レベルを算出し、第2検知部550に通知する。また、音圧レベル算出部530は、音声分離部520より通知された環境音データの音圧レベルを算出し、第1検知部540及び第2検知部550に通知する。
第1検知部540は、音圧レベル算出部530より通知された環境音データの音圧レベルが所定の閾値以上であるか否かを判定することで、環境音の状態を検知する。具体的には、第1検知部540は、環境音データの音圧レベルが所定の閾値以上であると判定した場合、環境音の影響が有ること検知する。
一方、第1検知部540は、環境音データの音圧レベルが所定の閾値未満であると判定した場合、環境音の影響が無いことを検知する。更に、第1検知部540は、検知結果として、環境音の状態(環境音の影響有り、環境音の影響無し)を通信部560に通知する。
第2検知部550は、音圧レベル算出部530より通知された環境音データの音圧レベル及び音声データの音圧レベルが、いずれも所定の閾値未満であるか否かを判定することで、音声取得装置227の状態(マイクの状態)を検知する。具体的には、第2検知部550は、いずれも所定の閾値未満であると判定した場合、音声取得装置227が故障していること(マイク異常)を検知する。一方、第2検知部550は、いずれかの音圧レベルが所定の閾値以上であると判定した場合、音声取得装置227が故障していないこと(マイク正常)を検知する。更に、第2検知部550は、検知結果として、マイクの状態(マイク異常、マイク正常)を通信部560に通知する。
通信部560は、音データ取得部510より通知された音データを、サーバ装置110に送信するとともに、検知結果として、環境音の状態(環境音の影響有り、環境音の影響無し)、マイクの状態(マイク異常、マイク正常)を、サーバ装置110に送信する。
また、通信部560は、支援者端末130とサーバ装置110との間の通信の状態を検知する。具体的には、通信部560は、支援者端末130とサーバ装置110との間の通信接続が切断された場合(一定期間、サーバ装置110から音データが送信されなかった場合)、通信が悪化したことを検知する。また、通信部560は、支援者端末130とサーバ装置110との間の通信接続が継続されている場合(サーバ装置110から音データが送信されている場合)、通信が正常であることを検知する。
また、通信部560は、検知結果として、通信の状態(通信悪化、通信正常)を、判定部590に通知する。
また、通信部560は、サーバ装置110より音データを受信し、音声出力部570に通知する。
更に、通信部560は、サーバ装置110より表示指示を受信し、表示制御部580に通知する。なお、通信部560が受信する表示指示には、
・作業者端末120についての検知結果(環境音の状態、マイクの状態、通信の状態)に対応する表示指示と、
・支援者端末130についての検知結果(環境音の状態、マイクの状態)に対応する表示指示と、
が含まれる。
音声出力部570は、通信部560より通知された音データを、音声出力装置228を介して支援者160に出力する。
判定部590は、通信部410より検知結果として通知された、通信の状態(通信悪化、通信正常)に基づいて、
・作業者端末120において取得中の作業者150の発話に基づく音声データを、テキストデータに変換できるか否か、または、
・作業者端末120において取得中の作業者150の発話に基づく音声データを変換した変換後のテキストデータの品質が低下するか否か、
を判定し、判定結果に応じた表示内容(通話の状態)を決定する。また、判定部590は、決定した表示内容(通信の状態)を含む表示指示を表示制御部580に通知する。
表示制御部580は、通信部560より通知された表示指示及び判定部590より通知された表示指示に含まれる表示内容を、支援者端末130の表示装置231に表示する。
<通信処理の流れ(1)>
次に、双方向通信システム100による通信処理であって、作業者150の発話に基づく音声データが含まれる音データを、作業者端末120から支援者端末130に送信する場合の通信処理の流れについて説明する。図6は、双方向通信システムにおいて、作業者端末から支援者端末へ音データを送信する場合の通信処理の流れを示す第1のシーケンス図である。
ステップS601において、作業者端末120は、作業者150の発話に基づく音声データが含まれる音データを取得する。また、作業者端末120は、取得した音データをサーバ装置110に送信する。
ステップS610において、サーバ装置110は、双方向通信処理を実行する。サーバ装置110による双方向通信処理には、音データの受信及び送信処理、音声データの音声認識処理、通信の状態検知処理、検知結果の取得及び判定処理、表示内容の決定及び表示指示処理、テキストデータ及び判定結果の格納処理が含まれる。ここでは、サーバ装置110は、音データを受信し、支援者端末130に送信する。また、サーバ装置110は、音声データについて音声認識処理を行い、テキストデータに変換する。
ステップS620において、支援者端末130は、音声出力処理を実行する。支援者端末130による音声出力処理には、音データの取得及び出力処理、表示指示に応じた表示処理が含まれる。ここでは、支援者端末130は、音データを取得し、出力する。
ステップS602において、作業者端末120は、音データを音声データと環境音データとに分離する。
ステップS603において、作業者端末120は、音声データの音圧レベルと、環境音データの音圧レベルとを算出する。
ステップS604において、作業者端末120は、環境音データの音圧レベルに基づき、環境音の状態を検知する。また、作業者端末120は、検知結果(環境音の状態)をサーバ装置110に送信する。
ステップS610において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、検知結果(環境音の状態)を受信し、受信した検知結果(環境音の状態)に基づく判定を行うとともに、表示内容(環境音の状態)を決定し、決定した表示内容に応じた表示指示を、支援者端末130に送信する。
なお、サーバ装置110は、環境音の影響無しの検知結果を受信した場合、作業者150の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。その場合、サーバ装置110は、例えば、環境音の状態を明示するアイコンを青色で表示するよう、支援者端末130に指示する。
また、サーバ装置110は、環境音の影響有りの検知結果を受信した場合、環境音の影響が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、サーバ装置110は、例えば、環境音の状態を明示するアイコンを灰色で表示するよう、支援者端末130に指示する。
ステップS620において、支援者端末130は音声出力処理を実行する。ここでは、支援者端末130は、表示指示に応じた表示処理を行う。例えば、支援者端末130は、作業者端末120の環境音の状態を明示するアイコンを青色で表示する。あるいは、支援者端末130は、作業者端末120の環境音の状態を明示するアイコンを灰色で表示する。
ステップS605において、作業者端末120は、ステップS604における検知結果が、"環境音の影響有り"であった場合、作業者150に、判定結果を報知する。具体的には、作業者端末120は、環境音の影響が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下するとの判定結果を、作業者150に報知する。
ステップS606において、作業者端末120は、環境音データの音圧レベル及び音声データの音圧レベルに基づき、マイクの状態を検知する。また、作業者端末120は、検知結果(マイクの状態)をサーバ装置110に送信する。
ステップS610において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、検知結果(マイクの状態)を受信し、受信した検知結果(マイクの状態)に基づく判定を行うとともに、表示内容(マイクの状態)を決定し、決定した表示内容に応じた表示指示を、支援者端末130に送信する。
なお、サーバ装置110は、マイク正常の検知結果を受信した場合、作業者150の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。その場合、サーバ装置110は、例えば、マイクの状態を明示するアイコンを黒色で表示するよう、支援者端末130に指示する。
また、サーバ装置110は、マイク異常の検知結果を受信した場合、音声取得装置227の故障が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、サーバ装置110は、例えば、マイクの状態を明示するアイコンを灰色で表示するよう、支援者端末130に指示する。
ステップS620において、支援者端末130は、音声出力処理を実行する。ここでは、支援者端末130は、表示指示に応じた表示処理を行う。例えば、支援者端末130は、作業者端末120のマイクの状態を明示するアイコンを黒色で表示する。あるいは、支援者端末130は、作業者端末120のマイクの状態を明示するアイコンを灰色で表示する。
ステップS607において、作業者端末120は、ステップS606における検知結果が、"マイク異常"であった場合、作業者150に、判定結果を報知する。具体的には、作業者端末120は、音声取得装置227の故障が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下するとの判定結果を、作業者150に報知する。
ステップS608において、作業者端末120は、通信の状態を検知する。また、ステップS609において、作業者端末120は、ステップS608における検知結果が、"通信悪化"であった場合、作業者150に、判定結果を報知する。具体的には、作業者端末120は、通信の悪化が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下するとの判定結果を、作業者150に報知する。
ステップS610において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、通信の状態を検知し、検知結果(通信の状態)に基づく判定を行うとともに、表示内容(通信の状態)を決定し、決定した表示内容に応じた表示指示を、支援者端末130に送信する。
なお、サーバ装置110は、通信悪化の検知結果を取得した場合、通信の悪化が原因で、作業者150の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、サーバ装置110は、例えば、通信の状態を明示するアイコンを表示するよう、支援者端末130に指示する。
ステップS620において、支援者端末130は音声出力処理を実行する。ここでは、支援者端末130は、表示指示に応じた表示処理を行う。例えば、作業者端末120とサーバ装置110との間の通信の状態を明示するアイコンを表示する。
ステップS610において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、変換したテキストデータと、判定結果とを対応付けて格納する。
なお、図6に示す通信処理は、作業者150と支援者160とが、双方向通信システム100を用いてコミュニケーションを継続する間、繰り返し実行される。
<通信処理の流れ(2)>
次に、双方向通信システム100による通信処理であって、支援者160の発話に基づく音声データが含まれる音データを、支援者端末130から作業者端末120に送信する場合の通信処理の流れについて説明する。図7は、双方向通信システムにおいて、支援者端末から作業者端末へ音データを送信する場合の通信処理の流れを示す第1のシーケンス図である。
ステップS701において、支援者端末130は、支援者160の発話に基づく音声データが含まれる音データを取得する。また、支援者端末130は、取得した音データをサーバ装置110に送信する。
ステップS710において、サーバ装置110は、双方向通信処理を実行する。サーバ装置110による双方向通信処理には、音データの受信及び送信処理、音声データの音声認識処理、通信の状態検知処理、検知結果の取得及び判定処理、表示内容の決定及び表示指示処理、テキストデータ及び判定結果の格納処理が含まれる。ここでは、サーバ装置110は、音データを受信し、作業者端末120に送信する。また、サーバ装置110は、音声データについて音声認識処理を行い、テキストデータに変換する。
ステップS720において、作業者端末120は、音声出力処理を実行する。作業者端末120による音声出力処理には、音データの取得及び出力処理が含まれる。ここでは、作業者端末120は、音データを取得し、出力する。
ステップS702において、支援者端末130は、音データを音声データと環境音データとに分離する。
ステップS703において、支援者端末130は、音声データの音圧レベルと、環境音データの音圧レベルとを算出する。
ステップS704において、支援者端末130は、環境音データの音圧レベルに基づき、環境音の状態を検知する。また、支援者端末130は、検知結果(環境音の状態)をサーバ装置110に送信する。
ステップS710において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、検知結果(環境音の状態)を受信し、受信した検知結果(環境音の状態)に基づく判定を行うとともに、表示内容(環境音の状態)を決定し、決定した表示内容に応じた表示指示を、支援者端末130に送信する。
なお、サーバ装置110は、環境音の影響無しの検知結果を受信した場合、支援者160の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。その場合、サーバ装置110は、例えば、環境音の状態を明示するアイコンを青色で表示するよう、支援者端末130に指示する。
また、サーバ装置110は、環境音の影響有りの検知結果を受信した場合、環境音の影響が原因で、支援者160の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、サーバ装置110は、例えば、環境音の状態を明示するアイコンを灰色で表示するよう、支援者端末130に指示する。
ステップS705において、支援者端末130は、サーバ装置110からの表示指示に応じた表示処理を行う。例えば、支援者端末130は、支援者端末130の環境音の状態を明示するアイコンを青色で表示する。あるいは、支援者端末130は、支援者端末130の環境音の状態を明示するアイコンを灰色で表示する。
ステップS706において、支援者端末130は、環境音データの音圧レベル及び音声データの音圧レベルに基づき、マイクの状態を検知する。また、支援者端末130は、検知結果(マイクの状態)をサーバ装置110に送信する。
ステップS710において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、検知結果(マイクの状態)を受信し、受信した検知結果(マイクの状態)に基づく判定を行うとともに、表示内容(マイクの状態)を決定し、決定した表示内容に応じた表示指示を、支援者端末130に送信する。
なお、サーバ装置110は、マイク正常の検知結果を受信した場合、支援者160の発話に基づく音声データを、テキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定する。その場合、サーバ装置110は、例えば、マイクの状態を明示するアイコンを黒色で表示するよう、支援者端末130に指示する。
また、サーバ装置110は、マイク異常の検知結果を受信した場合、音声取得装置227の故障が原因で、支援者160の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、サーバ装置110は、例えば、マイクの状態を明示するアイコンを灰色で表示するよう、支援者端末130に指示する。
ステップS707において、支援者端末130は、サーバ装置110からの表示指示に応じた表示処理を行う。例えば、支援者端末130は、支援者端末130のマイクの状態を明示するアイコンを黒色で表示する。あるいは、支援者端末130は、支援者端末130のマイクの状態を明示するアイコンを灰色で表示する。
ステップS708において、支援者端末130は、通信の状態を検知し、検知結果(通信の状態)に基づく判定を行うとともに、表示内容(通信の状態)を決定する。
なお、支援者端末130は、検知結果が、"通信悪化"であった場合、通信の悪化が原因で、支援者160の発話に基づく音声データを、テキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定する。その場合、支援者端末130は、表示内容(通信の状態)として、例えば、通信の状態を明示するアイコンを決定する。
ステップS709において、支援者端末130は、決定した表示内容を表示する。例えば、支援者端末130は、支援者端末130とサーバ装置110との間の通信の状態を明示するアイコンを表示する。
ステップS710において、サーバ装置110は、双方向通信処理を実行する。ここでは、サーバ装置110は、通信の状態を検知し、検知結果(通信の状態)に基づく判定を行う。また、サーバ装置110は、変換したテキストデータと、判定結果とを対応付けて格納する。
なお、図7に示す通信処理は、作業者150と支援者160とが、双方向通信システム100を用いてコミュニケーションを継続する間、繰り返し実行される。
<支援者端末の表示画面例>
次に、支援者端末130の表示装置231に表示される表示画面の例について説明する。図8は、支援者端末の表示画面例を示す図である。図8に示すように、表示画面800には、作業者端末120より送信された動画像データを表示する領域810と、作業者端末120の状況を表示する領域820と、支援者端末130の状況を表示する領域830とを有する。
このうち、領域810には、双方向通信処理中に、作業者端末120の撮像装置229により撮影され、作業者端末120の通信装置224により送信された動画像データが表示される。
領域820には、作業者端末120の状況として、"マイクの状態"、"環境音の状態"、"通信の状態"が表示される。
"マイクの状態"には、作業者端末120のマイクの状態を明示するアイコンが表示される。図8に示すように、作業者端末120において検知された検知結果(マイクの状態)が、"マイク正常"であった場合、マイクの状態を明示するアイコンは黒色で表示される。また、作業者端末120において検知された検知結果(マイクの状態)が、"マイク異常"であった場合、マイクの状態を明示するアイコンは灰色で表示される。
"環境音の状態"には、作業者端末120の環境音の状態を明示するアイコンが表示される。図8に示すように、作業者端末120において検知された検知結果(環境音の状態)が、"環境音の影響無し"であった場合、環境音の状態を明示するアイコンは黒色で表示される。また、作業者端末120において検知された検知結果(環境音の状態)が、"環境音の影響有り"であった場合、環境音の状態を明示するアイコンは青色で表示される。
"通信の状態"には、作業者端末120とサーバ装置110との間の通信の状態を明示するアイコンが表示される。図8に示すように、サーバ装置110において検知された検知結果(通信の状態)が、"通信正常"であった場合には、アイコンは表示されない。一方、サーバ装置110において検知された検知結果(通信の状態)が、"通信悪化"であった場合には、アイコンが表示される。
支援者160は、作業者150とコミュニケーションを行っている間、領域820を参照することで、
・作業者端末120が、作業者150の発話に基づく音声データを音声認識するのに適した状況にあるのか、
・作業者端末120において、音声認識するのに適さない状況が発生したのか、
を把握することができる。
また、支援者160は、作業者端末120において、作業者150の発話に基づく音声データを音声認識するのに適さない状況が発生したことを把握した際、その原因(音声取得装置227の故障、環境音の影響、通信の悪化)を把握することができる。このため、支援者160は、作業者150に対して、状況の改善を促すことが可能となり、発話内容の一部が適切なテキストデータに変換されていないことが後から判明するといった事態を回避することができる。
同様に、領域830には、支援者端末130の状況として、"マイクの状態"、"環境音の状態"、"通信の状態"が表示される。
"マイクの状態"には、支援者端末130のマイクの状態を明示するアイコンが表示される。図8に示すように、支援者端末130において検知された検知結果(マイクの状態)が、"マイク正常"であった場合、マイクの状態を明示するアイコンは黒色で表示される。また、支援者端末130において検知された検知結果(マイクの状態)が、"マイク異常"であった場合、マイクの状態を明示するアイコンは灰色で表示される。
"環境音の状態"には、支援者端末130の環境音の状態を明示するアイコンが表示される。図8に示すように、支援者端末130において検知された検知結果(環境音の状態)が、"環境音の影響無し"であった場合、環境音の状態を明示するアイコンは黒色で表示される。また、支援者端末130において検知された検知結果(環境音の状態)が、"環境音の影響有り"であった場合、環境音の状態を明示するアイコンは青色で表示される。
"通信の状態"には、支援者端末130とサーバ装置110との間の通信の状態を明示するアイコンが表示される。図8に示すように、支援者端末130において検知された検知結果(通信の状態)が、"通信正常"であった場合には、アイコンは表示されない。一方、支援者端末130において検知された検知結果(通信の状態)が、"通信悪化"であった場合には、アイコンが表示される。
支援者160は、作業者150とコミュニケーションを行っている間、領域830を参照することで、
・支援者端末130が、自身の発話に基づく音声データを音声認識するのに適した状況にあるのか、
・支援者端末130において、自身の発話を音声認識するのに適さない状況が発生したのか、
を把握することができる。
また、支援者160は、支援者端末130において、自身の発話に基づく音声データを音声認識するのに適さない状況が発生していることを把握した際、その原因(音声取得装置227の故障、環境音の影響、通信の悪化)を把握することができる。このため、支援者160は、直ちに状況を改善させることが可能となり、発話内容の一部が適切なテキストデータに変換されていないことが後から判明するといった事態を回避することができる。
<まとめ>
以上の説明から明らかなように、第1の実施形態に係るシステムの一例である双方向通信システム100は、
・音声データの取得中に、取得中の音声データの音圧データ及び音声データ以外の環境音データの音圧データを算出する。これにより、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定する。
・判定結果を作業者に報知する、または、判定結果に応じた表示内容を支援者端末に表示する。
これにより、双方向通信システム100によれば、音声認識に適さない状況が発生していることを、作業者または支援者が把握できるようになる。
[第2の実施形態]
上記第1の実施形態では、音声データをテキストデータに変換する処理を、サーバ装置110において一括して行う場合について説明した。しかしながら、音声データをテキストデータに変換する処理は、作業者端末120及び支援者端末130の各クライアント端末において実行されるように構成してもよい。以下、第2の実施形態について、上記第1の実施形態との相違点を中心に説明する。
<作業者端末の機能構成>
はじめに、第2の実施形態における作業者端末120の機能構成について説明する。図9は、作業者端末の機能構成の一例を示す第2の図である。上記第1の実施形態において、図3を用いて説明した機能構成との相違点は、テキストデータ生成部910を有する点、及び、通信部920の機能が、図3の通信部360の機能とは異なる点である。
テキストデータ生成部910は、音声分離部320より通知された音声データについて音声認識を行うことでテキストデータに変換し、通信部920に通知する。
通信部920は、図3の通信部360の機能に加えて、更に、テキストデータ生成部910より通知されたテキストデータを、サーバ装置110に送信する機能を有する。
<サーバ装置の機能構成の詳細>
次に、第2の実施形態におけるサーバ装置110の機能構成の詳細について説明する。図10は、サーバ装置の機能構成の詳細の一例を示す第2の図である。図4を用いて説明した機能構成の詳細との相違点は、通信部1010の機能が、図4の通信部410の機能とは異なる点、及び、音声データ取得部420とテキストデータ生成部440とを有していない点である。
通信部1010は、図4の通信部410の機能に加えて、更に、
・作業者端末120より送信されたテキストデータを受信し、受信したテキストデータを、判定部430により判定された判定結果と対応付けて、テキストデータ格納部450に格納する機能、及び、
・支援者端末130より送信されたテキストデータを受信し、受信したテキストデータを、判定部430により判定された判定結果と対応付けて、テキストデータ格納部450に格納する機能、
を有する。
<支援者端末の機能構成>
次に、第2の実施形態における支援者端末130の機能構成について説明する。図11は、支援者端末の機能構成の一例を示す第2の図ある。図5を用いて説明した機能構成との相違点は、テキストデータ生成部1110を有する点、及び、通信部1120の機能が、図5の通信部560の機能とは異なる点である。
テキストデータ生成部1110は、音声分離部520より通知された音声データについて音声認識を行うことでテキストデータに変換し、通信部1120に通知する。
通信部1120は、図3の通信部560の機能に加えて、更に、テキストデータ生成部1110より通知されたテキストデータを、サーバ装置110に送信する機能を有する。
<通信処理の流れ(1)>
次に、第2の実施形態における双方向通信システム100による通信処理であって、作業者150の発話に基づく音声データが含まれる音データを、作業者端末120から支援者端末130に送信する場合の通信処理の流れについて説明する。図12は、双方向通信システムにおいて、作業者端末から支援者端末へ音データを送信する場合の通信処理の流れを示す第2のシーケンス図である。図6を用いて説明した第1のシーケンス図との相違点は、ステップS1201及びステップS1210である。
ステップS1201において、作業者端末120は、音声データについて音声認識を行い、テキストデータに変換する。また、作業者端末120は、変換したテキストデータをサーバ装置110に送信する。
ステップS1210において、サーバ装置110は、双方向通信処理を行う。サーバ装置110による双方向通信処理には、音データの受信及び送信処理、テキストデータの受信処理、通信の状態検知処理、検知結果の取得及び判定処理、表示内容の決定及び表示指示処理、テキストデータ及び判定結果の格納処理が含まれる。ここでは、サーバ装置110は、受信したテキストデータを判定結果と対応付けて格納する。
<通信処理の流れ(2)>
次に、第2の実施形態における双方向通信システム100による通信処理であって、支援者160の発話に基づく音声データが含まれる音データを、支援者端末130から作業者端末120に送信する場合の通信処理の流れについて説明する。図13は、双方向通信システムにおいて、支援者端末から作業者端末へ音データを送信する場合の通信処理の流れを示す第2のシーケンス図である。図7を用いて説明した第1のシーケンス図との相違点は、ステップS1301及びステップS1310である。
ステップS1301において、支援者端末130は、音声データについて音声認識を行い、テキストデータに変換する。また、支援者端末130は、変換したテキストデータをサーバ装置110に送信する。
ステップS1310において、サーバ装置110は、双方向通信処理を行う。サーバ装置110による双方向通信処理には、音データの受信及び送信処理、テキストデータの受信処理、通信の状態検知処理、検知結果の取得及び判定処理、表示内容の決定及び表示指示処理、テキストデータ及び判定結果の格納処理が含まれる。ここでは、サーバ装置110は、受信したテキストデータを判定結果と対応付けて格納する。
<まとめ>
以上の説明から明らかなように、第2の実施形態に係るシステムの一例である双方向通信システム100は、上記第1の実施形態と同様の機能を有する。更に、第2の実施形態システムの一例である双方向通信システム100は、音声データに対する音声認識処理を、サーバ装置110にて一括して実行する代わりに、各クライアント端末にて実行する構成とした。
これにより、第2の実施形態によれば、上記第1の実施形態と同様の効果を奏するとともに、各クライアント端末とサーバ装置との間で音データを送信する際に付加されるノイズにより音声認識精度が低下するといった事態を回避することができる。
[第3の実施形態]
上記第1及び第2の実施形態では、
・作業現場で作業する作業者150と、
・作業者150に対して遠隔から各種作業指示を行うことで、作業者150を遠隔支援する支援者160と、
が、コミュニケーションを行うシーンに双方向通信システムを適用するケースについて説明した。しかしながら、双方向通信システムの適用先はこれに限定されず、例えば、遠隔でコミュニケーションを行うシーンであれば、他のシーンにおいて適用してもよい。第3の実施形態では、遠隔にいるユーザが、会議を行うシーンに双方向通信システムを適用するケースについて説明する。
<双方向通信システムのシステム構成>
はじめに、第3の実施形態に係るシステムの一例である双方向通信システムのシステム構成について説明する。図14は、双方向通信システムのシステム構成の一例を示す第2の図である。図14に示すように、双方向通信システム1400は、サーバ装置110と、クライアント端末(Web端末1420、1430)とを有する。
なお、本実施形態では、
・ユーザ1450と、
・ユーザ1460と、
が、会議を行うシーンに、双方向通信システムに適用するケースについて説明する。
サーバ装置110は、上記第1または第2の実施形態において説明したサーバ装置110と同じである。
また、Web端末1420、1430は、上記第1または第2の実施形態において説明した支援者端末130と同じである。
なお、第3の実施形態においてテキストデータ格納部450(図14において不図示)に格納されるテキストデータ及び判定結果は、会議終了後に、ユーザ1450または1460がダウンロードして、例えば、議事録として利用してもよい。
<テキストデータの利用例>
次に、第3の実施形態に係るシステムの一例である双方向通信システム1400におけるテキストデータの利用例について説明する。図15は、テキストデータの利用例を示す図である。図15に示す利用例の場合、テキストデータ管理部112は、更に、テキストデータ補正部1510を有する。
テキストデータ補正部1510は、テキストデータ格納部450に格納されたテキストデータを、対応する判定結果に基づいて補正する。テキストデータ補正部1510の補正機能には、
・テキストデータに、所定の判定結果の原因(音声取得装置227の故障、環境音の影響有り、通信悪化)を示すマークを付加することで判定結果を可視化する機能、及び、
・テキストデータのうち、所定の判定結果(音声取得装置227の故障、環境音の影響有り、通信悪化)が対応付けられた箇所について、前後のテキストデータを用いて修正する機能、
が含まれる。
図15において符号1520は、テキストデータ格納部450に格納されたテキストデータの一例を示している。図15に示すように、テキストデータ格納部450に格納されたテキストデータは、Web端末1420とWeb端末1430のいずれの端末を介して入力された音声データが変換されたものであるかが識別できるように格納されている。
図9において符号1530は、符号1520に示すテキストデータのうち、点線で囲われた領域について、テキストデータ補正部1510が、マークを付加することで判定結果を可視化した様子を示している。
このうち、符号1531は、"環境音の影響無し"、"マイク正常"、"通信正常"が通知されたことで、音声データをテキストデータに変換できる、または、変換後のテキストデータの品質が低下しないと判定された場合のテキストデータを示している。
一方、符号1532は、"環境音の影響有り"が通知されたことで、環境音の影響が原因で、音声データをテキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定された場合の、マーク付加後のテキストデータを示している。符号1532に示すように、テキストデータ補正部1510では、原因に応じたマークをテキストデータの対応する位置に付加する。
同様に、符号1533は、"マイク異常"が通知されたことで、音声取得装置227の故障が原因で、音声データをテキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定された場合の、マーク付加後のテキストデータを示している。符号1533に示すように、テキストデータ補正部1510では、原因に応じたマークをテキストデータの対応する位置に付加する。
同様に、符号1534は、"通信悪化"が通知されたことで、通信の悪化が原因で、音声データをテキストデータに変換できない、または、変換後のテキストデータの品質が低下すると判定された場合の、マーク付加後のテキストデータを示している。符号1534に示すように、テキストデータ補正部1510では、原因に応じたマークをテキストデータの対応する位置に付加する。
このように、第3の実施形態では、サーバ装置110が、判定結果の原因に応じたマークを、テキストデータに付加する。これにより、第3の実施形態によれば、クライアント端末(Web端末1420、1430)は、テキストデータを表示する際、テキストデータに対応付けられた判定結果を可視化することができる。この結果、第3の実施形態によれば、ユーザ1450、1450は、テキストデータの一部において適切な音声認識が行われていなかった場合でも、その原因を把握することができる。
なお、上記説明では、テキストデータ補正部1510の補正機能のうち、判定結果の原因を可視化する機能について具体例を挙げたが、前後のテキストデータを用いて修正する機能によれば、例えば、
・符号1532~符号1534に示す各テキストデータを、
・符号1531に示すテキストデータに、
修正することができる。コミュニケーション中に判定結果が表示される構成となっているため、音声認識に適さない状況が発生している時間範囲を短くすることができる(前後のテキストデータを用いて修正可能な時間範囲におさめることができる)からである。
<まとめ>
以上の説明から明らかなように、第3の実施形態に係るシステムの一例である双方向通信システム1400は、上記第1または第2の実施形態と同様の機能を有しつつ、更に、
・テキストデータに対応付けられた判定結果の原因を可視化する機能、
・判定結果が対応付けられた箇所について、前後のテキストデータを用いて修正する機能、
を有する。
これにより、第3の実施形態によれば、上記第1または第2の実施形態と同様の効果を享受しつつ、更に、テキストデータの一部において適切な音声認識が行われていなかった場合でも、その原因を把握することができる。また、適切なテキストデータに修正することができる。
[第4の実施形態]
上記第1及び第2の実施形態では、動画像データを支援者端末130に送信する場合の通信処理の説明を割愛したが、動画像データは、例えば、テキストデータと対応付けて格納してもよい。その際、例えば、動画像データを解析することで、作業者150の作業内容を特定することで文字情報に変換し、特定した作業内容を、テキストデータと対応付けて格納してもよい。
図16は、サーバ装置の機能構成の詳細の一例を示す第3の図である。図4に示した第1の図との相違点は、作業内容特定部1610を有する点である。
作業内容特定部1610は、通信部410より通知された動画像データを解析し、作業者150が行う作業内容を特定することで、動画像データを文字情報に変換する。また、作業内容特定部1610は、特定した作業内容を、テキストデータ及び判定結果と対応付けて、テキストデータ格納部450に格納する。
このように、作業内容を、テキストデータ及び判定結果と対応付けて格納することで、例えば、支援者160は、テキストデータを閲覧する際、作業者150が行った作業内容を把握したうえで、作業者150の発話内容を確認することができる。
[第5の実施形態]
上記第1及び第2の実施形態では、作業者端末120が、判定結果を、音声出力装置228を介して作業者150に報知するものとして説明した。しかしながら、判定結果を作業者150に報知する方法は、これに限定されない。例えば、作業者端末120にLED等を配し、判定結果に応じた色で発光させるように構成してもよい。あるいは、作業者端末120に振動子等を配し、判定結果に応じた周波数または振幅で振動させるように構成してもよい。
また、上記第1及び第2の実施形態では、サーバ装置110が、作業者端末120についての判定結果に応じた表示指示、及び、支援者端末130についての判定結果に応じた表示指示を、支援者端末130に送信する場合について説明した。しかしながら、サーバ装置110が送信する指示は、判定結果に応じた表示指示に限定されず、また、送信先も支援者端末130に限定されない。例えば、サーバ装置110は、判定結果に応じた報知指示を、作業者端末120に送信するように構成してもよい。
また、上記各実施形態では、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因として、環境音の影響、マイク異常を挙げた。しかしながら、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因は、環境音の影響、マイク異常に限定されず、例えば、取得中の音声データより先行する音声データによる、取得中の音声データへの影響等が挙げられる。エコーにより、取得中の音声データより先行する音声データが、取得中の音声データに影響を及ぼすこともあるからである。
なお、取得中の音声データより先行する音声データの、取得中の音声データへの影響の有無は、環境音の影響の有無と同様の仕組みにより、判定することができる。例えば、取得中の音声データより先行する音声データを、取得中の音声データと分離し、取得中の音声データより先行する音声データの大きさ(音圧レベル)を算出することで、取得中の音声データへの影響の有無を判定することができる。
なお、取得中の音声データへの影響の有無を表示する際の表示方法は、環境音の影響の有無を表示する際の表示方法と同様の表示方法であっても、異なる表示方法であってもよい。
また、上記各実施形態では、音圧レベル算出部330より通知された環境音データの音圧レベルが所定の閾値以上であるか否か(つまり、絶対値)を判定することで、環境音の状態を検知した。しかしながら、環境音の状態の検知方法はこれに限定されず、例えば、音声データの大きさ(音圧レベル)と、環境音データの大きさ(音圧レベル)との比が所定の条件を満たすか否か(つまり、相対値)を判定することで、環境音の状態を検知してもよい。具体的には、音声データの音圧レベルが環境音データの音圧レベルよりも小さい場合、環境音の影響有りと判定し、音声データの音圧レベルが環境音データの音圧レベル以上の場合、環境音の影響無しと判定してもよい。
また、上記各実施形態では、音データ取得部310、510による音データの取得方法の詳細について言及しなかったが、音データ取得部310、510では、音データを取得する際、各種前処理を行うように構成してもよい。ここでいう前処理には、音データに対して、例えば、ローパスフィルタをかけることで、高周波成分を除去する処理や、音データに対して、例えば、低周波成分を除去することで、ハムノイズを除去する処理が含まれていてもよい。あるいは、前処理には、例えば、所定区間ごとの波形を解析することで、ハウリングやエコーの発生を除去する処理等が含まれていてもよい。
また、上記各実施形態では、作業者端末120の状況及び支援者端末130の状況を、図8に示すアイコンを用いて表示するものとして説明した。しかしながら、作業者端末120の状況及び支援者端末130の状況についての表示方法はこれに限定されず、他の任意の表示態様で表示してもよい。
また、上記第3の実施形態では、テキストデータに付加される所定の判定結果の原因を示すマークとして、図15に示すマークを用いるものとして説明した。しかしながら、テキストデータに付加される所定の判定結果の原因を示すマークの表示方法はこれに限定されず、他の任意の表示態様で表示してもよい。
また、上記各実施形態において、クライアント端末は、音データをリアルタイムにサーバ装置110に送信するものとして説明した。しかしながら、クライアント端末の構成はこれに限定されない。例えば、クライアント端末は、音データをリアルタイムに送信するとともに逐次格納し、サーバ装置110から要求があった場合に、当該要求に応じた範囲の音データをサーバ装置110に送信するように構成してもよい。
また、上記第1及び第2の実施形態では、テキストデータ生成部をサーバ装置110において実現する場合と、クライアント端末(作業者端末120、支援者端末130)において実現する場合とを示した。しかしながら、サーバ装置110とクライアント端末(作業者端末120、支援者端末130)との間の機能分担のバリエーションはこれに限定されない。例えば、サーバ装置110の判定部430は、クライアント端末(作業者端末120、支援者端末130)において実現されてもよい。
また、上記第3の実施形態において説明した、テキストデータ補正部1510は、上記第1の実施形態において説明した双方向通信システム100において実現されてもよい。この場合、支援者端末130は、テキストデータをダウンロードして表示する際、テキストデータに対応付けられた判定結果を可視化することができる。この結果、第5の実施形態によれば、支援者160は、テキストデータの一部において適切な音声認識が行われていなかった場合でも、その原因を把握することができる。
また、上記第1の実施形態では、作業者端末120として、ウェアラブル端末を用いる場合について説明したが、ウェアラブル端末に代えて、携帯端末を用いてもよい。
また、上記各実施形態では、サーバ装置110が、単体で双方向通信プログラムを実行するものとして説明した。しかしながら、サーバ装置110が、例えば、1または複数台のコンピュータにより構成されている場合にあっては、1または複数台のコンピュータそれぞれに双方向通信プログラムをインストールし、分散コンピューティングの形態で実行されてもよい。
また、上記各実施形態では、クライアントプログラムのインストール方法の一例として、ネットワークを介してダウンロードしてインストールする方法について言及した。このとき、ダウンロード元については特に言及しなかったが、かかる方法によりインストールする場合、ダウンロード元は、例えば、クライアントプログラムをアクセス可能に格納したサーバ装置であってもよい。また、当該サーバ装置は、ネットワークを介してクライアント端末(支援者端末130、Web端末1420、1430)からのアクセスを受け付け、課金を条件にクライアントプログラムをダウンロードするクラウド上の装置であってもよい。つまり、当該サーバ装置は、クライアントプログラムの提供サービスを行うクラウド上の装置であってもよい。
以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
100 :双方向通信システム
110 :サーバ装置
111 :双方向通信部
112 :テキストデータ管理部
120 :作業者端末
130 :支援者端末
310 :音データ取得部
320 :音声分離部
330 :音圧レベル算出部
340 :第1検知部
350 :第2検知部
360 :通信部
370 :判定部
380 :音声出力部
410 :通信部
420 :音声データ取得部
430 :判定部
440 :テキストデータ生成部
510 :音データ取得部
520 :音声分離部
530 :音圧レベル算出部
540 :第1検知部
550 :第2検知部
560 :通信部
570 :音声出力部
580 :表示制御部
590 :判定部
800 :表示画面
910 :テキストデータ生成部
920 :通信部
1010 :通信部
1110 :テキストデータ生成部
1120 :通信部
1400 :双方向通信システム
1420 :Web端末
1430 :Web端末
1510 :テキストデータ補正部
1610 :作業内容特定部

Claims (22)

  1. 音声データをテキストデータに変換するシステムであって、
    1または複数の制御部は、
    音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
    判定結果を出力する、
    システム。
  2. 前記1または複数の制御部は、
    前記判定結果を、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因を明示して出力する、請求項1に記載のシステム。
  3. 前記原因には、前記音声データを取得する音声取得装置の周囲の環境音の影響、前記音声データより先行する音声データによる前記音声データへの影響、または、前記音声取得装置の故障のいずれかが含まれる請求項2に記載のシステム。
  4. 前記1または複数の制御部は、
    前記音声データの取得中に取得される環境音データの大きさが所定の閾値以上となった場合に、または、前記音声データの大きさと前記音声データの取得中に取得される環境音データの大きさとの比が所定の条件を満たした場合に、前記環境音の影響が原因で、変換後のテキストデータの品質が低下すると判定する、請求項3に記載のシステム。
  5. 前記1または複数の制御部は、
    前記取得中の音声データ及び前記音声データの取得中に取得される環境音データの大きさのいずれもが所定の閾値未満となった場合に、前記音声取得装置の故障が原因で、テキストデータに変換できないと判定する、請求項3に記載のシステム。
  6. 前記原因には、双方向通信の通信状態の悪化が含まれる、請求項2に記載のシステム。
  7. 前記1または複数の制御部は、
    前記音声データの取得中に双方向通信が切断した場合に、前記通信状態の悪化が原因で、テキストデータに変換できないと判定する、請求項6に記載のシステム。
  8. 作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末と、前記作業者端末と前記支援者端末との間の双方向通信を実現するサーバ装置とを有し、
    前記サーバ装置が有する制御部は、
    音声データをテキストデータに変換する、請求項2に記載のシステム。
  9. 前記サーバ装置が有する制御部は、
    前記音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
    前記支援者端末が有する制御部は、
    前記判定結果を出力する、請求項8に記載のシステム。
  10. 前記作業者端末は、前記音声データを取得する音声取得装置を有し、
    前記サーバ装置の制御部は、
    前記音声データの取得中に取得される環境音データの大きさが所定の閾値以上となった場合に、前記音声取得装置の周囲の環境音の影響が原因で、変換後のテキストデータの品質が低下すると判定する、請求項9に記載のシステム。
  11. 前記作業者端末は、前記音声データを取得する音声取得装置を有し、
    前記サーバ装置の制御部は、
    前記取得中の音声データの大きさ及び前記音声データの取得中に取得される環境音データの大きさのいずれもが所定の閾値未満となった場合に、前記音声取得装置の故障が原因で、テキストデータに変換できないと判定する、請求項9に記載のシステム。
  12. 前記サーバ装置が有する制御部は、
    前記作業者端末から一定期間、音声データが送信されず、双方向通信が切断したと判定した場合に、前記双方向通信の通信状態の悪化が原因で、前記作業者端末が有する制御部により取得中の音声データをテキストデータに変換できないと判定する、請求項9に記載のシステム。
  13. 前記支援者端末が有する制御部は、
    前記判定結果を、テキストデータに変換できない原因、または、変換後のテキストデータの品質が低下する原因を明示するアイコンを用いて表示する、請求項10乃至12のいずれか1項に記載のシステム。
  14. 前記作業者端末が有する制御部は、
    前記音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定し、
    前記判定結果を、音声、光、振動の少なくともいずれか1つにより報知する、請求項10または11に記載のシステム。
  15. 前記サーバ装置の制御部は、
    前記テキストデータと、前記判定結果とを対応付けて格納する、請求項9に記載のシステム。
  16. 前記支援者端末が有する制御部は、
    格納された前記テキストデータを読み出し、対応する前記判定結果に応じた表示態様で表示する、請求項15に記載のシステム。
  17. 前記サーバ装置が有する制御部は、
    テキストデータに変換できなかった箇所、または、品質が低下した箇所について、前後のテキストデータを用いて修正する、請求項8に記載のシステム。
  18. 前記サーバ装置が有する制御部は、
    前記作業者端末により撮影された画像から、前記作業者の作業内容を特定し、特定した作業内容を前記判定結果と対応付けて格納する、請求項9に記載のシステム。
  19. 前記作業者端末が有する制御部は、
    取得した音声データを格納し、前記サーバ装置から要求があった場合に、前記要求に応じた範囲の音声データを前記サーバ装置に送信する、請求項9に記載のシステム。
  20. 音声データをテキストデータに変換するシステムによる支援方法であって、
    音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定する判定工程と、
    判定結果を出力する出力工程と
    を有する支援方法。
  21. 作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末との間の双方向通信を実現する制御部を有するサーバ装置であって、
    前記制御部は、
    音声データをテキストデータに変換し、
    前記作業者端末または前記支援者端末による音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定した場合に、判定結果に応じた指示を前記作業者端末または前記支援者端末に送信する、
    サーバ装置。
  22. 作業者が利用する作業者端末と、前記作業者を遠隔支援する支援者が利用する支援者端末との間の双方向通信を実現するサーバ装置の制御部に、
    音声データをテキストデータに変換する変換工程と、
    前記作業者端末または前記支援者端末による音声データの取得中に、取得中の音声データをテキストデータに変換できるか否か、または、取得中の音声データを変換した変換後のテキストデータの品質が低下するか否かを判定した場合に、判定結果に応じた指示を前記作業者端末または前記支援者端末に送信する送信工程と
    を実行させるための通信プログラム。
JP2022140702A 2022-09-05 2022-09-05 システム、支援方法、サーバ装置及び通信プログラム Active JP7482459B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022140702A JP7482459B2 (ja) 2022-09-05 2022-09-05 システム、支援方法、サーバ装置及び通信プログラム
PCT/JP2023/031135 WO2024053476A1 (ja) 2022-09-05 2023-08-29 システム、支援方法、サーバ装置及び通信プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022140702A JP7482459B2 (ja) 2022-09-05 2022-09-05 システム、支援方法、サーバ装置及び通信プログラム

Publications (2)

Publication Number Publication Date
JP2024036013A true JP2024036013A (ja) 2024-03-15
JP7482459B2 JP7482459B2 (ja) 2024-05-14

Family

ID=90191174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022140702A Active JP7482459B2 (ja) 2022-09-05 2022-09-05 システム、支援方法、サーバ装置及び通信プログラム

Country Status (2)

Country Link
JP (1) JP7482459B2 (ja)
WO (1) WO2024053476A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227954A (ja) 2005-02-18 2006-08-31 Pioneer Electronic Corp 情報処理装置及び情報処理方法等
JP5688677B2 (ja) 2010-10-04 2015-03-25 日本電気株式会社 音声入力支援装置
JP6670364B2 (ja) 2014-05-13 2020-03-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識機能を用いた情報提供方法および機器の制御方法
US11462213B2 (en) 2016-03-31 2022-10-04 Sony Corporation Information processing apparatus, information processing method, and program
EP3489949A4 (en) 2016-07-19 2019-08-07 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP7223561B2 (ja) 2018-03-29 2023-02-16 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
JP7270154B2 (ja) 2019-11-20 2023-05-10 ダイキン工業株式会社 遠隔作業支援システム
JP7225082B2 (ja) 2019-12-04 2023-02-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP7482459B2 (ja) 2024-05-14
WO2024053476A1 (ja) 2024-03-14

Similar Documents

Publication Publication Date Title
US11798566B2 (en) Data transmission method and apparatus, terminal, and storage medium
US10061989B2 (en) Information transfer apparatus and method for image recognition
JP5192414B2 (ja) 音声情報表示システム
CN112055024A (zh) 权限校验方法及装置、存储介质和电子设备
US8913086B2 (en) Systems and methods for managing errors utilizing augmented reality
CN108897659B (zh) 修改日志级别的方法、装置及存储介质
KR20200046142A (ko) IoT 플랫폼과 증강현실을 이용한 도시가스 시설물 유지보수 작업지시 시스템의 제어방법
US11270703B2 (en) Audio firewall
CN110837426A (zh) 消息处理方法、装置及系统、存储介质
US11641592B1 (en) Device management using stored network metrics
CN110289991B (zh) 一种故障网关检测方法、装置、存储介质及终端
WO2024053476A1 (ja) システム、支援方法、サーバ装置及び通信プログラム
US20190304457A1 (en) Interaction device and program
JP4899194B2 (ja) 端末、ネットワーク装置、該端末と該ネットワーク装置とからなるネットワーク装置検索システム、およびネットワーク装置検索方法
EP4231200A1 (en) Distributed machine learning inference
KR102324063B1 (ko) 마이크를 통해 획득한 오디오 신호의 크기에 기반하여 마이크의 오류 발생 여부를 결정하기 위한 방법 및 그 전자 장치
CN113432620B (zh) 误差估计方法、装置、车载终端及存储介质
US11538475B2 (en) Information processing apparatus and information processing method
CN109951341B (zh) 内容获取方法、装置、终端及存储介质
JP2023168879A (ja) 通信システム、クライアント端末、通信方法及び通信プログラム
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
CN113192519A (zh) 音频编码方法和装置以及音频解码方法和装置
CN113111215A (zh) 一种用户行为分析方法、装置、电子设备和存储介质
JP2007036360A (ja) バーチャル映像用信号生成方法および送受信端末
EP4354434A1 (en) Audio quality conversion device and control method therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240418

R150 Certificate of patent or registration of utility model

Ref document number: 7482459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150