JP7180687B2 - 処理システム、処理方法及びプログラム - Google Patents

処理システム、処理方法及びプログラム Download PDF

Info

Publication number
JP7180687B2
JP7180687B2 JP2020559735A JP2020559735A JP7180687B2 JP 7180687 B2 JP7180687 B2 JP 7180687B2 JP 2020559735 A JP2020559735 A JP 2020559735A JP 2020559735 A JP2020559735 A JP 2020559735A JP 7180687 B2 JP7180687 B2 JP 7180687B2
Authority
JP
Japan
Prior art keywords
target
estimation
interpreter
call
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020559735A
Other languages
English (en)
Other versions
JPWO2020121616A1 (ja
Inventor
廣樹 松浦
秀治 古明地
孝行 城風
玲司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020121616A1 publication Critical patent/JPWO2020121616A1/ja
Application granted granted Critical
Publication of JP7180687B2 publication Critical patent/JP7180687B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/428Arrangements for placing incoming calls on hold
    • H04M3/4285Notifying, informing or entertaining a held party while on hold, e.g. Music On Hold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/12Language recognition, selection or translation arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

本発明は、処理システム、処理方法及びプログラムに関する。
特許文献1は、機械学習で生成した推定モデルを用いて、発話データから発話の言語を推定する装置を開示している。
特許文献2は、通話相手である外国人と、当該外国人からの電話に対応する対応者と、当該外国人と当該対応者とのコミュニケーションをサポートするサポートチームとを含む三者の通話を実現する多言語オペレートシステムを開示している。具体的には、当該多言語オペレートシステムは、外国人又は対応者から言語の指定を受付けた後、指定された言語に対応したサポートチームを接続して三者通話を開始する。すなわち、当事者が指定した内容に基づき、外国人の言語が特定される。
特開2012-103554号公報 特開2003-32373号公報
言語の推定精度を向上させるためには機械学習する学習データを増やす必要があるが、特許文献1及び2はいずれも、当該課題及びその解決手段を開示していない。本発明は、機械学習で生成した推定モデルを用いて言語を推定する技術において、推定精度を向上させることを課題とする。
本発明によれば、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
前記推定結果の正誤判定を行う判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システムが提供される。
また、本発明によれば、
コンピュータが、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
前記推定結果の正誤判定を行う判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法が提供される。
また、本発明によれば、
コンピュータを、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
前記推定結果の正誤判定を行う判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラムが提供される。
本発明によれば、機械学習で生成した推定モデルを用いて言語を推定する技術において、推定精度を向上させることができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本実施形態の処理システムのハードウエア構成の一例を示す図である。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の処理システムの処理の流れの一例を示すフローチャートである。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の処理システムが処理する情報の一例を模式的に示す図である。 本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムの処理の流れの一例を示すフローチャートである。 本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。 本実施形態の処理システムが出力する画面の一例を模式的に示す図である。 本実施形態の処理システムの処理の流れの一例を示すフローチャートである。
<第1の実施形態>
まず、本実施形態の処理システムの概要を説明する。処理システムは、機械学習で生成した推定モデルと、言語推定対象の音声を記録した音声データ又はその音声の特徴量とに基づき、言語推定対象の音声の言語を推定する。次いで、処理システムは、推定結果を出力するとともに、推定結果の正誤判定を行う。そして、正しいと判定された推定結果と、言語推定対象の音声を記録した音声データ又はその音声の特徴量とを、推定モデルを生成するための学習データとして出力する。
次に、処理システム10の構成を詳細に説明する。まず、処理システム10のハードウエア構成の一例について説明する。処理システム10が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図1は、処理システム10のハードウエア構成を例示するブロック図である。図1に示すように、処理システム10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理システム10は周辺回路4Aを有さなくてもよい。なお、処理システム10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
次に、処理システム10の機能構成の一例について説明する。図2の機能ブロック図に示すように、処理システム10は、取得部11と、推定部12と、結果出力部13と、判定部14と、学習データ出力部15とを有する。
なお、図では、処理システム10と推定モデル生成装置20とを分けて記載しているが、処理システム10は推定モデル生成装置20を含んでもよい。すなわち、処理システム10と推定モデル生成装置20とは物理的及び/又は論理的に分かれてもよいし、処理システム10と推定モデル生成装置20は物理的及び論理的に一体となってもよい。
学習データ記憶部21は、音声を記録した音声データ又は音声の特徴を示す音声特徴量と、その音声の言語(例:日本語、英語、中国語等)とをペアにした学習データを記憶する。音声特徴量は、音声データから抽出される。
推定モデル生成部22は、学習データ記憶部21に記憶されている学習データを用いた機械学習により、音声データ又は音声特徴量から音声の言語を推定する推定モデルを生成する。機械学習の技法は特段制限されず、あらゆる技法を採用できる。
取得部11は、言語推定対象の音声である対象音声を記録した対象音声データ、又は、対象音声の特徴を示す対象特徴量を取得する。対象特徴量は、対象音声データから抽出される。
なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。
推定部12は、推定モデル生成部22が生成した推定モデルと、取得部11が取得した対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。
結果出力部13は、推定部12による推定結果を出力する。結果出力部13は、ディスプレイ、スピーカ、プリンター、投影装置、メーラ等の出力装置を介して推定結果を出力することができる。
判定部14は、推定部12による推定結果の正誤判定を行う。判定部14は、所定の判定材料を取得し、当該判定材料に基づき推定結果の正誤判定を行うことができる。判定材料は、ユーザにより入力された推定結果の正誤を直接的に示す情報(「正しい」又は「間違っている」)であってもよいし、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報であってもよい。なお、判定部14が、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行う例は、以下の実施形態で説明する。
学習データ出力部15は、判定部14により正しいと判定された推定結果と、推定部12によりその推定結果が導き出された対象音声データ又は対象特徴量とを、推定モデルを生成するための学習データとして出力する。学習データ出力部15により出力された学習データは、学習データ記憶部21に蓄積される。
次に、図3のフローチャートを用いて、処理システム10の処理の流れの一例を説明する。
まず、取得部11が新たな対象音声データ又は対象特徴量を取得すると(S10)、推定部12は、推定モデル生成部22により生成された推定モデルと、S10で取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する(S11)。次いで、結果出力部13は、S11で推定された推定結果を出力する(S12)。
その後、判定部14は、S12で推定された推定結果の正誤判定を行う(S13)。例えば、判定部14は、ユーザにより入力された推定結果の正誤を直接的に示す情報を取得し、当該情報に基づき推定結果の正誤判定を行ってもよい。
判定部14の判定結果が「正しい」でない場合(S14のNo)、処理を終了する。
一方、判定部14の判定結果が「正しい」である場合(S14のYes)、学習データ出力部15は、S10で取得された対象音声データ又は対象特徴量と、S11で推定された推定結果とを学習データとして出力する(S15)。
S15で学習データ出力部15により出力された学習データは、学習データ記憶部21に蓄積される。その後、図示しないが、推定モデル生成部22は、学習データ記憶部21に記憶されている学習データを用いた機械学習により、音声データ又は音声特徴量から音声の言語を推定する推定モデルを生成する。
推定モデル生成部22は、新たな1つの学習データが学習データ記憶部21に登録される毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部22は、新たな所定個数(2以上の任意の数)の学習データが学習データ記憶部21に登録される毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部22は、予め定められた時刻になる毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部22は、推定モデルを更新するユーザ入力があったタイミングで新たに機械学習を行い、新たな推定モデルを生成してもよい。なお、ここで例示した機械学習を行うタイミングは一例であり、これに限定されない。
以上、言語推定と、推定結果を用いた学習データの生成とを連動して実行する処理システム10によれば、言語を推定する処理を実行しながら、学習データを増やすことができる。結果、学習データを増やすためだけの面倒な作業を回避できる。
また、上記特徴を有する処理システム10によれば、実務において処理システム10を利用して言語を推定させながら、実務で得られた推定結果に基づき学習データを増やすことができる。このような処理システム10によれば、実務に適した学習データ、具体的には実務において接する機会がある言語の学習データを効率的に増やすことができる。そして、実務に適した推定モデルが生成されることとなる。このように、処理システム10を利用する環境のニーズに特化した性能を処理システム10に与えることができる。
<第2の実施形態>
本実施形態の処理システム10は、通話手段を有し、通話相手の音声を対象音声とする点等が第1の実施形態と異なる。
処理システム10のハードウエア構成の一例は、第1の実施形態と同様である。
処理システム10の機能ブロック図の一例は、図4で示される。図示するように、処理システム10は、取得部11と、推定部12と、結果出力部13と、判定部14と、学習データ出力部15と、通話部16と、通話制御部17と、通訳担当者抽出部18と、通訳担当者出力部19とを有する。なお、図示しないが、処理システム10は、学習データ記憶部21及び推定モデル生成部22を備えてもよい。
処理システム10は、図5に示す通話端末1、又は、通話端末1とサーバ2の両方により構成される。すなわち、処理システム10が有する機能部の全てを通話端末1が備えてもよい。その他、処理システム10が有する機能部の一部を通話端末1が備え、残りの機能部をサーバ2が備えてもよい。通話端末1は、パーソナルコンピュータ、タブレット端末、スマートフォン等の端末装置に所定のアプリケーションをインストールすることで所定の機能部を実現した装置であってもよいし、所定の機能部が予め実現された通話専用の端末であってもよい。
通話部16は、他の通話端末と接続し、通話を実現する機能を有する。
取得部11は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。取得部11のその他の構成は、第1の実施形態と同様である。
推定部12、結果出力部13、判定部14及び学習データ出力部15の構成は、第1の実施形態と同様である。
通訳担当者抽出部18は、複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、推定結果で示される言語の通訳担当者を抽出する。図6に、通訳者情報の一例を模式的に示す。
通訳担当者出力部19は、通訳担当者抽出部18により抽出された通訳担当者を示す情報を出力する。通訳担当者出力部19は、ディスプレイ、スピーカ、プリンター、投影装置、メーラ等の出力装置を介して、通訳担当者抽出部18により抽出された通訳担当者を示す情報を出力することができる。例えば、通訳担当者出力部19は、抽出された通訳担当者の一覧を出力してもよい。
通話制御部17は、ユーザ入力に基づき通話相手との通話を保留する。そして、通話制御部17は、通訳担当者抽出部18により抽出された通訳担当者の中から1人を指定し、指定した通訳担当者との通話(例:内線通話)を開始させる。例えば、通話制御部17は、ユーザ入力に基づき1人の通訳担当者を指定してもよいし、予め定められたルールに従い1人の通訳担当者を指定してもよい。予め定められたルールは、例えば、「当日のその時までに三者通話した回数が最も少ない人」等が例示されるが、これに限定されない。
そして、通話制御部17は、通話相手との通話を保留し、指定された通訳担当者との通話を開始させた後、所定の入力を受付けると、通話相手及び通訳担当者を含む三者通話を開始させることができる。
次に、図7のシーケンス図を用いて、処理システム10の処理の流れの一例を説明する。
第1の通話端末は、通話相手が利用する通話端末である。ここでは、通話相手は外国人であるものとする。なお、外国人は、本実施形態の処理システム10を利用する地域における公用語以外の言語を話す人物あるいは、当事者が指定した言語以外の言語を話す人物であることが想定される。
第2の通話端末は、電話で顧客対応を行うことを業務とする対応オペレータが利用する通話端末である。第2の通話端末は、処理システム10が有する機能部の全てを備えてもよいし、処理システム10が有する機能部の一部を備えてもよい。
第3の通話端末は、所定の言語に対応した通訳者が利用する通話端末である。
まず、第1の通話端末から第2の通話端末に通話要求が送信され(S20)、当該通話要求に対する通話受諾が第2の通話端末から第1の通話端末に送信されると(S21)、第1の通話端末と第2の通話端末との間で通話が開始され(S22)、通話が可能な状態(以下、「通話状態」)となる。通話状態において、第2の通話端末に表示される画面の一例は図8に示される。図では、通話中であることを示す情報、通話相手の電話番号、及び、各種操作を行うためのUI(user interface)ボタンを含むウインドウが表示されている。UIボタンは、通話を終了するための通話終了ボタン、通話を保留状態にするための保留ボタン、及び、通話相手の言語を推定する処理を実行するための言語推定ボタン等を含む。
対応オペレータは、通話中に、通話相手が外国人であることを認識したが、通話相手の言語を認識できない場合、保留ボタンを押して通話を保留状態にした後(S23、S24)、言語推定ボタンを押す。言語推定ボタンの押下に応じて、言語推定処理が実行される(S25)。
S25では、取得部11は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。例えば、第2の通話端末は、通話相手に関わらず、全ての通話を録音するように構成されてもよい。そして、取得部11は、上記録音された音声データの一部又は全部を、対象音声データとして取得してもよい。また、取得部11は、このように取得した対象音声データから対象特徴量を抽出してもよい。次いで、推定部12は、推定モデル生成部22により生成された推定モデルと、取得部11により取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。
そして、結果出力部13は、推定された推定結果を出力する(S26)。図9に、結果出力部13が推定結果を出力した時に第2の通話端末に表示される画面の一例を示す。図では、推定結果を示すウインドウが表示されている。当該ウインドウでは、推定結果で示される言語の通訳担当者を示す情報のリンクがはられている。
例えば図9に示す画面において、通訳担当者を示す情報のリンクが押されると、通訳担当者出力部19は、通訳担当者抽出部18により抽出された通訳担当者を示す情報を取得し、出力する(S27)。通訳担当者抽出部18は、複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報(図6参照)を参照し、推定結果で示される言語の通訳担当者を抽出する。図10に、通訳担当者出力部19が通訳担当者を示す情報を出力した時に第2の通話端末に表示される画面の一例を示す。図では、推定結果の言語の通訳担当者を示すウインドウが表示されている。当該ウインドウでは、通訳担当者の氏名の一覧を表示するとともに、各通訳担当者との通話を開始するための通話ボタンが表示されている。結果出力部13は、第2の通話端末が備える。通訳担当者出力部19は、第2の通話端末が備える。
例えば図10に示す画面において、1人の通訳担当者の通話ボタンが押されると(1人の通訳担当者を指定する入力(S28))、第2の通話端末は指定された通訳担当者の連絡先情報を通訳者情報(図6参照)に基づき特定し、その通訳担当者の第3の通話端末に対して通話要求を送信する(S29)。そして、当該通話要求に対する通話受諾が第3の通話端末から第2の通話端末に送信されると(S30)、第2の通話端末と第3の通話端末との間で通話が可能な状態となる(S31)。当該状態において、第2の通話端末に表示される画面の一例は図11に示される。図では、通話中であることを示す情報、指定された翻訳担当者の名称、及び、各種操作を行うためのUIボタンを含むウインドウが表示されている。UIボタンは、通話を終了するための通話終了ボタン、保留中の通話相手を含めた三者通話を開始するための三者通話開始ボタン等を含む。
当該画面において、対応オペレータが三者通話開始ボタンを押すと(S32)、第1の通話端末と、第2の通話端末と、第3の通話端末との間で三者通話が可能な状態となる。
ここで、本実施形態の変形例を説明する。図7のシーケンス図を用いて説明した例では、通話相手が外国人である場合、通話相手と、対応オペレータと、通話相手の言語に対応した通訳者とを含む三者通話を行った。変形例では、通話相手が外国人である場合、対応オペレータは、通話相手の言語に対応した特定言語用対応オペレータに通話を転送してもよい。特定言語用対応オペレータは、対応オペレータと同様のスキルを有し、特定の言語で顧客対応を行うことができるオペレータである。
変形例の場合、図7のシーケンス図を用いて行った処理の説明における「通訳担当者」を「特定言語用対応オペレータ」に読み替えればよい。そして、S31の後に第2の通話端末又は第3の通話端末において所定の入力が行われると、第1の通話端末と第2の通話端末との間の通話を、第1の通話端末と第3の通話端末との間の通話に切り替える転送が行われる。
また、図7のシーケンス図を用いて説明した例では、保留ボタンに対する操作に応じて保留状態になった後に、言語推定ボタンに対する操作に応じて言語推定処理が開始された。変形例として、通話状態のままで言語推定ボタンに対する操作が可能であり、通話状態のままで言語推定処理が実行されてもよい。その他、保留ボタンに対する操作に応じて、保留状態になるとともに、言語推定処理が開始されてもよい。すなわち、保留ボタンに対する操作は、保留状態に指示、及び、言語推定処理を開始する指示の両方を兼ねてもよい。
また、ユーザやオペレータの操作に応じて実行する処理の一部(例:S32等)を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。
以上説明した本実施形態の処理システム10によれば、第1の実施形態と同様な作用効果を実現できる。
また、本実施形態の処理システム10は、通話で顧客対応を行うコールセンター等において利用することができる。コールセンターに外国人から電話がかかってきた場合に、その外国人の言語を認識できないと、その言語に対応した適切な通訳担当者を見つけるまでに時間がかかり、顧客を待たしてしまうという不都合が発生し得る。本実施形態の処理システム10によれば、このような不都合を軽減できる。結果、コールセンターにおける顧客満足度を高めることができる。
<第3の実施形態>
本実施形態の処理システム10は、第2の実施形態と同様の構成を有し、第1及び第2の実施形態と異なる手段で推定結果の正誤判定を行う点で、第1及び第2の実施形態と異なる。
処理システム10のハードウエア構成の一例は、第1及び第2の実施形態と同様である。
処理システム10の機能ブロック図の一例は、図4で示される。図示するように、処理システム10は、取得部11と、推定部12と、結果出力部13と、判定部14と、学習データ出力部15と、通話部16と、通話制御部17と、通訳担当者抽出部18と、通訳担当者出力部19とを有する。なお、図示しないが、処理システム10は、学習データ記憶部21及び推定モデル生成部22を備えてもよい。
処理システム10は、図5に示す通話端末1、又は、通話端末1とサーバ2の両方により構成される。すなわち、処理システム10が有する機能部の全てを通話端末1が備えてもよい。その他、処理システム10が有する機能部の一部を通話端末1が備え、残りの機能部をサーバ2が備えてもよい。通話端末1は、パーソナルコンピュータ、タブレット端末、スマートフォン等の端末装置に所定のアプリケーションをインストールすることで所定の機能部を実現した装置であってもよいし、所定の機能部が予め実現された通話専用の端末であってもよい。
取得部11、推定部12、結果出力部13、学習データ出力部15、通話部16、通話制御部17、通訳担当者抽出部18及び通訳担当者出力部19の構成は、第1又は第2の実施形態と同様である。
判定部14は、通話相手及び通訳担当者を含む三者通話が開始されてからの経過時間が所定時間を超えた場合、推定結果が正しいと判定する。判定部14のその他の構成は、第1又は第2の実施形態と同様である。
次に、処理システム10の処理の流れの一例を説明する。通話相手及び通訳担当者を含む三者通話が開始されるまでの流れは、第2の実施形態で説明した通りである(図7参照)。
三者通話が開始されると、判定部14は三者通話開始からの経過時間を監視する。そして、図12のフローチャートに示すように、経過時間が所定時間を超えずに三者通話が終了した場合(S40のNo)、判定部14はS25の推定結果は正しくないと判定し、処理を終了する。
一方、経過時間が所定時間を超えた場合(S40のYes)、判定部14はS25の推定結果は正しいと判定する。そして、学習データ出力部15は、S25で取得された対象音声データ又は対象特徴量と、S25で推定された推定結果とを学習データとして出力する(S41)。
なお、判定部14が、特定言語用対応オペレータに通話が転送され、所定時間経過すると、推定結果が正しいと判定してもよい。
以上説明した本実施形態の処理システム10によれば、第1又は第2の実施形態と同様の作用効果を実現できる。また、本実施形態の処理システム10によれば、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行うことができる。ユーザ入力なしで正誤判定できるため、ユーザ負担を軽減することができる。
また、本実施形態の処理システム10は、通話相手及び通訳担当者を含む三者通話が継続した時間や、特定言語用対応オペレータに通話が転送されてから通話が継続した時間が所定時間を超えた場合、推定結果が正しいと判定する。推定結果が間違っている場合、他の通訳担当者に切り替えたり、他の特定言語用対応オペレータに通話を再転送したりするため、上述した継続時間は比較的短くなる。上述した継続時間に基づき推定結果の正誤判定を行う本実施形態の処理システム10は、精度よく正誤判定を行うことができる。
<第4の実施形態>
本実施形態の処理システム10は、第2の実施形態と同様の構成を有し、第1乃至第3の実施形態と異なる手段で推定結果の正誤判定を行う点で、第1乃至第3の実施形態と異なる。
処理システム10のハードウエア構成の一例は、第1乃至第3の実施形態と同様である。
処理システム10の機能ブロック図の一例は、図4で示される。図示するように、処理システム10は、取得部11と、推定部12と、結果出力部13と、判定部14と、学習データ出力部15と、通話部16と、通話制御部17と、通訳担当者抽出部18と、通訳担当者出力部19とを有する。なお、図示しないが、処理システム10は、学習データ記憶部21及び推定モデル生成部22を備えてもよい。
処理システム10は、図5に示す通話端末1、又は、通話端末1とサーバ2の両方により構成される。すなわち、処理システム10が有する機能部の全てを通話端末1が備えてもよい。その他、処理システム10が有する機能部の一部を通話端末1が備え、残りの機能部をサーバ2が備えてもよい。通話端末1は、パーソナルコンピュータ、タブレット端末、スマートフォン等の端末装置に所定のアプリケーションをインストールすることで所定の機能部を実現した装置であってもよいし、所定の機能部が予め実現された通話専用の端末であってもよい。
取得部11、推定部12、結果出力部13、学習データ出力部15、通話部16、通訳担当者抽出部18及び通訳担当者出力部19の構成は、第1乃至第3の実施形態のいずれかと同様である。
通話制御部17は、通話相手との通話を保留し、指定された通訳担当者との通話を開始させた後、対象音声データを再生し、再生音を通訳担当者の通話端末に送信する。そして、通話制御部17は、その後に所定の入力を受付けると、通話相手及び通訳担当者を含む三者通話を開始させる。通話制御部17のその他の構成は、第1乃至第3の実施形態のいずれかと同様である。
判定部14は、三者通話が開始されると、推定結果が正しいと判定する。判定部14のその他の構成は、第1乃至第3の実施形態のいずれかと同様である。
次に、図13のシーケンス図を用いて、処理システム10の処理の流れの一例を説明する。
第1の通話端末、第2の通話端末及び第3の通話端末は、第2の実施形態で説明した通りである。そして、S50乃至S61の処理は、第2の実施形態で説明した図7のS20乃至S31の処理と同様である。
S61に示すように第2の通話端末と第3の通話端末との間で通話が可能な状態となった時に、第2の通話端末に表示される画面の一例は図14に示される。図では、通話中であることを示す情報、指定された通訳担当者の名称、及び、各種操作を行うためのUIボタンを含むウインドウが表示されている。UIボタンは、通話を終了するための通話終了ボタン、保留中の通話相手を含めた三者通話を開始するための三者通話開始ボタン、対象音声データを再生して対象音声を通訳担当者に聞かせるための対象音声再生ボタン等を含む。
当該画面において、対応オペレータが対象音声再生ボタンを押すと、第2の通話端末は対象音声データを再生する(S62)。結果、通訳担当者は、対象音声を聞くことができる。そして、通訳担当者は、対象音声が自身の担当する言語か否かを判定し、判定結果を通話中の対応オペレータに伝える。判定結果は、口頭で伝えられてもよいし、システムを利用した通知で実現されてもよい。システムを利用した通知は、例えば第2の通話端末及び第3の通話端末で実行中のアプリケーション等を介したメッセージの送受信で実現されてもよい。
対象音声が通訳担当者の担当する言語である場合、対応オペレータは、例えば図14に示す画面において、三者通話開始ボタンを押す(S63)。結果、第1の通話端末と、第2の通話端末と、第3の通話端末との間で三者通話が可能な状態となる(S64)。そして、判定部14はS55で推定された推定結果は正しいと判定し、学習データ出力部15はS55で取得された対象音声データ又は対象特徴量と、S55で推定された推定結果とを学習データとして出力する(S65)。
ここで、本実施形態の変形例を説明する。図13のシーケンス図を用いて説明した例では、通話相手が外国人である場合、通話相手と、対応オペレータと、通話相手の言語に対応した通訳者とを含む三者通話を行った。変形例では、通話相手が外国人である場合、対応オペレータは、通話相手の言語に対応した特定言語用対応オペレータに通話を転送してもよい。特定言語用対応オペレータは、対応オペレータと同様のスキルを有し、特定の言語で顧客対応を行うことができるオペレータである。
変形例の場合、図13のシーケンス図を用いて行った処理の説明における「通訳担当者」を「特定言語用対応オペレータ」に読み替えればよい。そして、S62の後に第2の通話端末又は第3の通話端末において所定の入力が行われると、第1の通話端末と第2の通話端末との間の通話を、第1の通話端末と第3の通話端末と間の通話に切り替える転送が行われる。
判定部14は、第1の通話端末と第2の通話端末との間の通話を、第1の通話端末と第3の通話端末と間の通話に切り替える転送が行われると、S55で推定された推定結果は正しいと判定する。そして、学習データ出力部15は、S55で取得された対象音声データ又は対象特徴量と、S55で推定された推定結果とを学習データとして出力する。
また、ユーザやオペレータの操作に応じて実行する処理の一部(例:S62、S63等)を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。
以上説明した本実施形態の処理システム10によれば、第1乃至第3の実施形態のいずれかと同様の作用効果を実現できる。また、本実施形態の処理システム10によれば、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行うことができる。ユーザ入力なしで正誤判定できるため、ユーザ負担を軽減することができる。
また、本実施形態の処理システム10は、三者通話や通話の転送を行う前に、対象音声データを再生し、対象音声を通訳担当者や特定言語用対応オペレータに聞かせることができる。そして、対象音声を聞いた通訳担当者や特定言語用対応オペレータの判定結果(対象音声の言語が自身の担当する言語か否かの判定結果)に基づき、三者通話や通話の転送を行うか否かを決定することができる。推定部12の推定結果が間違っている場合、三者通話や通話の転送が行われることはない。換言すれば、三者通話や通話の転送が行われた場合、推定部12の推定結果が正しいということができる。
対象音声データを再生した後に三者通話や通話の転送が行われたか否かに基づき推定結果の正誤判定を行う本実施形態の処理システム10は、精度よく正誤判定を行うことができる。
<第5の実施形態>
本実施形態の処理システム10は、第2の実施形態と同様の構成を有し、第1乃至第4の実施形態と異なる手段で推定結果の正誤判定を行う点で、第1乃至第4の実施形態と異なる。
処理システム10のハードウエア構成の一例は、第1乃至第4の実施形態と同様である。
処理システム10の機能ブロック図の一例は、図4で示される。図示するように、処理システム10は、取得部11と、推定部12と、結果出力部13と、判定部14と、学習データ出力部15と、通話部16と、通話制御部17と、通訳担当者抽出部18と、通訳担当者出力部19とを有する。なお、図示しないが、処理システム10は、学習データ記憶部21及び推定モデル生成部22を備えてもよい。
処理システム10は、図5に示す通話端末1、又は、通話端末1とサーバ2の両方により構成される。すなわち、処理システム10が有する機能部の全てを通話端末1が備えてもよい。その他、処理システム10が有する機能部の一部を通話端末1が備え、残りの機能部をサーバ2が備えてもよい。通話端末1は、パーソナルコンピュータ、タブレット端末、スマートフォン等の端末装置に所定のアプリケーションをインストールすることで所定の機能部を実現した装置であってもよいし、所定の機能部が予め実現された通話専用の端末であってもよい。
取得部11、推定部12、結果出力部13、学習データ出力部15、通話部16、通訳担当者抽出部18及び通訳担当者出力部19の構成は、第1乃至第4の実施形態のいずれかと同様である。
通話制御部17は、通話相手との通話を保留にしている間、推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を通話相手の通話端末に送信する。例えば、メッセージは、「このメッセージを読み上げている言語での通話を希望しますか?希望する場合は1を、他の言語での通話を希望する場合は2を押してください。」等であってもよい。
判定部14は、保留音を再生中に通話相手から所定の入力を受付ける。そして、判定部14は、通話相手の入力が第1の入力である場合、推定部12による推定結果が正しいと判定し、通話相手の入力が第2の入力である場合、推定部12による推定結果が正しくないと判定する。また、判定部14は、所定の期限までに通話相手の入力がない場合、推定結果が正しくないと判定することができる。所定の期限は、例えば上記メッセージを最後まで出力し終えたタイミングからの経過時間で定義される。
通話相手からの所定の入力は、上記メッセージに対して行われるものである。例えばメッセージが「このメッセージを読み上げている言語での通話を希望しますか?希望する場合は1を、他の言語での通話を希望する場合は2を押してください。」である場合、所定の入力はボタン1を押すことでなされる入力、又は、ボタン2を押すことでなされる入力である。この例の場合、ボタン1を押すことでなされる入力が第1の入力となり、ボタン2を押すことでなされる入力が第2の入力となる。
なお、通話制御部17は、推定結果が複数の言語を含む場合、信頼度が最も高い言語のメッセージを最初に再生し、通話相手の入力が第2の入力である場合、又は、所定の期限までに通話相手の入力がない場合には、次に信頼度が高い言語のメッセージを再生してもよい。
次に、図15のシーケンス図を用いて、処理システム10の処理の流れの一例を説明する。
第1の通話端末は、第2の通話端末及び第3の通話端末は、第2の実施形態で説明した通りである。
まず、第1の通話端末から第2の通話端末に通話要求が送信され(S70)、当該通話要求に対する通話受諾が第2の通話端末から第1の通話端末に送信されると(S71)、第1の通話端末と第2の通話端末との間で通話が開始され(S72)、通話が可能な状態(通話状態)となる。通話状態において、第2の通話端末に表示される画面の一例は図8に示される。図8の画面の説明は第2の実施形態で行ったので、ここでは省略する。
対応オペレータは、通話中に、通話相手が外国人であることを認識したが、通話相手の言語を認識できない場合、言語推定ボタンを押して言語推定処理を実行させる。当該入力に応じて、言語推定処理が実行される(S73)。
S73において、取得部11は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。例えば、第2の通話端末は、通話相手に関わらず、全ての通話が録音されるように構成されてもよい。そして、取得部11は、上記録音された音声データの一部又は全部を、対象音声データとして取得してもよい。また、取得部11は、このように取得した対象音声データから対象特徴量を抽出してもよい。
次いで、推定部12は、推定モデル生成部22により生成された推定モデルと、取得部11により取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。
そして、結果出力部13は、推定された推定結果を出力する(S74)。図16に、結果出力部13が推定結果を出力した時に第2の通話端末に表示される画面の一例を示す。図では、推定結果を示すウインドウが表示されている。当該ウインドウでは、推定結果で示される言語の通訳担当者を示す情報のリンクがはられている。
例えば図16に示す画面において、通話者との通話を保留にする保留ボタンが押されると(S75)、第1の通話端末と第2の通話端末との間の通話が保留状態になる(S76)。そして、保留状態の間、第2の通話端末は図17に示す処理を実行する。
まず、通話制御部17は、S73で推定された推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を第1の通話端末に送信する(S80)。推定結果で示される言語が複数ある場合、通話制御部17は、最も信頼度の高い言語で所定のメッセージを出力する保留音を再生し、再生音を第1の通話端末に送信する。
その後、第2の通話端末は、第1の通話端末を介して行われるユーザ入力待ちとなる。第1の入力が行われた場合(S81の第1の入力)、判定部14は、推定結果は正しいと判定する。そして、学習データ出力部15は、出力したメッセージの言語と、S73で取得された対象音声データ又は対象特徴量とを学習データとして出力する(S82)。以降、通話制御部17は、保留状態を終了する入力を受付けるまで、通常の保留音(例:音楽等)を再生し、再生音を第1の通話端末に送信する(S83)。
一方、第2の入力が行われた場合、又は、所定の期限までに入力がない場合(S81の第2の入力/入力なし)、通話制御部17は他の言語候補があるか判断する(S85)。例えば、推定結果の中に他の言語が存在する場合、又は、推定結果の中に信頼度が所定レベル以上の他の言語が存在する場合、又は、推定結果に関係なく言語候補として予め登録されている他の言語が存在する場合などには、通話制御部17は他の言語候補があると判定することができる。
他の言語候補がない場合(S85のNo)、通話制御部17は、保留状態を終了する入力を受付けるまで、通常の保留音(例:音楽等)を再生し、再生音を第1の通話端末に送信する(S83)。
他の言語候補がある場合(S85のYes)、通話制御部17は、他の言語候補で所定のメッセージを出力する保留音を再生し、再生音を第1の通話端末に送信する(S86)。そして、S81に戻り、同様の処理を繰り返す。
なお、S76の保留状態の間、図7を用いて説明したS26乃至S32の処理や、図13を用いて説明したS56乃至S63の処理が実行されてもよい。
また、ユーザやオペレータの操作に応じて実行する処理の一部(例:S75、S76等)を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。
以上説明した本実施形態の処理システム10によれば、第1乃至第4の実施形態のいずれかと同様の作用効果を実現できる。また、本実施形態の処理システム10は、保留状態の間に、推定結果の言語でメッセージを再生し、通話相手にそのメッセージを聞かせることができる。そして、本実施形態の処理システム10は、そのメッセージに対する通話相手の入力に基づき、推定結果の正誤判定を行うことができる。このような本実施形態の処理システム10によれば、高精度に推定結果の正誤判定を行うことができる。
以下、参考形態の例を付記する。
1. 言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
前記推定結果の正誤判定を行う判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システム。
2. 1に記載の処理システムにおいて、
通話手段を有し、
前記取得手段は、通話相手の音声を記録した前記対象音声データ、又は、前記通話相手の音声の特徴を示す前記対象特徴量を取得し、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させる通話制御手段と、
を有する処理システム。
3. 2に記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留し、指定された前記通訳担当者との通話を開始させた後、所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始し、
前記判定手段は、前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する処理システム。
4. 2に記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留し、指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させ、
前記判定手段は、前記三者通話が開始されると、前記推定結果が正しいと判定する処理システム。
5. 2から4のいずれかに記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信し、
前記判定手段は、前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第1の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第2の入力である場合、前記推定結果が正しくないと判定する処理システム。
6. 5に記載の処理システムにおいて、
前記判定手段は、所定の期限までに前記通話相手の入力がない場合、前記推定結果が正しくないと判定する処理システム。
7. 5又は6に記載の処理システムにおいて、
前記通話制御手段は、前記推定結果が複数の言語を含む場合、信頼度が最も高い言語の前記メッセージを再生し、前記通話相手の入力が第2の入力である場合、又は、所定の期限までに前記通話相手の入力がない場合には、次に信頼度が高い言語の前記メッセージを再生する処理システム。
8. コンピュータが、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
前記推定結果の正誤判定を行う判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法。
9. コンピュータを、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
前記推定結果の正誤判定を行う判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラム。
この出願は、2018年12月11日に出願された日本出願特願2018-231461号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (11)

  1. 通話手段と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
    前記推定手段による推定結果を出力する結果出力手段と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
    前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
    前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定手段と、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
    を有する処理システム。
  2. 通話手段と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
    前記推定手段による推定結果を出力する結果出力手段と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
    前記三者通話が開始されると、前記推定結果が正しいと判定する判定手段と、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
    を有する処理システム。
  3. 通話手段と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
    前記推定手段による推定結果を出力する結果出力手段と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段と、
    前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第1の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第2の入力である場合、前記推定結果が正しくないと判定する判定手段と、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
    を有する処理システム。
  4. 請求項3に記載の処理システムにおいて、
    前記判定手段は、所定の期限までに前記通話相手の入力がない場合、前記推定結果が正しくないと判定する処理システム。
  5. 請求項3又は4に記載の処理システムにおいて、
    前記通話制御手段は、前記推定結果が複数の言語を含む場合、信頼度が最も高い言語の前記メッセージを再生し、前記通話相手の入力が第2の入力である場合、又は、所定の期限までに前記通話相手の入力がない場合には、次に信頼度が高い言語の前記メッセージを再生する処理システム。
  6. コンピュータが、
    通話工程と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
    前記推定工程での推定結果を出力する結果出力工程と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出工程と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力工程と、
    前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御工程と、
    前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定工程と、
    前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
    を実行する処理方法。
  7. コンピュータが、
    通話工程と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
    前記推定工程での推定結果を出力する結果出力工程と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
    前記三者通話が開始されると、前記推定結果が正しいと判定する判定工程と、
    前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
    を実行する処理方法。
  8. コンピュータが、
    通話工程と、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
    前記推定工程での推定結果を出力する結果出力工程と、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段と、
    前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第1の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第2の入力である場合、前記推定結果が正しくないと判定する判定工程と、
    前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
    を実行する処理方法。
  9. コンピュータを、
    通話手段、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
    前記推定手段による推定結果を出力する結果出力手段、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
    前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段、
    前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定手段、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
    として機能させるプログラム。
  10. コンピュータを、
    通話手段、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
    前記推定手段による推定結果を出力する結果出力手段、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段、
    前記三者通話が開始されると、前記推定結果が正しいと判定する判定手段、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
    として機能させるプログラム。
  11. コンピュータを、
    通話手段、
    言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
    音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
    前記推定手段による推定結果を出力する結果出力手段、
    複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
    抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
    通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段、
    前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第1の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第2の入力である場合、前記推定結果が正しくないと判定する判定手段、
    前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
    として機能させるプログラム。
JP2020559735A 2018-12-11 2019-09-13 処理システム、処理方法及びプログラム Active JP7180687B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018231461 2018-12-11
JP2018231461 2018-12-11
PCT/JP2019/036062 WO2020121616A1 (ja) 2018-12-11 2019-09-13 処理システム、処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020121616A1 JPWO2020121616A1 (ja) 2021-10-14
JP7180687B2 true JP7180687B2 (ja) 2022-11-30

Family

ID=71077181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020559735A Active JP7180687B2 (ja) 2018-12-11 2019-09-13 処理システム、処理方法及びプログラム

Country Status (4)

Country Link
US (2) US11503161B2 (ja)
EP (1) EP3896687A4 (ja)
JP (1) JP7180687B2 (ja)
WO (1) WO2020121616A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638237A (zh) * 2020-12-15 2022-06-17 华为云计算技术有限公司 一种实现同声传译的方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032373A (ja) 2001-07-11 2003-01-31 Contents Station:Kk 三者間通話を可能とする多言語オペレートシステム
US20070121903A1 (en) 2005-09-13 2007-05-31 Language Line Services, Inc. Systems and methods for providing a language interpretation line
JP2010021692A (ja) 2008-07-09 2010-01-28 Metemu:Kk 電話を使用した通訳システム
US20120010886A1 (en) 2010-07-06 2012-01-12 Javad Razavilar Language Identification
JP2012103554A (ja) 2010-11-11 2012-05-31 Advanced Telecommunication Research Institute International 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
JP2018128575A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JP2018128576A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 用件判定装置、用件判定方法およびプログラム
JP2018174416A (ja) 2017-03-31 2018-11-08 日本電気株式会社 多言語振分装置、多言語振分方法、及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424989B1 (en) * 1991-09-20 2002-07-23 Venson M. Shaw Object-oriented transaction computing system
US6188429B1 (en) * 1997-09-19 2001-02-13 Netergy Networks, Inc Video TTY device and method for videocommunication
AU1610201A (en) * 1999-11-19 2001-05-30 Intervoice Limited Partnership Autonomously administering enhanced telephony services
EP1545110A4 (en) * 2002-09-27 2006-05-03 Ginganet Corp TELEPHONE INTERPRETATION SYSTEM
US20070206761A1 (en) * 2004-10-12 2007-09-06 Anders Joseph C Comparative tone return time three-way call detect
US8023626B2 (en) * 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
US7792276B2 (en) * 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US20070239625A1 (en) * 2006-04-05 2007-10-11 Language Line Services, Inc. System and method for providing access to language interpretation
US7773738B2 (en) * 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
US20100120404A1 (en) * 2008-11-12 2010-05-13 Bernal Andrzej Method for providing translation services
JP5544279B2 (ja) 2010-11-11 2014-07-09 株式会社神戸製鋼所 学習支援システム、学習支援システムの学習履歴集計方法、及びコンピュータプログラム
US9253329B1 (en) * 2011-06-10 2016-02-02 West Corporation Services via a conference bridge
US9025760B1 (en) * 2011-06-10 2015-05-05 West Corporation Apparatus and method for connecting a translator and a customer
KR20150103972A (ko) * 2014-03-04 2015-09-14 삼성전자주식회사 전자 장치의 촬영 기능과 통화 기능을 제어하는 방법 및 이를 구현한 전자 장치
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
JP2017143322A (ja) * 2016-02-08 2017-08-17 日本Did株式会社 通訳システム及び通訳管理装置
US20190102713A1 (en) * 2017-10-03 2019-04-04 Avaya Inc. Split enterprise/provider workflows

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032373A (ja) 2001-07-11 2003-01-31 Contents Station:Kk 三者間通話を可能とする多言語オペレートシステム
US20070121903A1 (en) 2005-09-13 2007-05-31 Language Line Services, Inc. Systems and methods for providing a language interpretation line
JP2010021692A (ja) 2008-07-09 2010-01-28 Metemu:Kk 電話を使用した通訳システム
US20120010886A1 (en) 2010-07-06 2012-01-12 Javad Razavilar Language Identification
JP2012103554A (ja) 2010-11-11 2012-05-31 Advanced Telecommunication Research Institute International 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
JP2018128575A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JP2018128576A (ja) 2017-02-08 2018-08-16 日本電信電話株式会社 用件判定装置、用件判定方法およびプログラム
JP2018174416A (ja) 2017-03-31 2018-11-08 日本電気株式会社 多言語振分装置、多言語振分方法、及びプログラム

Also Published As

Publication number Publication date
WO2020121616A1 (ja) 2020-06-18
JPWO2020121616A1 (ja) 2021-10-14
US11503161B2 (en) 2022-11-15
US20220014628A1 (en) 2022-01-13
US20230027992A1 (en) 2023-01-26
US11818300B2 (en) 2023-11-14
EP3896687A4 (en) 2022-01-26
EP3896687A1 (en) 2021-10-20

Similar Documents

Publication Publication Date Title
TWI310503B (en) Method and apparatus for use in automating access to one or more services accessible throngh a communication system, and machine readable medium recording related instructions
US11762629B2 (en) System and method for providing a response to a user query using a visual assistant
US11363140B2 (en) Systems and methods for operating an interactive voice response system
JP2010526349A (ja) 自動案内システムの文法調整
US9172795B1 (en) Phone call context setting
US20090296906A1 (en) Image sharing system
KR102535790B1 (ko) 보류 상태를 관리하기 위한 방법 및 장치
JP2012503364A (ja) 無線機器に対する既定の応答方法及び装置
JP2019197977A (ja) 問い合わせ処理方法、システム、端末、自動音声対話装置、表示処理方法、通話制御方法、及び、プログラム
CN110943908A (zh) 语音消息发送方法、电子设备及介质
JP7180687B2 (ja) 処理システム、処理方法及びプログラム
US10178230B1 (en) Methods and systems for communicating supplemental data to a callee via data association with a software-as-a-service application
JP2017216672A (ja) 通話装置
US20180054526A1 (en) Interactive voicemail message and response tagging system for improved response quality and information retrieval
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2018160798A (ja) 通信装置、通信方法、および、通信プログラム
JP7103681B2 (ja) 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP2007025036A (ja) 音声対話処理方法及びシステム並びにそのためのプログラム
JP2016082365A (ja) 情報処理システム、コミュニケーション処理方法、及びそのためのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R151 Written notification of patent or utility model registration

Ref document number: 7180687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151