JP7180687B2

JP7180687B2 - 処理システム、処理方法及びプログラム

Info

Publication number: JP7180687B2
Application number: JP2020559735A
Authority: JP
Inventors: 廣樹松浦; 秀治古明地; 孝行城風; 玲司吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-12-11
Filing date: 2019-09-13
Publication date: 2022-11-30
Anticipated expiration: 2039-09-13
Also published as: WO2020121616A1; JPWO2020121616A1; US11503161B2; US20220014628A1; US20230027992A1; US11818300B2; EP3896687A4; EP3896687A1

Description

本発明は、処理システム、処理方法及びプログラムに関する。

特許文献１は、機械学習で生成した推定モデルを用いて、発話データから発話の言語を推定する装置を開示している。

特許文献２は、通話相手である外国人と、当該外国人からの電話に対応する対応者と、当該外国人と当該対応者とのコミュニケーションをサポートするサポートチームとを含む三者の通話を実現する多言語オペレートシステムを開示している。具体的には、当該多言語オペレートシステムは、外国人又は対応者から言語の指定を受付けた後、指定された言語に対応したサポートチームを接続して三者通話を開始する。すなわち、当事者が指定した内容に基づき、外国人の言語が特定される。

特開２０１２－１０３５５４号公報特開２００３－３２３７３号公報

言語の推定精度を向上させるためには機械学習する学習データを増やす必要があるが、特許文献１及び２はいずれも、当該課題及びその解決手段を開示していない。本発明は、機械学習で生成した推定モデルを用いて言語を推定する技術において、推定精度を向上させることを課題とする。

本発明によれば、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
前記推定結果の正誤判定を行う判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システムが提供される。

また、本発明によれば、
コンピュータが、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
前記推定結果の正誤判定を行う判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法が提供される。

また、本発明によれば、
コンピュータを、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
前記推定結果の正誤判定を行う判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラムが提供される。

本発明によれば、機械学習で生成した推定モデルを用いて言語を推定する技術において、推定精度を向上させることができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態の処理システムのハードウエア構成の一例を示す図である。本実施形態の処理システムの機能ブロック図の一例である。本実施形態の処理システムの処理の流れの一例を示すフローチャートである。本実施形態の処理システムの機能ブロック図の一例である。本実施形態の処理システムの機能ブロック図の一例である。本実施形態の処理システムが処理する情報の一例を模式的に示す図である。本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムの処理の流れの一例を示すフローチャートである。本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムの処理の流れの一例を示すシーケンス図である。本実施形態の処理システムが出力する画面の一例を模式的に示す図である。本実施形態の処理システムの処理の流れの一例を示すフローチャートである。

＜第１の実施形態＞
まず、本実施形態の処理システムの概要を説明する。処理システムは、機械学習で生成した推定モデルと、言語推定対象の音声を記録した音声データ又はその音声の特徴量とに基づき、言語推定対象の音声の言語を推定する。次いで、処理システムは、推定結果を出力するとともに、推定結果の正誤判定を行う。そして、正しいと判定された推定結果と、言語推定対象の音声を記録した音声データ又はその音声の特徴量とを、推定モデルを生成するための学習データとして出力する。

次に、処理システム１０の構成を詳細に説明する。まず、処理システム１０のハードウエア構成の一例について説明する。処理システム１０が備える各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図１は、処理システム１０のハードウエア構成を例示するブロック図である。図１に示すように、処理システム１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。処理システム１０は周辺回路４Ａを有さなくてもよい。なお、処理システム１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

次に、処理システム１０の機能構成の一例について説明する。図２の機能ブロック図に示すように、処理システム１０は、取得部１１と、推定部１２と、結果出力部１３と、判定部１４と、学習データ出力部１５とを有する。

なお、図では、処理システム１０と推定モデル生成装置２０とを分けて記載しているが、処理システム１０は推定モデル生成装置２０を含んでもよい。すなわち、処理システム１０と推定モデル生成装置２０とは物理的及び／又は論理的に分かれてもよいし、処理システム１０と推定モデル生成装置２０は物理的及び論理的に一体となってもよい。

学習データ記憶部２１は、音声を記録した音声データ又は音声の特徴を示す音声特徴量と、その音声の言語（例：日本語、英語、中国語等）とをペアにした学習データを記憶する。音声特徴量は、音声データから抽出される。

推定モデル生成部２２は、学習データ記憶部２１に記憶されている学習データを用いた機械学習により、音声データ又は音声特徴量から音声の言語を推定する推定モデルを生成する。機械学習の技法は特段制限されず、あらゆる技法を採用できる。

取得部１１は、言語推定対象の音声である対象音声を記録した対象音声データ、又は、対象音声の特徴を示す対象特徴量を取得する。対象特徴量は、対象音声データから抽出される。

なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。

推定部１２は、推定モデル生成部２２が生成した推定モデルと、取得部１１が取得した対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。

結果出力部１３は、推定部１２による推定結果を出力する。結果出力部１３は、ディスプレイ、スピーカ、プリンター、投影装置、メーラ等の出力装置を介して推定結果を出力することができる。

判定部１４は、推定部１２による推定結果の正誤判定を行う。判定部１４は、所定の判定材料を取得し、当該判定材料に基づき推定結果の正誤判定を行うことができる。判定材料は、ユーザにより入力された推定結果の正誤を直接的に示す情報（「正しい」又は「間違っている」）であってもよいし、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報であってもよい。なお、判定部１４が、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行う例は、以下の実施形態で説明する。

学習データ出力部１５は、判定部１４により正しいと判定された推定結果と、推定部１２によりその推定結果が導き出された対象音声データ又は対象特徴量とを、推定モデルを生成するための学習データとして出力する。学習データ出力部１５により出力された学習データは、学習データ記憶部２１に蓄積される。

次に、図３のフローチャートを用いて、処理システム１０の処理の流れの一例を説明する。

まず、取得部１１が新たな対象音声データ又は対象特徴量を取得すると（Ｓ１０）、推定部１２は、推定モデル生成部２２により生成された推定モデルと、Ｓ１０で取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する（Ｓ１１）。次いで、結果出力部１３は、Ｓ１１で推定された推定結果を出力する（Ｓ１２）。

その後、判定部１４は、Ｓ１２で推定された推定結果の正誤判定を行う（Ｓ１３）。例えば、判定部１４は、ユーザにより入力された推定結果の正誤を直接的に示す情報を取得し、当該情報に基づき推定結果の正誤判定を行ってもよい。

判定部１４の判定結果が「正しい」でない場合（Ｓ１４のＮｏ）、処理を終了する。

一方、判定部１４の判定結果が「正しい」である場合（Ｓ１４のＹｅｓ）、学習データ出力部１５は、Ｓ１０で取得された対象音声データ又は対象特徴量と、Ｓ１１で推定された推定結果とを学習データとして出力する（Ｓ１５）。

Ｓ１５で学習データ出力部１５により出力された学習データは、学習データ記憶部２１に蓄積される。その後、図示しないが、推定モデル生成部２２は、学習データ記憶部２１に記憶されている学習データを用いた機械学習により、音声データ又は音声特徴量から音声の言語を推定する推定モデルを生成する。

推定モデル生成部２２は、新たな１つの学習データが学習データ記憶部２１に登録される毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部２２は、新たな所定個数（２以上の任意の数）の学習データが学習データ記憶部２１に登録される毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部２２は、予め定められた時刻になる毎に新たに機械学習を行い、新たな推定モデルを生成してもよい。その他、推定モデル生成部２２は、推定モデルを更新するユーザ入力があったタイミングで新たに機械学習を行い、新たな推定モデルを生成してもよい。なお、ここで例示した機械学習を行うタイミングは一例であり、これに限定されない。

以上、言語推定と、推定結果を用いた学習データの生成とを連動して実行する処理システム１０によれば、言語を推定する処理を実行しながら、学習データを増やすことができる。結果、学習データを増やすためだけの面倒な作業を回避できる。

また、上記特徴を有する処理システム１０によれば、実務において処理システム１０を利用して言語を推定させながら、実務で得られた推定結果に基づき学習データを増やすことができる。このような処理システム１０によれば、実務に適した学習データ、具体的には実務において接する機会がある言語の学習データを効率的に増やすことができる。そして、実務に適した推定モデルが生成されることとなる。このように、処理システム１０を利用する環境のニーズに特化した性能を処理システム１０に与えることができる。

＜第２の実施形態＞
本実施形態の処理システム１０は、通話手段を有し、通話相手の音声を対象音声とする点等が第１の実施形態と異なる。

処理システム１０のハードウエア構成の一例は、第１の実施形態と同様である。

処理システム１０の機能ブロック図の一例は、図４で示される。図示するように、処理システム１０は、取得部１１と、推定部１２と、結果出力部１３と、判定部１４と、学習データ出力部１５と、通話部１６と、通話制御部１７と、通訳担当者抽出部１８と、通訳担当者出力部１９とを有する。なお、図示しないが、処理システム１０は、学習データ記憶部２１及び推定モデル生成部２２を備えてもよい。

処理システム１０は、図５に示す通話端末１、又は、通話端末１とサーバ２の両方により構成される。すなわち、処理システム１０が有する機能部の全てを通話端末１が備えてもよい。その他、処理システム１０が有する機能部の一部を通話端末１が備え、残りの機能部をサーバ２が備えてもよい。通話端末１は、パーソナルコンピュータ、タブレット端末、スマートフォン等の端末装置に所定のアプリケーションをインストールすることで所定の機能部を実現した装置であってもよいし、所定の機能部が予め実現された通話専用の端末であってもよい。

通話部１６は、他の通話端末と接続し、通話を実現する機能を有する。

取得部１１は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。取得部１１のその他の構成は、第１の実施形態と同様である。

推定部１２、結果出力部１３、判定部１４及び学習データ出力部１５の構成は、第１の実施形態と同様である。

通訳担当者抽出部１８は、複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、推定結果で示される言語の通訳担当者を抽出する。図６に、通訳者情報の一例を模式的に示す。

通訳担当者出力部１９は、通訳担当者抽出部１８により抽出された通訳担当者を示す情報を出力する。通訳担当者出力部１９は、ディスプレイ、スピーカ、プリンター、投影装置、メーラ等の出力装置を介して、通訳担当者抽出部１８により抽出された通訳担当者を示す情報を出力することができる。例えば、通訳担当者出力部１９は、抽出された通訳担当者の一覧を出力してもよい。

通話制御部１７は、ユーザ入力に基づき通話相手との通話を保留する。そして、通話制御部１７は、通訳担当者抽出部１８により抽出された通訳担当者の中から１人を指定し、指定した通訳担当者との通話（例：内線通話）を開始させる。例えば、通話制御部１７は、ユーザ入力に基づき１人の通訳担当者を指定してもよいし、予め定められたルールに従い１人の通訳担当者を指定してもよい。予め定められたルールは、例えば、「当日のその時までに三者通話した回数が最も少ない人」等が例示されるが、これに限定されない。

そして、通話制御部１７は、通話相手との通話を保留し、指定された通訳担当者との通話を開始させた後、所定の入力を受付けると、通話相手及び通訳担当者を含む三者通話を開始させることができる。

次に、図７のシーケンス図を用いて、処理システム１０の処理の流れの一例を説明する。

第１の通話端末は、通話相手が利用する通話端末である。ここでは、通話相手は外国人であるものとする。なお、外国人は、本実施形態の処理システム１０を利用する地域における公用語以外の言語を話す人物あるいは、当事者が指定した言語以外の言語を話す人物であることが想定される。

第２の通話端末は、電話で顧客対応を行うことを業務とする対応オペレータが利用する通話端末である。第２の通話端末は、処理システム１０が有する機能部の全てを備えてもよいし、処理システム１０が有する機能部の一部を備えてもよい。

第３の通話端末は、所定の言語に対応した通訳者が利用する通話端末である。

まず、第１の通話端末から第２の通話端末に通話要求が送信され（Ｓ２０）、当該通話要求に対する通話受諾が第２の通話端末から第１の通話端末に送信されると（Ｓ２１）、第１の通話端末と第２の通話端末との間で通話が開始され（Ｓ２２）、通話が可能な状態（以下、「通話状態」）となる。通話状態において、第２の通話端末に表示される画面の一例は図８に示される。図では、通話中であることを示す情報、通話相手の電話番号、及び、各種操作を行うためのＵＩ（user interface）ボタンを含むウインドウが表示されている。ＵＩボタンは、通話を終了するための通話終了ボタン、通話を保留状態にするための保留ボタン、及び、通話相手の言語を推定する処理を実行するための言語推定ボタン等を含む。

対応オペレータは、通話中に、通話相手が外国人であることを認識したが、通話相手の言語を認識できない場合、保留ボタンを押して通話を保留状態にした後（Ｓ２３、Ｓ２４）、言語推定ボタンを押す。言語推定ボタンの押下に応じて、言語推定処理が実行される（Ｓ２５）。

Ｓ２５では、取得部１１は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。例えば、第２の通話端末は、通話相手に関わらず、全ての通話を録音するように構成されてもよい。そして、取得部１１は、上記録音された音声データの一部又は全部を、対象音声データとして取得してもよい。また、取得部１１は、このように取得した対象音声データから対象特徴量を抽出してもよい。次いで、推定部１２は、推定モデル生成部２２により生成された推定モデルと、取得部１１により取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。

そして、結果出力部１３は、推定された推定結果を出力する（Ｓ２６）。図９に、結果出力部１３が推定結果を出力した時に第２の通話端末に表示される画面の一例を示す。図では、推定結果を示すウインドウが表示されている。当該ウインドウでは、推定結果で示される言語の通訳担当者を示す情報のリンクがはられている。

例えば図９に示す画面において、通訳担当者を示す情報のリンクが押されると、通訳担当者出力部１９は、通訳担当者抽出部１８により抽出された通訳担当者を示す情報を取得し、出力する（Ｓ２７）。通訳担当者抽出部１８は、複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報（図６参照）を参照し、推定結果で示される言語の通訳担当者を抽出する。図１０に、通訳担当者出力部１９が通訳担当者を示す情報を出力した時に第２の通話端末に表示される画面の一例を示す。図では、推定結果の言語の通訳担当者を示すウインドウが表示されている。当該ウインドウでは、通訳担当者の氏名の一覧を表示するとともに、各通訳担当者との通話を開始するための通話ボタンが表示されている。結果出力部１３は、第２の通話端末が備える。通訳担当者出力部１９は、第２の通話端末が備える。

例えば図１０に示す画面において、１人の通訳担当者の通話ボタンが押されると（１人の通訳担当者を指定する入力（Ｓ２８））、第２の通話端末は指定された通訳担当者の連絡先情報を通訳者情報（図６参照）に基づき特定し、その通訳担当者の第３の通話端末に対して通話要求を送信する（Ｓ２９）。そして、当該通話要求に対する通話受諾が第３の通話端末から第２の通話端末に送信されると（Ｓ３０）、第２の通話端末と第３の通話端末との間で通話が可能な状態となる（Ｓ３１）。当該状態において、第２の通話端末に表示される画面の一例は図１１に示される。図では、通話中であることを示す情報、指定された翻訳担当者の名称、及び、各種操作を行うためのＵＩボタンを含むウインドウが表示されている。ＵＩボタンは、通話を終了するための通話終了ボタン、保留中の通話相手を含めた三者通話を開始するための三者通話開始ボタン等を含む。

当該画面において、対応オペレータが三者通話開始ボタンを押すと（Ｓ３２）、第１の通話端末と、第２の通話端末と、第３の通話端末との間で三者通話が可能な状態となる。

ここで、本実施形態の変形例を説明する。図７のシーケンス図を用いて説明した例では、通話相手が外国人である場合、通話相手と、対応オペレータと、通話相手の言語に対応した通訳者とを含む三者通話を行った。変形例では、通話相手が外国人である場合、対応オペレータは、通話相手の言語に対応した特定言語用対応オペレータに通話を転送してもよい。特定言語用対応オペレータは、対応オペレータと同様のスキルを有し、特定の言語で顧客対応を行うことができるオペレータである。

変形例の場合、図７のシーケンス図を用いて行った処理の説明における「通訳担当者」を「特定言語用対応オペレータ」に読み替えればよい。そして、Ｓ３１の後に第２の通話端末又は第３の通話端末において所定の入力が行われると、第１の通話端末と第２の通話端末との間の通話を、第１の通話端末と第３の通話端末との間の通話に切り替える転送が行われる。

また、図７のシーケンス図を用いて説明した例では、保留ボタンに対する操作に応じて保留状態になった後に、言語推定ボタンに対する操作に応じて言語推定処理が開始された。変形例として、通話状態のままで言語推定ボタンに対する操作が可能であり、通話状態のままで言語推定処理が実行されてもよい。その他、保留ボタンに対する操作に応じて、保留状態になるとともに、言語推定処理が開始されてもよい。すなわち、保留ボタンに対する操作は、保留状態に指示、及び、言語推定処理を開始する指示の両方を兼ねてもよい。

また、ユーザやオペレータの操作に応じて実行する処理の一部（例：Ｓ３２等）を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。

以上説明した本実施形態の処理システム１０によれば、第１の実施形態と同様な作用効果を実現できる。

また、本実施形態の処理システム１０は、通話で顧客対応を行うコールセンター等において利用することができる。コールセンターに外国人から電話がかかってきた場合に、その外国人の言語を認識できないと、その言語に対応した適切な通訳担当者を見つけるまでに時間がかかり、顧客を待たしてしまうという不都合が発生し得る。本実施形態の処理システム１０によれば、このような不都合を軽減できる。結果、コールセンターにおける顧客満足度を高めることができる。

＜第３の実施形態＞
本実施形態の処理システム１０は、第２の実施形態と同様の構成を有し、第１及び第２の実施形態と異なる手段で推定結果の正誤判定を行う点で、第１及び第２の実施形態と異なる。

処理システム１０のハードウエア構成の一例は、第１及び第２の実施形態と同様である。

取得部１１、推定部１２、結果出力部１３、学習データ出力部１５、通話部１６、通話制御部１７、通訳担当者抽出部１８及び通訳担当者出力部１９の構成は、第１又は第２の実施形態と同様である。

判定部１４は、通話相手及び通訳担当者を含む三者通話が開始されてからの経過時間が所定時間を超えた場合、推定結果が正しいと判定する。判定部１４のその他の構成は、第１又は第２の実施形態と同様である。

次に、処理システム１０の処理の流れの一例を説明する。通話相手及び通訳担当者を含む三者通話が開始されるまでの流れは、第２の実施形態で説明した通りである（図７参照）。

三者通話が開始されると、判定部１４は三者通話開始からの経過時間を監視する。そして、図１２のフローチャートに示すように、経過時間が所定時間を超えずに三者通話が終了した場合（Ｓ４０のＮｏ）、判定部１４はＳ２５の推定結果は正しくないと判定し、処理を終了する。

一方、経過時間が所定時間を超えた場合（Ｓ４０のＹｅｓ）、判定部１４はＳ２５の推定結果は正しいと判定する。そして、学習データ出力部１５は、Ｓ２５で取得された対象音声データ又は対象特徴量と、Ｓ２５で推定された推定結果とを学習データとして出力する（Ｓ４１）。

なお、判定部１４が、特定言語用対応オペレータに通話が転送され、所定時間経過すると、推定結果が正しいと判定してもよい。

以上説明した本実施形態の処理システム１０によれば、第１又は第２の実施形態と同様の作用効果を実現できる。また、本実施形態の処理システム１０によれば、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行うことができる。ユーザ入力なしで正誤判定できるため、ユーザ負担を軽減することができる。

また、本実施形態の処理システム１０は、通話相手及び通訳担当者を含む三者通話が継続した時間や、特定言語用対応オペレータに通話が転送されてから通話が継続した時間が所定時間を超えた場合、推定結果が正しいと判定する。推定結果が間違っている場合、他の通訳担当者に切り替えたり、他の特定言語用対応オペレータに通話を再転送したりするため、上述した継続時間は比較的短くなる。上述した継続時間に基づき推定結果の正誤判定を行う本実施形態の処理システム１０は、精度よく正誤判定を行うことができる。

＜第４の実施形態＞
本実施形態の処理システム１０は、第２の実施形態と同様の構成を有し、第１乃至第３の実施形態と異なる手段で推定結果の正誤判定を行う点で、第１乃至第３の実施形態と異なる。

処理システム１０のハードウエア構成の一例は、第１乃至第３の実施形態と同様である。

取得部１１、推定部１２、結果出力部１３、学習データ出力部１５、通話部１６、通訳担当者抽出部１８及び通訳担当者出力部１９の構成は、第１乃至第３の実施形態のいずれかと同様である。

通話制御部１７は、通話相手との通話を保留し、指定された通訳担当者との通話を開始させた後、対象音声データを再生し、再生音を通訳担当者の通話端末に送信する。そして、通話制御部１７は、その後に所定の入力を受付けると、通話相手及び通訳担当者を含む三者通話を開始させる。通話制御部１７のその他の構成は、第１乃至第３の実施形態のいずれかと同様である。

判定部１４は、三者通話が開始されると、推定結果が正しいと判定する。判定部１４のその他の構成は、第１乃至第３の実施形態のいずれかと同様である。

次に、図１３のシーケンス図を用いて、処理システム１０の処理の流れの一例を説明する。

第１の通話端末、第２の通話端末及び第３の通話端末は、第２の実施形態で説明した通りである。そして、Ｓ５０乃至Ｓ６１の処理は、第２の実施形態で説明した図７のＳ２０乃至Ｓ３１の処理と同様である。

Ｓ６１に示すように第２の通話端末と第３の通話端末との間で通話が可能な状態となった時に、第２の通話端末に表示される画面の一例は図１４に示される。図では、通話中であることを示す情報、指定された通訳担当者の名称、及び、各種操作を行うためのＵＩボタンを含むウインドウが表示されている。ＵＩボタンは、通話を終了するための通話終了ボタン、保留中の通話相手を含めた三者通話を開始するための三者通話開始ボタン、対象音声データを再生して対象音声を通訳担当者に聞かせるための対象音声再生ボタン等を含む。

当該画面において、対応オペレータが対象音声再生ボタンを押すと、第２の通話端末は対象音声データを再生する（Ｓ６２）。結果、通訳担当者は、対象音声を聞くことができる。そして、通訳担当者は、対象音声が自身の担当する言語か否かを判定し、判定結果を通話中の対応オペレータに伝える。判定結果は、口頭で伝えられてもよいし、システムを利用した通知で実現されてもよい。システムを利用した通知は、例えば第２の通話端末及び第３の通話端末で実行中のアプリケーション等を介したメッセージの送受信で実現されてもよい。

対象音声が通訳担当者の担当する言語である場合、対応オペレータは、例えば図１４に示す画面において、三者通話開始ボタンを押す（Ｓ６３）。結果、第１の通話端末と、第２の通話端末と、第３の通話端末との間で三者通話が可能な状態となる（Ｓ６４）。そして、判定部１４はＳ５５で推定された推定結果は正しいと判定し、学習データ出力部１５はＳ５５で取得された対象音声データ又は対象特徴量と、Ｓ５５で推定された推定結果とを学習データとして出力する（Ｓ６５）。

ここで、本実施形態の変形例を説明する。図１３のシーケンス図を用いて説明した例では、通話相手が外国人である場合、通話相手と、対応オペレータと、通話相手の言語に対応した通訳者とを含む三者通話を行った。変形例では、通話相手が外国人である場合、対応オペレータは、通話相手の言語に対応した特定言語用対応オペレータに通話を転送してもよい。特定言語用対応オペレータは、対応オペレータと同様のスキルを有し、特定の言語で顧客対応を行うことができるオペレータである。

変形例の場合、図１３のシーケンス図を用いて行った処理の説明における「通訳担当者」を「特定言語用対応オペレータ」に読み替えればよい。そして、Ｓ６２の後に第２の通話端末又は第３の通話端末において所定の入力が行われると、第１の通話端末と第２の通話端末との間の通話を、第１の通話端末と第３の通話端末と間の通話に切り替える転送が行われる。

判定部１４は、第１の通話端末と第２の通話端末との間の通話を、第１の通話端末と第３の通話端末と間の通話に切り替える転送が行われると、Ｓ５５で推定された推定結果は正しいと判定する。そして、学習データ出力部１５は、Ｓ５５で取得された対象音声データ又は対象特徴量と、Ｓ５５で推定された推定結果とを学習データとして出力する。

また、ユーザやオペレータの操作に応じて実行する処理の一部（例：Ｓ６２、Ｓ６３等）を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。

以上説明した本実施形態の処理システム１０によれば、第１乃至第３の実施形態のいずれかと同様の作用効果を実現できる。また、本実施形態の処理システム１０によれば、ユーザ入力以外の手段で取得した推定結果の正誤を間接的に示す情報に基づき推定結果の正誤判定を行うことができる。ユーザ入力なしで正誤判定できるため、ユーザ負担を軽減することができる。

また、本実施形態の処理システム１０は、三者通話や通話の転送を行う前に、対象音声データを再生し、対象音声を通訳担当者や特定言語用対応オペレータに聞かせることができる。そして、対象音声を聞いた通訳担当者や特定言語用対応オペレータの判定結果（対象音声の言語が自身の担当する言語か否かの判定結果）に基づき、三者通話や通話の転送を行うか否かを決定することができる。推定部１２の推定結果が間違っている場合、三者通話や通話の転送が行われることはない。換言すれば、三者通話や通話の転送が行われた場合、推定部１２の推定結果が正しいということができる。

対象音声データを再生した後に三者通話や通話の転送が行われたか否かに基づき推定結果の正誤判定を行う本実施形態の処理システム１０は、精度よく正誤判定を行うことができる。

＜第５の実施形態＞
本実施形態の処理システム１０は、第２の実施形態と同様の構成を有し、第１乃至第４の実施形態と異なる手段で推定結果の正誤判定を行う点で、第１乃至第４の実施形態と異なる。

処理システム１０のハードウエア構成の一例は、第１乃至第４の実施形態と同様である。

取得部１１、推定部１２、結果出力部１３、学習データ出力部１５、通話部１６、通訳担当者抽出部１８及び通訳担当者出力部１９の構成は、第１乃至第４の実施形態のいずれかと同様である。

通話制御部１７は、通話相手との通話を保留にしている間、推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を通話相手の通話端末に送信する。例えば、メッセージは、「このメッセージを読み上げている言語での通話を希望しますか？希望する場合は１を、他の言語での通話を希望する場合は２を押してください。」等であってもよい。

判定部１４は、保留音を再生中に通話相手から所定の入力を受付ける。そして、判定部１４は、通話相手の入力が第１の入力である場合、推定部１２による推定結果が正しいと判定し、通話相手の入力が第２の入力である場合、推定部１２による推定結果が正しくないと判定する。また、判定部１４は、所定の期限までに通話相手の入力がない場合、推定結果が正しくないと判定することができる。所定の期限は、例えば上記メッセージを最後まで出力し終えたタイミングからの経過時間で定義される。

通話相手からの所定の入力は、上記メッセージに対して行われるものである。例えばメッセージが「このメッセージを読み上げている言語での通話を希望しますか？希望する場合は１を、他の言語での通話を希望する場合は２を押してください。」である場合、所定の入力はボタン１を押すことでなされる入力、又は、ボタン２を押すことでなされる入力である。この例の場合、ボタン１を押すことでなされる入力が第１の入力となり、ボタン２を押すことでなされる入力が第２の入力となる。

なお、通話制御部１７は、推定結果が複数の言語を含む場合、信頼度が最も高い言語のメッセージを最初に再生し、通話相手の入力が第２の入力である場合、又は、所定の期限までに通話相手の入力がない場合には、次に信頼度が高い言語のメッセージを再生してもよい。

次に、図１５のシーケンス図を用いて、処理システム１０の処理の流れの一例を説明する。

第１の通話端末は、第２の通話端末及び第３の通話端末は、第２の実施形態で説明した通りである。

まず、第１の通話端末から第２の通話端末に通話要求が送信され（Ｓ７０）、当該通話要求に対する通話受諾が第２の通話端末から第１の通話端末に送信されると（Ｓ７１）、第１の通話端末と第２の通話端末との間で通話が開始され（Ｓ７２）、通話が可能な状態（通話状態）となる。通話状態において、第２の通話端末に表示される画面の一例は図８に示される。図８の画面の説明は第２の実施形態で行ったので、ここでは省略する。

対応オペレータは、通話中に、通話相手が外国人であることを認識したが、通話相手の言語を認識できない場合、言語推定ボタンを押して言語推定処理を実行させる。当該入力に応じて、言語推定処理が実行される（Ｓ７３）。

Ｓ７３において、取得部１１は、通話相手の音声を記録した対象音声データ、又は、通話相手の音声の特徴を示す対象特徴量を取得する。例えば、第２の通話端末は、通話相手に関わらず、全ての通話が録音されるように構成されてもよい。そして、取得部１１は、上記録音された音声データの一部又は全部を、対象音声データとして取得してもよい。また、取得部１１は、このように取得した対象音声データから対象特徴量を抽出してもよい。

次いで、推定部１２は、推定モデル生成部２２により生成された推定モデルと、取得部１１により取得された対象音声データ又は対象特徴量とに基づき、対象音声の言語を推定する。

そして、結果出力部１３は、推定された推定結果を出力する（Ｓ７４）。図１６に、結果出力部１３が推定結果を出力した時に第２の通話端末に表示される画面の一例を示す。図では、推定結果を示すウインドウが表示されている。当該ウインドウでは、推定結果で示される言語の通訳担当者を示す情報のリンクがはられている。

例えば図１６に示す画面において、通話者との通話を保留にする保留ボタンが押されると（Ｓ７５）、第１の通話端末と第２の通話端末との間の通話が保留状態になる（Ｓ７６）。そして、保留状態の間、第２の通話端末は図１７に示す処理を実行する。

まず、通話制御部１７は、Ｓ７３で推定された推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を第１の通話端末に送信する（Ｓ８０）。推定結果で示される言語が複数ある場合、通話制御部１７は、最も信頼度の高い言語で所定のメッセージを出力する保留音を再生し、再生音を第１の通話端末に送信する。

その後、第２の通話端末は、第１の通話端末を介して行われるユーザ入力待ちとなる。第１の入力が行われた場合（Ｓ８１の第１の入力）、判定部１４は、推定結果は正しいと判定する。そして、学習データ出力部１５は、出力したメッセージの言語と、Ｓ７３で取得された対象音声データ又は対象特徴量とを学習データとして出力する（Ｓ８２）。以降、通話制御部１７は、保留状態を終了する入力を受付けるまで、通常の保留音（例：音楽等）を再生し、再生音を第１の通話端末に送信する（Ｓ８３）。

一方、第２の入力が行われた場合、又は、所定の期限までに入力がない場合（Ｓ８１の第２の入力／入力なし）、通話制御部１７は他の言語候補があるか判断する（Ｓ８５）。例えば、推定結果の中に他の言語が存在する場合、又は、推定結果の中に信頼度が所定レベル以上の他の言語が存在する場合、又は、推定結果に関係なく言語候補として予め登録されている他の言語が存在する場合などには、通話制御部１７は他の言語候補があると判定することができる。

他の言語候補がない場合（Ｓ８５のＮｏ）、通話制御部１７は、保留状態を終了する入力を受付けるまで、通常の保留音（例：音楽等）を再生し、再生音を第１の通話端末に送信する（Ｓ８３）。

他の言語候補がある場合（Ｓ８５のＹｅｓ）、通話制御部１７は、他の言語候補で所定のメッセージを出力する保留音を再生し、再生音を第１の通話端末に送信する（Ｓ８６）。そして、Ｓ８１に戻り、同様の処理を繰り返す。

なお、Ｓ７６の保留状態の間、図７を用いて説明したＳ２６乃至Ｓ３２の処理や、図１３を用いて説明したＳ５６乃至Ｓ６３の処理が実行されてもよい。

また、ユーザやオペレータの操作に応じて実行する処理の一部（例：Ｓ７５、Ｓ７６等）を機械的な自動処理に置き換えてもよい。この場合も、本実施形態の作用効果が実現される。

以上説明した本実施形態の処理システム１０によれば、第１乃至第４の実施形態のいずれかと同様の作用効果を実現できる。また、本実施形態の処理システム１０は、保留状態の間に、推定結果の言語でメッセージを再生し、通話相手にそのメッセージを聞かせることができる。そして、本実施形態の処理システム１０は、そのメッセージに対する通話相手の入力に基づき、推定結果の正誤判定を行うことができる。このような本実施形態の処理システム１０によれば、高精度に推定結果の正誤判定を行うことができる。

以下、参考形態の例を付記する。
１．言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
前記推定結果の正誤判定を行う判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システム。
２．１に記載の処理システムにおいて、
通話手段を有し、
前記取得手段は、通話相手の音声を記録した前記対象音声データ、又は、前記通話相手の音声の特徴を示す前記対象特徴量を取得し、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させる通話制御手段と、
を有する処理システム。
３．２に記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留し、指定された前記通訳担当者との通話を開始させた後、所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始し、
前記判定手段は、前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する処理システム。
４．２に記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留し、指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させ、
前記判定手段は、前記三者通話が開始されると、前記推定結果が正しいと判定する処理システム。
５．２から４のいずれかに記載の処理システムにおいて、
前記通話制御手段は、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信し、
前記判定手段は、前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第１の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第２の入力である場合、前記推定結果が正しくないと判定する処理システム。
６．５に記載の処理システムにおいて、
前記判定手段は、所定の期限までに前記通話相手の入力がない場合、前記推定結果が正しくないと判定する処理システム。
７．５又は６に記載の処理システムにおいて、
前記通話制御手段は、前記推定結果が複数の言語を含む場合、信頼度が最も高い言語の前記メッセージを再生し、前記通話相手の入力が第２の入力である場合、又は、所定の期限までに前記通話相手の入力がない場合には、次に信頼度が高い言語の前記メッセージを再生する処理システム。
８．コンピュータが、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
前記推定結果の正誤判定を行う判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法。
９．コンピュータを、
言語推定対象の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
前記推定結果の正誤判定を行う判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラム。

この出願は、２０１８年１２月１１日に出願された日本出願特願２０１８－２３１４６１号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

通話手段と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システム。
通話手段と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
前記三者通話が開始されると、前記推定結果が正しいと判定する判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システム。
通話手段と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段と、
前記推定手段による推定結果を出力する結果出力手段と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段と、
前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第１の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第２の入力である場合、前記推定結果が正しくないと判定する判定手段と、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段と、
を有する処理システム。
請求項３に記載の処理システムにおいて、
前記判定手段は、所定の期限までに前記通話相手の入力がない場合、前記推定結果が正しくないと判定する処理システム。
請求項３又は４に記載の処理システムにおいて、
前記通話制御手段は、前記推定結果が複数の言語を含む場合、信頼度が最も高い言語の前記メッセージを再生し、前記通話相手の入力が第２の入力である場合、又は、所定の期限までに前記通話相手の入力がない場合には、次に信頼度が高い言語の前記メッセージを再生する処理システム。
コンピュータが、
通話工程と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出工程と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力工程と、
前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御工程と、
前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法。
コンピュータが、
通話工程と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段と、
前記三者通話が開始されると、前記推定結果が正しいと判定する判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法。
コンピュータが、
通話工程と、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得工程と、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定工程と、
前記推定工程での推定結果を出力する結果出力工程と、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段と、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段と、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段と、
前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第１の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第２の入力である場合、前記推定結果が正しくないと判定する判定工程と、
前記判定工程で正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力工程と、
を実行する処理方法。
コンピュータを、
通話手段、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
前記通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段、
前記三者通話が開始されてからの経過時間が所定時間を超えた場合、前記推定結果が正しいと判定する判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラム。
コンピュータを、
通話手段、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させた後、前記対象音声データを再生し、再生音を前記通訳担当者の通話端末に送信し、その後に所定の入力を受付けると、前記通話相手及び前記通訳担当者を含む三者通話を開始させる通話制御手段、
前記三者通話が開始されると、前記推定結果が正しいと判定する判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラム。
コンピュータを、
通話手段、
言語推定対象の音声であって、通話相手の音声である対象音声を記録した対象音声データ、又は、前記対象音声の特徴を示す対象特徴量を取得する取得手段、
音声を記録した音声データ又は前記音声の特徴を示す音声特徴量から前記音声の言語を推定する推定モデルと、前記対象音声データ又は前記対象特徴量とに基づき、前記対象音声の言語を推定する推定手段、
前記推定手段による推定結果を出力する結果出力手段、
複数の言語各々の通訳担当者及び連絡先情報を登録した通訳者情報を参照し、前記推定結果で示される言語の前記通訳担当者を抽出する通訳担当者抽出手段、
抽出された前記通訳担当者を示す情報を出力する通訳担当者出力手段、
通話相手との通話を保留し、抽出された前記通訳担当者の中から指定された前記通訳担当者との通話を開始させ、前記通話相手との通話を保留にしている間、前記推定結果で示される言語で所定のメッセージを出力する保留音を再生し、再生音を前記通話相手の通話端末に送信する通話制御手段、
前記保留音を再生中に前記通話相手から所定の入力を受付け、前記通話相手の入力が第１の入力である場合、前記推定結果が正しいと判定し、前記通話相手の入力が第２の入力である場合、前記推定結果が正しくないと判定する判定手段、
前記判定手段により正しいと判定された前記推定結果と、前記対象音声データ又は前記対象特徴量とを、前記推定モデルを生成するための学習データとして出力する学習データ出力手段、
として機能させるプログラム。