JP6570893B2

JP6570893B2 - 翻訳支援システムおよび情報処理装置

Info

Publication number: JP6570893B2
Application number: JP2015125675A
Authority: JP
Inventors: 健一松沼
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-06-23
Filing date: 2015-06-23
Publication date: 2019-09-04
Anticipated expiration: 2035-06-23
Also published as: JP2017010311A

Description

本発明は、音声認識を介した機械翻訳と人間による翻訳とを併用する技術に関する。

外国人観光客の増加に伴い、小売店やサービス提供事業者における翻訳のニーズが高まっている。例えば、特許文献１には自動翻訳の翻訳レベルが低い場合に、同じ文を翻訳家に再翻訳させる技術が記載されている。また、非特許文献１には、音声の自動翻訳とオペレータとの電話による翻訳とを併用する、スマートフォン向けのアプリケーションプログラムが記載されている。

特開２００５−３２２１７号公報

"世界初の通訳アプリ「SmartTrip」を昭文社と共同開発"、［online］、平成２７年、［２０１５年６月９日検索］、インターネット＜URL: http://www.wi-ho.net/news/1954.html＞

特許文献１および非特許文献１に記載の技術においては、いずれも、機械翻訳と人間による翻訳とはユーザが手動で切り替える必要があり不便であった。
これに対し本発明は、機械翻訳と人間による翻訳とを自動的に切り替える技術を提供する。

本発明は、第１言語で話す話者の音声を取得する音声取得手段と、前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続する通信手段と、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段とを有する翻訳支援システムを提供する。

この翻訳支援システムは、前記翻訳支援システムまたは前記話者に関する情報を取得する情報取得手段と、情報取得手段により取得された情報に応じて前記不良範囲を決定する決定手段とを有してもよい。

前記情報取得手段は、前記話者の画像を取得してもよい。

前記情報取得手段は、前記話者の属性を取得してもよい。

前記情報取得手段は、前記話者の周辺環境を示す情報を取得してもよい。

前記情報取得手段は、前記オペレータの混雑度合いを示す情報を取得してもよい。

前記情報取得手段は、前記音声取得手段によって取得された音声により示される会話の内容を取得してもよい。

この翻訳支援システムは、前記オペレータへの接続時に、前記音声または当該音声に対する音声認識の結果である文字列の履歴を当該オペレータに送信する送信手段を有してもよい。

また、本発明は、第１言語で話す話者の音声を取得する音声取得手段と、前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続する通信手段と、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段とを有する情報処理装置を提供する。

さらに、本発明は、コンピュータに、第１言語で話す話者の音声を取得するステップと、前記取得された音声により示される文を第２言語に翻訳をするステップと、前記翻訳における翻訳精度が、あらかじめ決められた不良範囲にあるか判定するステップと、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続するステップと、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳された結果を出力するステップとを実行させるためのプログラムを提供する。

本発明によれば、機械翻訳と人間による翻訳とを翻訳精度に応じて自動的に切り替えることができる。

一実施形態に係る翻訳支援システム１の概要を示す図翻訳支援システム１の機能構成を例示する図ユーザ端末１０のハードウェア構成を例示する図サーバ２０のハードウェア構成を例示する図オペレータ端末３０のハードウェア構成を例示する図翻訳支援システム１の一実施形態に係る動作を例示するシーケンスチャートユーザ端末１０におけるＵＩ画面を例示する図第１言語が選択された後のＵＩ画面を例示する図翻訳文が表示されているＵＩ画面を例示する図話者と翻訳オペレータＯとの会話を例示する模式図呼接続を促す画像を例示する図変形例６に係るユーザ端末１０の機能構成を例示する図

１．構成
図１は、一実施形態に係る翻訳支援システム１の概要を示す図である。翻訳支援システム１は、第１言語を話す第１話者Ｕ１と第２言語を話す第２話者Ｕ２との会話を支援するシステムである。翻訳支援システム１は、例えば、店舗における外国人相手の接客に用いられる。この例で、第１話者Ｕ１は英語を話す外国人客であり、第２話者Ｕ２は日本語を話す店員である。

翻訳支援システム１は、ユーザ端末１０、サーバ２０、およびオペレータ端末３０を有する。ユーザ端末１０は、店舗において用いられる端末であり、第１話者Ｕ１と第２話者Ｕ２とのインターフェースとして機能する。オペレータ端末３０は翻訳オペレータＯ（すなわち人間の通訳）により用いられる端末である。サーバ２０は、ユーザ端末１０とオペレータ端末３０との接続を管理するための装置である。ユーザ端末１０、サーバ２０、およびオペレータ端末３０は、ネットワーク４０を介して互いに接続されている。ネットワーク４０は、例えば、インターネットおよび移動通信網を含む。なお、翻訳支援システム１はユーザ端末１０およびオペレータ端末３０をそれぞれ複数有していてもよいが、ここでは図面を簡単にするためそれぞれ１台のみ示している。

図２は、翻訳支援システム１の機能構成を例示する図である。この例では、ユーザ端末１０が、表示手段１１、音声入力手段１２、音声取得手段１３、送信手段１４、通信手段１５、音声出力手段１６、および処理手段１７を有し、サーバ２０が、受信手段２１、音声認識手段２２、翻訳手段２３、送信手段２４、判定手段２５、および接続制御手段２６を有し、オペレータ端末３０が、通信手段３１を有する。

ユーザ端末１０において、表示手段１１は、ＵＩ（User Interface）画面を表示する。音声入力手段１２は、話者の音声の入力を受け付ける。音声取得手段１３は、音声入力手段１２により入力が受け付けられた音声をデータ化した音声データを取得する。送信手段１４は、音声取得手段１３により取得された音声データをサーバ２０に送信する。

サーバ２０において、受信手段２１は、ユーザ端末１０から音声データを受信する。音声認識手段２２は、受信手段２１により受信された音声データに対し、音声認識処理を行う。ここで、音声認識処理とは、人間の話し言葉を文字列に変換することをいう。翻訳手段２３は、音声認識手段２２により得られた文字列すなわち文を別の言語に翻訳する。送信手段２４は、翻訳手段２３により翻訳の結果を示すデータをユーザ端末１０に送信する。判定手段２５は、翻訳手段２３における翻訳精度があらかじめ決められた不良範囲にあるか判定する。翻訳手段２３における翻訳精度が不良範囲にあると判定された場合、接続制御手段２６は、ユーザ端末１０とオペレータ端末３０とを呼接続するように制御する。

ユーザ端末１０において、通信手段１５は、オペレータ端末３０と呼接続する。処理手段１７は、オペレータ端末３０との呼接続を開始させるための処理またはその呼接続を話者に促すための処理を行う。オペレータ端末３０において、通信手段３１は、ユーザ端末１０と呼接続する。ここでいう呼接続は、少なくとも音声を通信するための通信接続をいう。ユーザ端末１０において、音声出力手段１６は、翻訳結果を音声で出力する。通信手段１５によってオペレータ端末３０と呼接続されている場合、音声出力手段は、オペレータの音声を出力する。

この例で、サーバ２０はさらに、情報取得手段２７および決定手段２８を有する。情報取得手段２７は、翻訳支援システム１または話者に関する情報を取得する。決定手段２８は、情報取得手段により取得された情報に応じて、翻訳手段２３における不良範囲を決定する。

図３は、ユーザ端末１０のハードウェア構成を例示する図である。ユーザ端末１０は、例えばタブレット端末である。ユーザ端末１０は、ＣＰＵ１００、ＲＯＭ１０１、ＲＡＭ１０２、ストレージ１０３、通信ＩＦ１０４、表示部１０５、タッチセンサ１０６、マイクロフォン１０７、およびスピーカ１０８を有するコンピュータ装置（情報処理装置）である。

ＣＰＵ１００は、ユーザ端末１０の他のハードウェア要素を制御するプロセッサである。ＲＯＭ１０１は、ユーザ端末１０の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。ＲＡＭ１０２は、ＣＰＵ１００がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ１０３は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信ＩＦ１０４は、ネットワーク４０を介した通信を行うためのインターフェースである。この例で、通信ＩＦ１０４は、移動通信網を介して通信を行うためのインターフェースを含む。表示部１０５は、情報を表示する表示装置であり、例えば液晶ディスプレイを含む。タッチセンサ１０６は、指示体（例えばユーザの指）により触れられた位置を検知するセンサである。この例で、タッチセンサ１０６は表示部１０５の表示面上に設けられており、いわゆるタッチスクリーンを構成する。マイクロフォン１０７は、ユーザの音声を集音する。スピーカ１０８は、音声を出力する。

この例で、ストレージ１０３は、コンピュータ装置を翻訳支援システム１のユーザ端末として機能させるためのクライアントプログラムを記憶している。ＣＰＵ１００がこのクライアントプログラムを実行することにより、図２に示される機能が実装される。表示部１０５は、表示手段１１の一例である。マイクロフォン１０７は、音声入力手段１２の一例である。ＣＰＵ１００は、音声取得手段１３の一例である。通信ＩＦ１０４は、送信手段１４および通信手段１５の一例である。スピーカ１０８は、音声出力手段１６の一例である。

図４は、サーバ２０のハードウェア構成を例示する図である。サーバ２０は、ＣＰＵ２００、ＲＯＭ２０１、ＲＡＭ２０２、ストレージ２０３、および通信ＩＦ２０４を有するコンピュータ装置である。

ＣＰＵ２００は、サーバ２０の他のハードウェア要素を制御するプロセッサである。ＲＯＭ２０１は、サーバ２０の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。ＲＡＭ２０２は、ＣＰＵ２００がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ２０３は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信ＩＦ２０４は、ネットワーク４０を介した通信を行うためのインターフェースである。

この例で、ストレージ２０３は、コンピュータ装置を翻訳支援システム１のサーバとして機能させるためのサーバプログラムを記憶している。ＣＰＵ２００がこのサーバプログラムを実行することにより、図２に示される機能が実装される。通信ＩＦ２０４は、受信手段２１および送信手段２４の一例である。ＣＰＵ２００は、音声認識手段２２、翻訳手段２３、判定手段２５、接続制御手段２６、情報取得手段２７、および決定手段２８の一例である。

図５は、オペレータ端末３０のハードウェア構成を例示する図である。オペレータ端末３０は、例えばデスクトップ型のＰＣ（Personal Computer）である。オペレータ端末３０は、ＣＰＵ３００、ＲＯＭ３０１、ＲＡＭ３０２、ストレージ３０３、通信ＩＦ３０４、表示部３０５、キーボード３０６、マイクロフォン３０７、およびスピーカ３０８を有するコンピュータ装置である。

ＣＰＵ３００は、オペレータ端末３０の他のハードウェア要素を制御するプロセッサである。ＲＯＭ３０１は、オペレータ端末３０の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。ＲＡＭ３０２は、ＣＰＵ３００がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ３０３は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信ＩＦ３０４は、ネットワーク４０を介した通信を行うためのインターフェースである。表示部３０５は、情報を表示する表示装置であり、例えば液晶ディスプレイを含む。キーボード３０６は、オペレータが情報を入力するための入力装置である。マイクロフォン３０７は、オペレータの音声を集音する。スピーカ３０８は、音声を出力する。

この例で、ストレージ３０３は、コンピュータ装置を翻訳支援システム１のオペレータ端末として機能させるためのオペレータ端末プログラムを記憶している。ＣＰＵ３００がこのオペレータ端末プログラムを実行することにより、図２に示される機能が実装される。通信ＩＦ３０４は、通信手段３１の一例である。

２．動作
２−１．概要
図６は、翻訳支援システム１の一実施形態に係る動作を例示するシーケンスチャートである。以下、翻訳支援システム１が店舗における外国人相手の接客に用いられる例を説明する。この例で、第１話者Ｕ１は英語（第１言語の一例）を話す外国人客であり、第２話者Ｕ２は日本語（第２言語の一例）を話す店員である。図６のフローは、例えば、ユーザ端末１０の電源が投入されたことを契機として開始される。

ステップＳ１００において、ユーザ端末１０は、ＵＩ画面を表示する。

図７は、ユーザ端末１０におけるＵＩ画面を例示する図である。このＵＩ画面は、ボタン５１〜５４を含んでいる。ボタン５１〜５４は、客すなわち第１話者Ｕ１に第１言語を選択させるための選択肢を示す画像オブジェクトである。具体的には、ボタン５１〜５４は、それぞれ、第１言語として英語、仏語、中国語、および韓国語を選択するためのボタンである。客は、ユーザ端末１０のタッチスクリーンにおいて、自分が話す言語に対応するボタンが表示されている位置に触れることにより、第１言語を選択する。この例では英語が選択される。なお以下の説明において、タッチスクリーンにおいてボタンが表示されている位置に触れることを単に「ボタンを押す」という。

図８は、第１言語が選択された後のＵＩ画面を例示する図である。このＵＩ画面は、ボタン５５およびボタン５６を含んでいる。ボタン５５は、話者が客すなわち第１話者Ｕ１であることを特定するためのボタンであり、ボタン５６は、話者が店員すなわち第２話者Ｕ２であることを特定するためのボタンである。客は、自分が話をするときにはボタン５５を押す。店員は、自分が話をするときにはボタン５６を押す。これらのボタンにより、ユーザ端末１０は、いま話をしている話者が第１話者Ｕ１であるか第２話者Ｕ２であるか容易に特定することができる。

再び図６を参照する。ステップＳ１０１において、ユーザ端末１０のＣＰＵ１００は、第１言語および第２言語、並びにユーザ端末１０を特定する情報を、通信ＩＦ１０４を介してサーバ２０に送信する。この情報により、サーバは、翻訳元の言語および翻訳先の言語を特定することができる。

ステップＳ１０２において、ＣＰＵ１００は、マイクロフォン１０７を介して入力された音声をデータ化し、音声データを得る。ＣＰＵ１００は、この音声データに、話者が話している言語の識別子を付加する。ステップＳ１０３において、ＣＰＵ１００は、音声データを、通信ＩＦ１０４を介してサーバ２０に送信する。

ステップＳ１０４において、サーバ２０のＣＰＵ２００は、ユーザ端末１０から受信した音声データに対し、音声認識処理を行う。この音声データには、言語を特定する識別子が付加されている。ＣＰＵ２００は、この識別子を参照し、識別子により示される言語に適した辞書およびアルゴリズムを用いて音声認識処理を行う。音声認識処理により、話者の話し言葉から変換された文字列のデータが得られる。以下、音声認識処理により得られた文字列を「対象原文」という。このデータには、対象原文の言語を特定する識別子が含まれる。

ステップＳ１０５において、ＣＰＵ２００は、対象原文を翻訳する。対象原文の言語はデータに含まれる識別子により示され、また、翻訳先の言語はステップＳ１０１で送信された情報により示される。ＣＰＵ２００は、これらの情報により示される言語に適した辞書およびアルゴリズムを用いて翻訳を行う。翻訳により、対象原文を翻訳した文字列が得られる。以下、翻訳により得られた文字列を対象翻訳文という。

ステップＳ１０６において、ＣＰＵ２００は、翻訳精度の判定を行う。この例で、翻訳精度の判定は、以下のとおり行われる。まず、ＣＰＵ２００は、対象翻訳文を対象原文の言語に再翻訳する。再翻訳により得られた文字列を「対象再翻訳文」という。ＣＰＵ２００は、対象再翻訳文と対象原文とを対比し、両者の近似度に基づいて翻訳精度を判定する。具体的には、ＣＰＵ２００は、所定のアルゴリズムにより対象再翻訳文と対象原文との近似度を数値として算出する。ＣＰＵ２００は、算出された近似度をしきい値と比較し、近似度がしきい値よりも低い（対象再翻訳文と対象原文とが近似していない）場合に、翻訳精度が不良範囲にあると判定する。この例で、このしきい値は、翻訳支援システム１および２人の話者の少なくともいずれかの状況に応じて動的に決定される。しきい値の決定方法の詳細は後述する。翻訳精度が不良範囲にないと判断された場合、ＣＰＵ２００は、処理をステップＳ１０７に移行する。翻訳精度が不良範囲にあると判断された場合、ＣＰＵ２００は、処理をステップＳ１１０に移行する。

ステップＳ１０７において、ＣＰＵ２００は、対象翻訳文を用いて音声合成処理を行う。音声合成処理により、対象翻訳文の音声データが得られる。ステップＳ１０８において、ＣＰＵ２００は、対象原文の文字データ、対象翻訳文の文字データ、および対象翻訳文の音声データを、対象原文の音声データの送信元であるユーザ端末１０に送信する。

ステップＳ１０９において、ユーザ端末１０のＣＰＵ１００は、サーバ２０から受信したデータに基づき、翻訳文を出力する。翻訳文の出力は、対象翻訳文の文字列の表示および対象翻訳文の音声の出力を含む。この例では、さらに、対象原文の文字列の表示も行われる。

図９は、翻訳文が表示されているＵＩ画面を例示する図である。このＵＩ画面においては、第１話者Ｕ１の話し言葉と第２話者Ｕ２の話し言葉とを区別可能なように、第１話者Ｕ１と第２話者Ｕ２とで、例えば、文字の書体、色、大きさ、および表示位置の少なくとも１つが異なっている。また、原文と翻訳文とにおいても、文字の書体、色、大きさ、および表示位置の少なくとも１つが異なっている。

この例では、客の「How much is this?」という話し言葉に対して、音声認識により得られた「How much is this?」という原文、および「これはいくらですか？」という翻訳文が表示されている。さらに、これに対する店員の「２０，０００円です」という話し言葉に対して「２０，０００円です」という原文、および「20,000 JPY」という翻訳文が表示されている。このように、翻訳文と併せて音声認識の結果得られた原文の文字列を表示することにより、話者は、自分の話し言葉が正しく認識されているか確認しながら会話を進めることができる。音声認識の結果が誤っていた場合、話者は、再度ゆっくり話して正しい情報を伝えることができる。

再び図６を参照する。ステップＳ１１０において、ＣＰＵ２００は、話者と翻訳オペレータＯ（通訳）とを通話させるため、翻訳オペレータＯを選択する。サーバ２０は、翻訳支援システム１においてサービス提供可能な翻訳オペレータＯの一覧を含むデータベースをストレージ２０３に記憶している。このデータベースには、各翻訳オペレータＯが対応可能な言語を示す情報、その翻訳オペレータＯが現在稼働中かどうかを示す情報、およびその翻訳オペレータＯが使用しているオペレータ端末３０の識別子が含まれている。ＣＰＵ２００は、現在稼働中の翻訳オペレータＯの中から、第１言語および第２言語に対応可能な翻訳オペレータＯを選択する。

ステップＳ１１１において、ＣＰＵ２００は、選択された翻訳オペレータＯが使用しているオペレータ端末３０の識別子、およびオペレータへの接続指令を、ユーザ端末１０に送信する。

サーバ２０からオペレータへの接続指令を受信すると、ユーザ端末１０のＣＰＵ１００は、接続指令と共に受信した識別子により特定されるオペレータ端末３０に対し、呼接続を要求する（ステップＳ１１２）。ここでいう呼接続は、音声通信回線を介したものであってもよいし、データ通信回線を介したものであってもよい。ユーザ端末１０およびオペレータ端末３０は、周知の技術により呼接続を確立する（ステップＳ１１３）。すなわち通信回線を接続する。呼接続されると、話者と翻訳オペレータＯとは、通常の電話と同じように話をすることができる。

ユーザ端末１０のＣＰＵ１００は、オペレータ端末３０との呼接続が確立されると、会話の履歴データをオペレータ端末３０に送信する。会話の履歴データとは、第１話者Ｕ１および第２話者Ｕ２の話し言葉に関し、原文および翻訳文の文字データおよび音声データの少なくとも一方の履歴を含むデータをいう。履歴データを受信すると、オペレータ端末３０のＣＰＵ３００は、例えば表示部３０５に会話の履歴を表示する。これにより、翻訳オペレータＯは、それまでの会話の流れを把握することができる。

話者の音声はマイクロフォン１０７により集音され、ネットワーク４０を介してオペレータ端末３０に提供される。翻訳オペレータＯの音声はマイクロフォン３０７により集音され、ネットワーク４０を介してユーザ端末１０に提供される。翻訳オペレータＯの音声はスピーカ１０８から出力される。なお、翻訳オペレータＯの呼接続が切断されると、機械翻訳に戻る。ＵＩ画面には、例えば呼接続が切断するためのボタンが含まれる。

図１０は、話者と翻訳オペレータＯとの会話を例示する模式図である。ユーザ端末１０においてマイクロフォン１０７およびスピーカ１０８は第１話者Ｕ１および第２話者Ｕ２がいずれも使用可能な、いわゆるスピーカフォンの状態であり、互いにユーザ端末１０に向かって話しかけることで会話が成立する。

以上で説明したように本実施形態によれば、サーバ２０における翻訳（いわゆる機械翻訳）の精度が低いときには、自動的に翻訳オペレータＯと呼接続される。

２−２．翻訳精度判定のしきい値の決定
翻訳精度判定のしきい値（以下「精度しきい値」という）は、翻訳支援システム１、第１話者Ｕ１、および第２話者Ｕ２の少なくともいずれか一者の状況に応じて動的に決定される。サーバ２０のＣＰＵ２００は、これらの状況を示す情報を取得し、これを参照して精度しきい値を決定する。以下、精度しきい値の決定方法について具体例を挙げて説明する。以下で説明する精度しきい値の決定は、どのようなタイミングで行われてもよい。例えば、話者の発言毎に精度しきい値の決定が行われてもよいし、定期的に（例えば１日１回）精度しきい値の決定が行われてもよい。以下で説明する決定方法はいずれか１つだけが用いられてもよいし、２つ以上のものが組み合わせて用いられてもよい。このように、状況に応じてしきい値を動的に決定することにより、状況により適したサービスを提供することができる。

２−２−１．翻訳支援システム１の状況に応じた決定
ここでいう翻訳支援システム１の状況とは、第１話者Ｕ１または第２話者Ｕ２の個人的な属性以外の状況をいう。翻訳支援システム１の状況には、例えば以下のものがある。

（１）周囲の雑音
「周囲の雑音」とは、ユーザ端末１０のマイクロフォン１０７が集音する音声のうち、話者の音声以外の音をいう。例えば店舗において雑音（他の店員や客の話し声、館内放送、ＢＧＭ等）が大きいと話者の声と雑音の分離が難しくなり、音声認識における誤認識の原因となる。したがって、雑音レベルが所定のしきい値よりも高い場合、サーバ２０のＣＰＵ２００は、翻訳オペレータＯに接続されやすくなるよう、精度しきい値を上げる。周囲の雑音レベルは、例えば、ユーザ端末１０において、ボタン５５およびボタン５６のいずれも押されていないときに測定される。

（２）店舗の属性
「店舗の属性」とは、ここでは店舗の混雑度に関係する情報をいう。例えば、店舗の所在地や平均来客数がここでいう店舗の属性に相当する。混雑しやすい店舗はそれだけ客が多い可能性が高いので、精度の低い機械翻訳で一人の客の対応に手間取ると、他の客の対応ができなくなってしまう場合がある。したがって、店舗の属性によりその店舗が混雑しやすいと判断される場合、ＣＰＵ２００は、翻訳オペレータＯに接続されやすくなるよう、精度しきい値を上げる。店舗の属性は、例えば、あらかじめデータベースに登録されている。

（３）会話内容
「会話内容」とは第１話者Ｕ１と第２話者Ｕ２との会話（すなわち客と店員との会話）の内容をいう。例えば特定の商品（高額な商品や専門的な商品）の購入を検討している客と店員との会話においては、機械翻訳では齟齬が生じてしまう可能性がある。したがって、会話の内容から例えば特定商品の購入が示唆されるような場合、ＣＰＵ２００は、翻訳オペレータＯに接続されやすくなるよう、精度しきい値を上げる。会話内容は、例えば対象原文に基づいてＣＰＵ２００が判断する。

（４）翻訳オペレータＯの混雑度
翻訳オペレータＯの稼働率が高い場合、例えば、１００人いる翻訳オペレータＯのうち９０人が通話中であるような場合、今後新たな呼接続に対応できる余力は１０人分しか残されていない。このような場合、余力がゼロとなることを避けるため、ＣＰＵ２００は、翻訳オペレータＯに接続されにくくなるよう、精度しきい値を下げる。翻訳オペレータＯの稼働率は、オペレータ端末３０からサーバ２０に送信される稼働状況から得られる。

（５）日時
店舗の混雑度は、日時に応じて変わる。例えば、土曜、日曜、祝日は混雑しやすいので、精度の低い機械翻訳で一人の客の対応に手間取ると、他の客の対応ができなくなってしまう場合がある。したがって、現在日時が混雑しやすい日時帯に入っている場合、ＣＰＵ２００は、翻訳オペレータＯに接続されやすくなるよう、精度しきい値を上げる。

２−２−２．第１話者Ｕ１の状況に応じた決定
（１）第１話者Ｕ１の画像
例えば会話が通じないため第１話者Ｕ１（客）が怒ってしまったような場合、第１話者Ｕ１および第２話者Ｕ２の話している内容を互いに正確に理解するため、翻訳オペレータＯに接続することが望ましい。そこでこの例では、第１話者Ｕ１の画像を用いて、第１話者Ｕ１が怒っているかどうかが判断される。この場合、ユーザ端末１０は、話者の顔を撮影するためのカメラ（図示略）を有している。ＣＰＵ１００は、ボタン５５が押されているときにカメラで話者の顔を撮影する。ＣＰＵ１００は、撮影された画像（静止画または動画）から、話者が怒っているか判断する。話者が怒っていると判断された場合、ＣＰＵ１００は、その旨をサーバ２０に通知する。この通知を受けると、サーバ２０のＣＰＵ２００は、翻訳オペレータＯに接続されやすくなるよう、精度しきい値を上げる。

（２）第１言語
例えば文法構造の違いや辞書の完成度の違いに起因して、特定の言語については他の言語よりも機械翻訳の精度が劣る場合がある。このような場合に対処するため、ＣＰＵ２００は、第１言語の種類に応じて精度しきい値を変更する。

（３）第１話者Ｕ１の個人的な属性
例えば統計調査により、女性は機械翻訳よりも翻訳オペレータＯを好むとか、２０代の若者は翻訳オペレータＯよりも機械翻訳を好むとかいう情報が得られている場合、ＣＰＵ２００は、現在の話者の属性（年齢、性別等）に応じて精度しきい値を変更する。

２−２−３．第２話者Ｕ２の状況に応じた決定
第２話者Ｕ２は店舗の店員であるので、どのような人物であるか事前に分かっている。そこで、話者毎（店員毎）に、精度しきい値が設定される。例えば、英語に堪能な店員に対しては翻訳オペレータＯに接続されにくくなるよう精度しきい値を下げ、英語が苦手な店員に対しては翻訳オペレータＯに接続されやすくなるよう精度しきい値を上げる。第２話者Ｕ２がどの店員であるかは、例えばユーザ端末１０へのログイン処理により特定される。

３．変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち２つ以上のものが組み合わせて用いられてもよい。

３−１．変形例１
翻訳精度が不良範囲にあると判断された場合の処理は、実施形態で説明した、自動的に（強制的に）オペレータ端末３０に呼接続を行うものに限定されない。翻訳精度が不良範囲にあると判断された場合、ＣＰＵ１００は、オペレータ端末３０への呼接続を話者に促す処理を行ってもよい。呼接続を促す処理は、例えば、呼接続を促す音声の出力および呼接続を促す画像の表示の少なくとも一方を含む。

図１１は、呼接続を促す画像を例示する図である。この例では、図９で説明したＵＩ画面上にポップアップウインドウ６０が表示されている。ポップアップウインドウ６０は、呼接続を促すメッセージ６１および呼接続を開始するためのボタン６２を含んでいる。この例で、メッセージ６１は、「翻訳精度が悪いのでオペレータへの接続をお薦めします」という文字列を含んでいる。話者がボタン６２を押すと、ＣＰＵ１００は、オペレータ端末３０との呼接続を行う。ボタン６２が押されないまま一定時間が経過した場合、またはポップアップウインドウ６０を閉じる操作が話者により行われた場合、ＣＰＵ１００は、画面上からポップアップウインドウ６０を消去する。この場合、オペレータ端末３０との呼接続は行われない。

３−２．変形例２
履歴データとして送られる会話の範囲（例えば、直近の２回分を送るのか３回分を送るのか）が、翻訳支援システム１、第１話者Ｕ１、および第２話者Ｕ２の少なくともいずれか一者の状況に応じて動的に決定されてもよい。例えば、第１話者Ｕ１が怒っていると判断された場合には、ＣＰＵ１００は通常よりも過去に遡った履歴をサーバ２０に送信してもよい。あるいは、ユーザ端末１０は、オペレータ端末３０と呼接続したときに履歴データを送信しなくてもよい。

３−３．変形例３
翻訳支援システム１、第１話者Ｕ１、および第２話者Ｕ２の少なくともいずれか一者の状況により音声認識の精度が低下することが想定される状況において、ＣＰＵ１００は、その状況の改善を促すための情報を表示部１０５に表示してもよい。例えば、第１話者Ｕ１が早口で話しているときに、ＣＰＵ１００は、ゆっくり話すことを促すメッセージを表示部１０５に表示してもよい。

３−４．変形例４
翻訳精度の不良範囲の精度しきい値は、話者毎に決定されてもよいし、話者によらず共通のものが用いられてもよい。第１話者Ｕ１と第２話者Ｕ２とで精度しきい値が個別に決定される場合、例えば使用言語や話者に応じてより適切なサービスを提供することができる。話者によらず共通の精度しきい値が用いられる場合、システムの処理負荷を低減することができる。

３−５．変形例５
第２話者Ｕ２（店員）に対する翻訳精度の判定を行わず、第１話者Ｕ１（客）に対してのみ翻訳精度の判定を行ってもよい。この例によれば、両者に対して翻訳精度の判定が行われる場合と比較してシステムの処理負荷を低減することができる。

３−６．変形例６
翻訳オペレータＯの話し言葉が他の言語に翻訳され、その音声および文字列の少なくとも一方がユーザ端末１０において出力されてもよい。翻訳オペレータＯは第１言語および第２言語の双方で話す可能性があるが、例えば、翻訳オペレータＯが第１言語（英語）で話しているときはその第２言語訳（日本語訳）がユーザ端末１０において出力され、第２言語（日本語）で話しているときはその第１言語訳（英語訳）がユーザ端末１０において出力される。この例によれば、例えば第１話者Ｕ１は、自分の発言の再翻訳を確認できることになり、音声認識および翻訳が適切に行われているか確認できる。

３−７．変形例７
翻訳精度が不良範囲にあると判断された場合、サーバ２０による翻訳の結果をユーザ端末１０において出力したうえで、ユーザ端末１０とオペレータ端末３０との呼接続が行われてもよい。すなわち、図６のフローにおいて、ステップＳ１０６において翻訳精度が不良範囲にあると判断された場合、ＣＰＵ２００は、ステップＳ１０７およびＳ１０８に相当する処理を行ってから、ステップＳ１１０の処理を行ってもよい。

３−８．変形例８
ユーザ端末１０およびサーバ２０における機能の分担は実施形態で説明したものに限定されない。実施形態においてサーバ２０の機能として説明したものの少なくとも一部を、ユーザ端末１０に実装してもよい。あるいは、実施形態においてユーザ端末１０の機能として説明したものの一部を、サーバ２０に実装してもよい。例えば、音声認識、翻訳、翻訳精度の判定、および音声合成の少なくとも１つがサーバ２０ではなくユーザ端末１０において行われてもよい。

図１２は、変形例８に係るユーザ端末１０の機能構成を例示する図である。この例では、ユーザ端末１０に機能が集約されている。この例で、ユーザ端末１０は、表示手段１１、音声入力手段１２、音声取得手段１３、通信手段１５、音声出力手段１６、処理手段１７、音声認識手段２２、翻訳手段２３、判定手段２５、および接続制御手段２６を有する。

３−９．他の変形例

実施形態で説明したＵＩ画面はあくまで例示であり、ＵＩ画面はこれに限定されない。例えば、ＵＩ画面は、話者を特定するためのボタン５５およびボタン５６を含んでいなくてもよい。この場合において、ユーザ端末１０またはサーバ２０は、話者の音声によりその言語を判定してもよい。

図２に例示した機能構成の一部は省略されてもよい。例えば、情報取得手段２７および決定手段２８は省略されてもよい。また、要求される機能を実現するためのハードウェア構成は、図３〜５で例示したものに限定されない。ユーザ端末１０、サーバ２０、およびオペレータ端末３０は、それぞれ、どのようなハードウェア構成を有していてもよい。

上述の実施形態においてＣＰＵ１００等によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスク（ＨＤＤ、ＦＤ（Flexible Disk））など）、光記録媒体（光ディスク（ＣＤ（Compact Disk）、ＤＶＤ（Digital Versatile Disk））など）、光磁気記録媒体、半導体メモリ（フラッシュＲＯＭなど）などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。

１…翻訳支援システム、１０…ユーザ端末、２０…サーバ、３０…オペレータ端末、４０…ネットワーク、１１…表示手段、１２…音声入力手段、１３…音声取得手段、１４…送信手段、１５…通信手段、１６…音声出力手段、２１…受信手段、２２…音声認識手段、２３…翻訳手段、２４…送信手段、２５…判定手段、２６…接続制御手段、２７…情報取得手段、２８…決定手段、３１…通信手段、１００…ＣＰＵ、１０１…ＲＯＭ、１０２…ＲＡＭ、１０３…ストレージ、１０４…通信ＩＦ、１０５…表示部、１０６…タッチセンサ、１０７…マイクロフォン、１０８…スピーカ、２００…ＣＰＵ、２０１…ＲＯＭ、２０２…ＲＡＭ、２０３…ストレージ、２０４…通信ＩＦ、３００…ＣＰＵ、３０１…ＲＯＭ、３０２…ＲＡＭ、３０３…ストレージ、３０４…通信ＩＦ、３０５…表示部、３０６…キーボード、３０７…マイクロフォン、３０８…スピーカ

Claims

第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の顔の画像を取得する情報取得手段と、
前記画像から前記話者が怒ってると判断された場合、当該話者が怒っていないと判断される場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の周囲の雑音レベルを示す情報を取得する情報取得手段と、
前記雑音レベルが雑音しきい値よりも高い場合、当該雑音レベルが当該雑音しきい値以下である場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記オペレータの稼働率を示す情報を取得する情報取得手段と、
前記稼働率が稼働率しきい値よりも高い場合、当該稼働率が当該稼働率しきい値以下である場合と比較して前記不良範囲にあると判定されにくくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記音声取得手段によって取得された音声により示される会話の内容を示す情報を取得する情報取得手段と、
前記会話において特定の商品の購入が示唆される場合、当該商品の購入が示唆されない場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
前記オペレータへの呼接続時に、前記音声または当該音声に対する音声認識の結果である文字列の履歴を当該オペレータに送信する送信手段
を有する請求項１ないし４のいずれか一項に記載の翻訳支援システム。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の顔の画像を取得する情報取得手段と、
前記画像から前記話者が怒ってると判断された場合、当該話者が怒っていないと判断される場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の周囲の雑音レベルを示す情報を取得する情報取得手段と、
前記雑音レベルが雑音しきい値よりも高い場合、当該雑音レベルが当該雑音しきい値以下である場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記オペレータの稼働率を示す情報を取得する情報取得手段と、
前記稼働率が稼働率しきい値よりも高い場合、当該稼働率が当該稼働率しきい値以下である場合と比較して前記不良範囲にあると判定されにくくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
第１言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第２言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記音声取得手段によって取得された音声により示される会話の内容を示す情報を取得する情報取得手段と、
前記会話において特定の商品の購入が示唆される場合、当該商品の購入が示唆されない場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。